Los números no Mienten

Comparamos LEMoE contra arquitecturas MoE tradicionales para demostrar la verdadera eficiencia de descentralizar los expertos.

Consumo de Memoria RAM

Las arquitecturas MoE comerciales como Mixtral 8x7B (el referente open-weights) obligan a cargar todos los expertos en memoria de forma simultánea, incluso si solo se usan dos a la vez. LEMoE rompe este límite manteniendo solo el router en memoria activa.

Mixtral 8x7B (4-bit quant) ~32.0 GB
LEMoE (Router + 1 Experto Activo) 2.0 GB

* Basado en 1.5GB del Router E5 + 500MB del modelo experto activo de referencia (grape-malbec). Los demás expertos pueden delegarse a APIs externas sin impacto en RAM.

Sobrecarga de Latencia (Overhead)

¿Cuánto tiempo penaliza pasar por el Router antes de llegar al modelo final? Casi nada. El vectorizador E5 y el cálculo de distancia coseno están optimizados al milímetro.

Limpieza de Texto 12ms
Vectorización (E5) 180ms
Softmax & Enrutamiento 8ms

Una fracción de segundo que ahorra gigabytes de procesamiento y dinero en APIs.