Los números no Mienten
Comparamos LEMoE contra arquitecturas MoE tradicionales para demostrar la verdadera eficiencia de descentralizar los expertos.
Consumo de Memoria RAM
Las arquitecturas MoE comerciales como Mixtral 8x7B (el referente open-weights) obligan a cargar todos los expertos en memoria de forma simultánea, incluso si solo se usan dos a la vez. LEMoE rompe este límite manteniendo solo el router en memoria activa.
* Basado en 1.5GB del Router E5 + 500MB del modelo experto activo de referencia (grape-malbec). Los demás expertos pueden delegarse a APIs externas sin impacto en RAM.
Sobrecarga de Latencia (Overhead)
¿Cuánto tiempo penaliza pasar por el Router antes de llegar al modelo final? Casi nada. El vectorizador E5 y el cálculo de distancia coseno están optimizados al milímetro.
Una fracción de segundo que ahorra gigabytes de procesamiento y dinero en APIs.