Middleware Inteligente

Enruta cada prompt al Experto Perfecto.

LEMoE actúa como el cerebro central entre tus usuarios y la Inteligencia Artificial. Analiza lo que necesitas y redirige la conversación al modelo ideal en milisegundos, ya sea en la nube o en tus propios servidores locales.

lemoe

¿Por qué usar LEMoE?

Diseñado para velocidad, privacidad y flexibilidad máxima.

Enrutamiento Inteligente

Motor de decisión semántico 100% local. Comprende el contexto real de cada mensaje al instante y selecciona el modelo adecuado sin enviar tus datos a la nube.

Eficiencia Extrema

Sistemas súper optimizados. En pruebas de estrés reales con 15 expertos disponibles en el sistema, el núcleo consume únicamente 1,5 GB de RAM.

Seguridad Auditada

Al ser de código abierto y auditable, garantizamos transparencia. Previene Path Traversal, SSRF y ofusca logs sensibles automáticamente.

Multi-Backend

Conecta modelos locales de Ollama, inferencia ultraligera en RAM (ONNX), Llama.cpp y APIs externas (Groq, OpenAI) en un solo sistema central.

Ver todas las características

Cómo funciona la magia

Una arquitectura sólida que decide en milisegundos.

Frontend (UI)
"comando para levantar nginx en el puerto 80"
LEMoE Router
Vectorización E5 + Softmax (Score: 0.98)
API Externa (OpenAI Compatible)
Experto Legal / Copywriter
Local ONNX (T5)
Experto DevOps (malbec)
Ollama Local
Programador Python

Resolviendo Problemas Reales

Cómo LEMoE se adapta a tu infraestructura.

Centralita IA

Un solo bot que desvía preguntas de clientes a modelos especializados (legal, soporte, envíos) en milisegundos.

Zero Data Leak

Mantiene tu código y secretos en servidores locales seguros, mientras saca a la nube pública solo consultas triviales.

Smart Routing

Ahorra miles de dólares enviando tareas fáciles a modelos gratuitos locales y usando APIs premium solo cuando es necesario.

Escala Empresarial

De cara al usuario solo existe un único "modelo". Toda la complejidad de orquestar 15 o 100 expertos por detrás es 100% invisible para ellos.

Explorar Casos de Uso

Planes de Precio

Licencia Abierta. Listo para adaptarse a tu nivel de adopción de Inteligencia Artificial.

🟢 Community

Gratis / Self-hosted

Dirigido a: Desarrolladores individuales, estudiantes y Startups muy pequeñas (1-5 empleados).

  • Uso interno exclusivamente (No comercial)
  • Código completo en GitHub
  • Soporte de la comunidad
Descargar Código
RECOMENDADO

🟣 Próximamente

Comercial

Dirigido a: Agencias, PYMES y grandes corporaciones que quieran usar LEMoE de forma comercial (Startups a Enterprise).

  • Permiso para uso comercial legal
  • Soporte prioritario / directo con el creador
  • Consultoría, Onboarding y SLA
Contactar

Preguntas Frecuentes

Resolvemos las dudas típicas antes de que las tengas.

¿Necesito una tarjeta gráfica (GPU) potente para usar ONNX? +
No. El ONNXRunner de LEMoE está diseñado para ejecutar la inferencia de modelos pequeños en CPU cargándolos directamente en la memoria RAM del sistema. De hecho, está tan optimizado que funciona perfectamente en hardware modesto.
¿Puedo conectar a Anthropic o Gemini en lugar de OpenAI? +
LEMoE habla el dialecto universal de OpenAI (/v1/chat/completions). Puedes conectar APIs de terceros sin problema usando proxies que traduzcan la API (como LiteLLM) o usar directamente aquellas que ya son compatibles de forma nativa (como Groq, Together, etc).
¿Cuántos expertos puedo poner de máximo? +
Prácticamente ilimitados. El router compara vectores matemáticos mediante la similitud del coseno de forma ultrarrápida. Tener 50 o 100 expertos solo añadirá unos pocos milisegundos extra a la fase de decisión, siendo imperceptible para el usuario humano.
¿Puedo usar un modelo de routing personalizado? +
Sí. Aunque por defecto LEMoE usa modelos rápidos de HuggingFace como E5-small, puedes configurar tu propio modelo o algoritmo de routing en el backend para adaptar la lógica de decisión a tus necesidades exactas.
¿Qué pasa si mi servidor se queda sin RAM? +
Para los modelos locales (ONNX), LEMoE implementa un sistema de Caché LRU (Least Recently Used). Puedes limitar, por ejemplo, que solo haya 2 modelos cargados a la vez. Cuando se llama al tercero, LEMoE expulsa automáticamente de la memoria al modelo que lleva más tiempo sin usarse.