Lunary es una herramienta de observabilidad y evaluación para aplicaciones de IA basadas en modelos de lenguaje de gran tamaño. Ayuda a los equipos a entender cómo se comporta su IA en producción mediante la recopilación de métricas clave, registros y comportamiento de los usuarios.
Observabilidad de LLM y chatbots
Lunary hace seguimiento de las solicitudes y respuestas del modelo, los errores y la latencia para que los desarrolladores puedan ver dónde cambia la calidad con el tiempo y dónde se atascan los usuarios.
Registro de solicitudes/respuestas para llamadas a LLM
Supervisión de errores y latencia
Paneles centrados en chatbots para detectar huecos entre la intención del usuario y la salida del modelo
Gestión de prompts y experimentos
Guarda y versiona prompts, compara el rendimiento y ejecuta pruebas A/B para iterar más rápido sobre el texto de los prompts y las configuraciones del modelo.
Biblioteca de prompts con control de versiones
Comparación del rendimiento de prompts
Pruebas A/B para prompts y configuraciones
Evaluación de calidad y analítica de producto
Combina evaluaciones automáticas y manuales, etiqueta conversaciones y analiza la calidad por escenario. Las métricas de producto ayudan a conectar el comportamiento del LLM con los resultados de negocio.
Flujos de trabajo de revisión automática y humana
Etiquetado de conversaciones y análisis basado en escenarios
Métricas vinculadas a retención, conversión y sesiones exitosas

