Run — это инструмент для оптимизации и управления AI-инфраструктурой. Система помогает максимально использовать вычислительные ресурсы, особенно GPU, для ускорения и эффективного распределения AI-задач. Платформа построена на базе Kubernetes и требует базовых знаний этой системы для развертывания и работы.
Основные возможности
- Динамическое распределение AI-нагрузок между пользователями и проектами.
- Полная видимость загрузки инфраструктуры, использования GPU и активности пользователей.
- Настраиваемые рабочие пространства с выбором инструментов и фреймворков.
- Гибкое управление квотами и политиками доступа.
- Продвинутая система планирования задач (AI Workload Scheduler).
- Технология дробления GPU (GPU Fractioning) для запуска нескольких задач на одном GPU.
Платформа интегрируется с облачными и локальными средами, поддерживает многопользовательский режим и масштабируется для крупных проектов. Для работы требуется установленный Kubernetes-кластер. Используется в исследовательских центрах, компаниях с большими AI-проектами и инфраструктурой машинного обучения. Последние обновления добавили улучшения в мониторинге, новые сценарии дробления GPU и расширенную аналитику загрузки ресурсов.