Подробная информация о модели:
Авторы: Газпром-нефть Цифровые Решения
Тип модели: Новая модель
Рекомендации по использованию (формат входных и выходных данных, рекомендации по настройке): Тип входных данных: текстовый запрос на естественном языке. Тип выходных данных: текстовый ответ в свобожной форме или в форме отчета
Фреймворк: Transformers
Открытость: Несвободного использования
Наличие пропусков: Менее 5% или пропуски объясняются природой данных
Наличие аномальных данных: 5-10%
Согласованность форматов данных: В данных присутствуют признаки с несогласованным форматом
Уникальность данных: Обучающий набор содержит менее 5% дубликатов или их присутствие обосновано условиями решаемой задачи
Доля объектов, содержащих не соответствующие действительности данные: Несоответствующие действительности данные отсутствуют
Наличие артефактов обработки: 30% и более
Согласованность временных данных (для временных рядов): Не применимо
Наличие документации с описанием признаков, их источников и методов предварительной обработки: Документация отсутствует
Достоверность источников данных: только достоверные источники
Достаточность датасета для обучения: Исследуемый датасет составляет 50-100% от среднего по отрасли
Отсутствие данных из обучающей выборки в тестовой: Выборки независимы и представлено подтверждение
Соотношение размеров обучающей и тестовой выборок: Тестовая выборка составляет 10-30% от общей или обоснована необходимость другого соотношения.
Предотвращение переобучения: Методы предотвращения переобучения применялись и представлен сравнительный анализ до и после их применения
Отбор признаков: Методы отбора признаков не применялись, вклад каждого признака в итоговый результат неизвестно
Оптимизация гиперпараметров: Методы оптимизации гиперпараметров применялись
Анализ разложения ошибки на смещение и разброс: Анализ производился или анализ не применим для оцениваемого случая
Входной контроль данных: Проводится комплексная проверка и обработка входящих данных или проверка не требуется
Интерпретируемость результатов: Обеспечена интерпретируемость результатов работы модели
Возможности предварительной настройки: Предварительная настройка доступна или не требуется
Инструменты визуализации и контроля: Модель имеет в составе все необходимые инструменты визуализации и контроля
Требования к компетенциям пользователя: Применять и интерпретировать результаты могут специалисты анализу данных и машинному обучению
Зависимость от зарубежных/открытых библиотек и инструментов: Больше половины используемых библиотек не являются отечественными
Документация к модели: Документация отсутствует
Решение моделью актуальных отраслевых задач (применимо для моделей, не носящих исследовательский характер): Модель имеет потенциал применения в 2 или более отраслях
Метрики качества машинного обучения: Результаты работы модели значительно улучшают исходный процесс или превосходят среднеотраслевые
Новизна модели: Аналоги отсутствуют
Стабильность: Качество работы модели сохраняется
Робастность: Качество работы модели сохраняется
Автономность: Модель способна самостоятельно получать и применять необходимые результаты
Опытная эксплуатация: Модель не тестировалась или результаты тестов не подтвердили заявленные показатели результативности
Масштаб применимости: Число потенциальных пользователей превышает 5 или модель можно применять в 2 и более отраслях
Обоснованность потребляемых вычислительных ресурсов: Эффективное потребление вычислительных ресурсов
Сбалансированность классов. (для задач классификации): Не используется для задач классификации
Сбалансированность данных обучения и теста (для задач классификации): Доли классов в обучающей и тестовой выборках одинаковы