PolyAnanlyst - это модель, выполняющая интеллектуальный анализ текстов. Проводится автоматическое определение языка (из 54 мировых языков), токенизация, исправление орфографических ошибок, определения частей речи и прочих грамматических характеристик слов (род, число, падеж), лемматизация, синтаксический анализ, лексический анализ, мофрологический анализ. Далее возможно в автоматическом режиме извлекать информацию (сущности, факты, тональности) из больших наборов неструктурированных текстовых данных, классифицировать и кластеризовать текстовые документы.

PolyAnanlyst

#новая_модель #TensorFlow1

3/5

ООО "Компания Мегапьютер Интеллидженс"

Опубликовано 30.07.2024

PolyAnanlyst

Подробная информация о модели:

Авторы: ООО "Компания Мегапьютер Интеллидженс"

Тип модели: новая модель

Рекомендации по использованию (формат входных и выходных данных, рекомендации по настройке): текстовые документы или электронные таблицы с текстовыми колонками

Фреймворк: Другой

Открытость: Несвободного использования

Наличие пропусков: Менее 5% или пропуски объясняются природой данных

Наличие аномальных данных: Менее 1%

Согласованность форматов данных: Признаки с несогласованным форматом отсутствуют

Уникальность данных: Обучающий набор содержит менее 5% дубликатов или их присутствие обосновано условиями решаемой задачи

Доля объектов, содержащих не соответствующие действительности данные: Несоответствующие действительности данные отсутствуют

Сбалансированность классов (для задач классификации): Доли классов в обучающей и тестовой выборках одинаковы

Наличие артефактов обработки: Менее 10%.

Согласованность временных данных (для временных рядов): Не применимо

Наличие документации с описанием признаков, их источников и методов предварительной обработки: Детально описаны источники, форматы, процедуры и инструменты предварительной обработки данных

Достоверность источников данных: только достоверные источники

Достаточность датасета для обучения: исследуемый датасет составляет 50-100% от среднего по отрасли

Уровень технологической готовности: MLTRL 9: Массовая промышленная эксплуатация.

Отсутствие данных из обучающей выборки в тестовой: Выборки независимы и представлено подтверждение.

Соотношение размеров обучающей и тестовой выборок: Тестовая выборка составляет 10-30% от общей или обоснована необходимость другого соотношения.

Предотвращение переобучения: Методы предотвращения переобучения применялись.

Отбор признаков: Оценено влияние каждого признака на результат работы модели, неинформативные признаки исключены или отбор не применим.

Оптимизация гиперпараметров: Методы оптимизации гиперпараметров не применялись.

Анализ разложения ошибки на смещение и разброс: Анализ производился или анализ не применим для оцениваемого случая.

Входной контроль данных: Проводится комплексная проверка и обработка входящих данных или проверка не требуется.

Интерпретируемость результатов: Обеспечена интерпретируемость результатов работы модели.

Возможности предварительной настройки: Предварительная настройка доступна или не требуется.

Инструменты визуализации и контроля: Модель имеет в составе все необходимые инструменты визуализации и контроля.

Требования к компетенциям пользователя: Применять и интерпретировать результаты могут специалисты анализу данных и машинному обучению.

Зависимость от зарубежных/открытых библиотек и инструментов: Меньше половины используемых библиотек и инструментов не являются отечественными.

Документация к модели: Представлены инструкции по применению модели и ожидаемый результат.

Сбалансированность данных обучения и теста (для задач классификации): Доли классов в обучающей и тестовой выборках одинаковы.

Решение моделью актуальных отраслевых задач (применимо для моделей, не носящих исследовательский характер): Модель имеет потенциал применения в 2 или более отраслях.

Метрики качества машинного обучения: Результаты работы модели значительно улучшают исходный процесс или превосходят среднеотраслевые.

Новизна модели: Существуют зарубежные аналоги, отсутствуют российские.

Стабильность: Качество работы модели сохраняется.

Робастность: Наблюдается допустимое снижение качества.

Автономность: Требуется минимальное человеческое участие.

Опытная эксплуатация: Модель тестировалась в реальном рабочем режиме с подтверждением эффективности.

Масштаб применимости: Число потенциальных пользователей превышает 5 или модель можно применять в 2 и более отраслях

Обоснованность потребляемых вычислительных ресурсов: Эффективное потребление вычислительных ресурсов

Уровень технологической зрелости (MLTRL): MLTRL 9: Массовая промышленная эксплуатация.

На каких условиях предоставляется доступ к ML-модели: Возможно предоставление бесплатного демо-доступа, ограниченного по времени

Доступность модели и наличие возможных барьеров для тестирования для зарубежных разработчиков: Нет барьеров

Made on
Tilda