Датасет представляет собой доработанную версию microsoft/layoutlm-base-uncased на наборе данных funsd. Включает 199 реальных, полностью аннотированных, отсканированных форм. Документы зашумлены и сильно различаются по внешнему виду, что делает понимание форм (FoUn) сложной задачей. Предлагаемый набор данных может использоваться для различных задач, включая обнаружение текста, оптическое распознавание символов, анализ пространственной компоновки и маркировку/связывание сущностей.

Датасет «FUNSD»

3/5

Опубликовано 13.12.2024

Датасет «FUNSD»

Made on
Tilda