Датасет представляет собой доработанную версию microsoft/layoutlm-base-uncased на наборе данных funsd. Включает 199 реальных, полностью аннотированных, отсканированных форм. Документы зашумлены и сильно различаются по внешнему виду, что делает понимание форм (FoUn) сложной задачей. Предлагаемый набор данных может использоваться для различных задач, включая обнаружение текста, оптическое распознавание символов, анализ пространственной компоновки и маркировку/связывание сущностей.
Датасет «FUNSD»
3/5
Опубликовано 13.12.2024
Датасет «FUNSD»