Parascript FormXtra.AI 8.3 – решение для обработки неструктурированных документов

Компания Parascript, уже более 25 лет обеспечивающая высокопроизводительную автоматизацию и ежегодно обрабатывающая более 100 миллиардов документов, выпустила новую версию пакета инструментальных средств разработки программ FormXtra.AI, обеспечивающую дальнейшее расширение поддержки потребностей в высокоэффективных средствах интеллектуальной обработки документов (IDP), которая на этот раз распространяется на принципиально неструктурированные данные, в частности контракты и другие насыщенные текстом документы с отсутствием единообразия.

«Одна из потребностей, о которой мы неоднократно слышали как от партнеров, так и от клиентов, заключается в возможности автоматизации анализа и извлечения данных из неструктурированных документов, в частности тех, которые, как правило, встречаются в составе кредитной документации и медицинских карт», — заявил вице-президент по маркетингу и управлению продукцией компании Parascript Грег Каунсил (Greg Council).

В версии 8.3 инструментального пакета FormXtra.AI компания Parascript дополнительно вводит обучаемые средства синтаксического анализа текста на грамматической основе с использованием методик обработки естественного языка (NLP) для нахождения необходимой информации, зачастую скрывающейся внутри пунктов текста. Поскольку эта возможность входит в состав комплекса Smart Learning, клиенты пользуются теми же преимуществами, которые обусловлены значительными сокращениями конфигурации, оптимизацией и развертыванием. Вот несколько ключевых моментов:

FormXtra.AI 8.3 выгодно отличается возможностью работы с неструктурированным и рукописным текстом.
Что такое неструктурированный текст? Если вы когда-либо видели страховой полис или информацию, напечатанную мелким шрифтом в договоре на обслуживание кредитной карты, это и есть неструктурированная информация. Это разновидности важной информации, которые не поддаются традиционным методикам сбора данных с использованием координат или ключевых слов, которые могли бы указывать их местоположение на странице или в документе. Используя в качестве основы новые технологии глубокого машинного обучения и NLP, клиент просто помечает целевые данные на образцах, а все остальное делает система. Алгоритмы NLP автоматически анализируют представленные примеры, интерпретируют тип и контекст, сопровождающий целевые данные, выбирают оптимальную схему последовательных элементов в зависимости от типа местоположения, формата значений и других свойств целевых полей, а также узнают, как гарантированно находить аналогичные данные в документах. Для пользователей это означает, что Parascript существенно расширяет типы приложений и диапазон документов, которые могут обрабатываться с использованием FormXtra.AI.

Инструментальный пакет SignatureXpert.AI полностью интегрирован в/с FormXtra.AI 8.3.
SignatureXpert.AI— продукт нового поколения, базирующийся на новейших методиках и принципах анализа изображений и распознавания образов с применением искусственного интеллекта (ИИ) и основанный на более чем 15-летнем опыте в области нахождения и верификации подписей. Результатом этого является качественно новая, более точная по сравнению с человеком автоматизация выполнения целого ряда задач, связанных с проверкой подлинности подписей. SignatureXpert.AI работает с документами, имеющими широкий диапазон разрешений (96-300 точек на дюйм), и успешно находит целевые подписи на любых типах документов, в том числе имеющих рукописную информацию помимо фактических подписей.

К числу других улучшений и усовершенствований относятся:

Добавленная функция автоматического формирования страницдля документов с заполненными вручную полями. FormXtra.AI имеет ряд возможностей, превращающих трудоемкие задачи настройки извлечения данных в нечто не более сложное, чем нажатие кнопки. Функционал автоматического формирования страниц теперь расширен за счет возможности работы с рукописными документами. Пользователю достаточно импортировать образцы изображений страницы и соответствующие правильные значения целевых полей на них — остальное выполняет программа.

Добавленные стандартные документы,в частностиканадские счета-фактуры, в подборку готовых к использованию определений. Это повышает практичность и удобство применения продукта за счет обеспечения точно настроенного и готового к использованию комплексного решения для широко используемого типа общей документации.

Улучшенные и усовершенствованные возможности нахождения и распознаваниядля различных типов полей—количество, инициалы, дата, номер кредитной карты, VIN-номер и пр. — с целью повышения эффективности и гибкости при работе с этими полями. Эти поля находятся и считываются с трудом из-за разнообразия форматов, широты контекста, двусмысленности при толковании и т.д. Обработка документов, содержащих эти поля, может быть довольно затруднительной по причине наличия различных форм компоновки, низкого качества, сложного фона и пр.