Управление документами - система извлечения содержимого и структуры текстовых документов
Управление документами - универсальная открытая система для приведения документов к единому
выходному формату. Автоматически извлекает содержимое, логическую
структуру, таблицы, форматирование и метаинформацию. Содержимое
документов представляется в виде дерева, кодирующего заголовки и списки
различного уровня вложенности. Модуль может встраиваться как отдельный
компонент в системы анализа структуры и содержимого документов.
Особенности и преимущества
Управление документами реализован на языке Python. Работает со слабоструктурированными
форматами данных (DOC*, ODT, XLS/XLSX, CSV, TXT, JSON) и с
неструктурированными форматами изображений (PNG, JPG и др.), архивами
(ZIP, RAR и др.), PDF, HTML. Извлечение структуры документа проводится в
полностью автоматическом режиме вне зависимости от типа входных данных,
с извлечением метаинформации и разного вида форматирования текста.
Управление документами – это:
- Расширяемость за счёт гибкого добавления поддержки новых форматов документов и простоты изменения выходного формата данных.
- Поддержка извлечения структуры вложенных документов различных форматов.
- Извлечение разного вида форматирования текста (отступы, шрифты, жирность, размер шрифта и др.).
- Работа
с документами различной предметной области (технические задания,
нормативно-правовые акты, научные отчёты и статьи) и возможность
добавления обработки документов новой предметной области.
- Работа с PDF-документами, содержащими текстовый слой:
- поддержка автоматического определения корректности текстового слоя.
- Извлечение табличной информации из DOC*, PDF-документов, HTML, форматов изображений, CSV:
- распознавание
физической структуры и текста ячеек сложных многостраничных таблиц с
границами на изображениях с помощью методов контурного анализа.
- Работа со сканированными документами (формата PDF без текстового слоя и форматами изображений):
- работа
с активно развивающимся движком оптического распознавания символов OCR
Tesseract компании Google в совокупности с использованием методов
предварительной обработки изображений;
- использование современных
методов машинного обучения для определения ориентации документов,
определения одно/многоколоночных документов, полужирного текста и
извлечения иерархической структуры на основе классификации строк
извлечённых признаков из изображений документов.
Для кого предназначена система управлением документами?
- Разработчики прикладных систем анализа содержимого документов и документооборота.
- Разработчики интеллектуального анализа текста документов.
- Разработчики систем автоматической обработки текстов.
Поддерживаемые языки
Русский и английский.