
Cognitive Scanpack побеждает ABBYY FineReader
Единый формат файлов представляет собой подмножество XML-схем, что обеспечивает с одной стороны возможность работы с файлами в данном формате стандартным XML-инструментарием, а с другой стороны упрощает разрабатываемые программы для импорта/экспорта структурированных данных в этом формате.
На практике подсистемы отличаются по многим характеристикам, и создать формат данных, с которым работали бы абсолютно все подсистемы, и при этом использовались бы возможности их всех, практически невозможно. Поэтому подсистемы, соответствующие данному описанию, делятся на три группы по уровню совместимости:
Основные принципы:
Что касается эффективности, то данный формат предназначен для организации передачи данных между различными информационными системами. Поэтому программы разбора будут иметь содержательную функциональность, и, как следствие, не самую высокую производительность. Следовательно, не рекомендуется применять полновесный разборщик в приложениях реального времени, где от этого может пострадать общая производительность системы.
Файл в едином формате представляет собой пакет документов. С логической точки зрения пакет состоит из одного или нескольких структурированных документов. Полями документов могут быть, в том числе, и бинарные (неструктурированные) данные. Это позволяет хранить в пакете данные произвольной природы. С физической точки зрения пакет состоит из одного или нескольких файлов. Один из файлов является главным, остальные - присоединенными. Главный файл содержит основную информацию о пакете, присоединенные - документы или бинарные данные, если они не хранятся внутри главного файла.
Главный файл представляет собой сообщение в формате SOAP. Содержимое SOAP-заголовка данный стандарт не регламентирует. Прикладные программы должны заполнять заголовок с учетом потребностей конкретной среды передачи данных. Тело пакета состоит из одного или нескольких документов. Каждый документ может содержаться непосредственно в сообщении, а может в присоединенном файле.
Экспортирующая программа может самостоятельно решать вопрос о распределении документов - во внешние файлы или в тело сообщения. Однако размер сообщения и каждого из документов не должен превышать 10 Mb. Размер пакета в целом не ограничивается. Импортирующая программа может целиком загружать в память файл сообщения или отдельный документ, например, средствами DOM (Document Object Modal). Однако она не должна загружать целиком пакет, т.к. никаких гарантий о его размере импортирующая программа не имеет.
В пакет могут входить разные типы документов. Стандарт предусматривает несколько стандартных типов, прикладные программы могут вводить свои. Среди стандартных типов особо выделяется схема. Схема используется для проверки документов и для передачи информации об их структуре. Каждая схема имеет собственный глобально уникальный идентификатор. В качестве этого идентификатора используется URI.
Передача пакета осуществляется одним из двух способов:
Данный формат является ограниченно платформонезависимым. Это означает, что при отсутствии шифрования и электронно-цифровой подписи файл может быть записан на одной операционной системе, а прочитан на другой. Поддерживаются следующие операционные системы: WIN32, DOS, UNIX, OS/400, MacOS.
Формат основывается на следующих стандартах: XML, XML Schema, SOAP/XML Protocol, XML Encryption, XML Signing, XML Key Management.
Полное описание Единого формата файлов (400 Кб, .doc)