Модуль сканирования и распознавания «К-Док»

СДЦ > Решения > Модуль сканирования и распознавания «К-Док»

Ни для кого не секрет, что средства поиска SharePoint являются мощным инструментом в повседневной деятельности каждой компании, использующей корпоративный портал от Microsoft. Так, при поиске учитываются словоформы и морфология, то есть не нужно заботиться о вводе точной фразы, потому что слова «портал» и «портале» система распознает как одно слово «портал». Результаты поиска будут ранжированы, поэтому поиск всегда будет релевантным, так как наиболее подходящие результаты будут первыми в списке. Кроме того, в SharePoint реализована возможность полнотекстового поиска  по  текстовому содержимому электронных документов. Однако значительную часть документов в любой компании занимают отсканированные копии бумажных документов, не имеющие электронной текстовой версии. Кроме того, что помещение таких документов в SharePoint включает в себя промежуточный этап сохранения электронной копии документа на компьютер пользователя, найти такие документы по текстовому содержимому стандартными средствами не представляется возможным. Именно поэтому было принято решение разработать программное обеспечение Модуль сканирования и распознавания К-Док, которое расширяет базовую функциональность SharePoint, позволяя сканировать документ напрямую на портал и осуществлять поиск графического документа по его текстовому содержимому.

Возможности решения

Модуль сканирования и распознавания К-Док способен производить распознавание текста графических файлов, находящихся в библиотеках документов SharePoint. При этом пользователь имеет возможность в настройках библиотеки управлять механизмом распознавания текста, то есть указывать следует ли распознавать текст в файлах данной библиотеки, или нет, как показано на рисунке 1.

Рисунок 1.  Управление механизмом распознавания текста

Рисунок 1. Управление механизмом распознавания текста

Кроме того,  предусмотрена функция распознавания текста документа в индивидуальном порядке, она представлена на рисунке 2.

Рисунок 2.  Распознавание текста документа в индивидуальном порядке

Рисунок 2. Распознавание текста документа в индивидуальном порядке

Для контроля над работой Модуля сканирования и распознавания К-Док предназначен журнал распознавания текста, в котором отображаются текущие состояния документов, поставленных в очередь на распознавание – рисунок 3.

Рисунок 3.  Очередь документов для распознавания

Рисунок 3. Очередь документов для распознавания

На рисунке 4 представлена уже обработанная очередь документов, где пользователю предоставлена информация о результатах распознавания.

Рисунок 4. Журнал распознанных документов

Рисунок 4. Журнал распознанных документов

Так по графическому документу Страница Трудового кодекса.tif в результате распознавания был получен текст. Сам файл предварительно был помещен в библиотеку документов SharePoint. На рисунке 5 показано, что исходный документ удалось найти по его текстовому содержимому, используя стандартные средства SharePoint, где в качестве ключевого слова поиска была указана фраза «Цели и задачи законодательства».

Рисунок 5. Результаты поиска

Рисунок 5. Результаты поиска

Пользователь, используя браузер, способен сканировать бумажные документы и сохранять их электронные копии в библиотеку SharePoint, при этом операция сканирования совмещена с операцией выгрузки документа на портал. Кроме того, сохраняемое изображение конвертируется в формат PDF с текстовым слоем, который получается в результате оптического распознавания текста.

На рисунке 6 представлено приложение Модуль сканирования К-Док, которое реализует функции сканирования и помещения документов на портал. Программное обеспечение не требует ручной установки на компьютер пользователя, система предложит установить необходимые компоненты при первом использовании.

Рисунок 6.  Модуль сканирования К-Док

Рисунок 6. Модуль сканирования К-Док

Приложение поддерживает такие возможности сканеров как двустороннее сканирование и автоматическая подача оригиналов. Эти функции чрезвычайно полезны, т. к. в купе с возможностью сохранения нескольких изображений в один документ позволяют автоматизировать процесс оцифровки архивов. Для этого сотруднику достаточно положить в устройство стопку бумаги, и начать процесс сканирования, а по его завершению  сохранить файл в библиотеку документов SharePoint. Для тонкой настройки качества сканирования реализована возможность вызова меню используемого сканера, где пользователь может произвести специфическую  настройку, не предусмотренную интерфейсом программы.

Характеристики Модуля сканирования и распознавания К-док

Поддерживаемые форматы

Модуль сканирования и распознавания К-Док способен работать со следующими графическими форматами: BMP, EMF, GIF, JPEG, PNG, TIFF (в т. ч. многостраничный).

Ведется работа над распознаванием текста в файлах формата PDF.

Распознавание текста

При оптическом распознавании приложение извлекает текст, игнорируя разметку. Программное обеспечение позволяет извлекать текст из двуязычных документов, в которых используются русские и английские символы. Качество распознавания сильно зависит от качества изображения, в идеальном случае точность распознавания превышает 95%.

Системные требования

Серверная часть:

  • Microsoft Windows Server 2008 R2 SP1 или выше;
  • Microsoft SharePoint Server 2013;
  • Microsoft SQL Server 2008 R2 SP1 или выше.

Клиентская часть:

  • Internet Explorer 8 или выше, Mozilla Firefox и Google Chrome последних версий;
  • .NET Framework 4.0.

Дистрибутив можно скачать по ссылке загрузки.

Надеемся, что предоставленный инструмент окажется Вам полезным.

Отчеты об ошибках и результатах использования, как и пожелания, пожалуйста, отправляйте по адресу support@sdcv.ru.

Полезные ссылки:

  1. Дистрибутив приложения (ссылка);
  2. Пример страницы для распознавания (ссылка);
  3. Результат распознавания страницы из п.3 (ссылка);
  4. .NET Framework 4.0 (http://www.microsoft.com/en-us/download/details.aspx?id=17718).