Автоматизация документооборота на SharePoint
Ни для кого не секрет, что средства поиска SharePoint являются мощным инструментом в повседневной деятельности каждой компании, использующей корпоративный портал от Microsoft. Так, при поиске учитываются словоформы и морфология, то есть не нужно заботиться о вводе точной фразы, потому что слова «портал» и «портале» система распознает как одно слово «портал». Результаты поиска будут ранжированы, поэтому поиск всегда будет релевантным, так как наиболее подходящие результаты будут первыми в списке.
Кроме того, в SharePoint реализована возможность полнотекстового поиска по текстовому содержимому электронных документов. Однако значительную часть документов в любой компании занимают отсканированные копии бумажных документов, не имеющие электронной текстовой версии.
Помещение таких документов в SharePoint включает в себя промежуточный этап сохранения электронной копии документа на компьютер пользователя, и найти такие документы по текстовому содержимому стандартными средствами не представляется возможным. Именно поэтому было принято решение разработать программное обеспечение Модуль сканирования и распознавания К-Док, которое расширяет базовую функциональность SharePoint, позволяя сканировать документ напрямую на портал и осуществлять поиск графического документа по его текстовому содержимому.
Возможности решения
Модуль сканирования и распознавания К-Док способен производить распознавание текста графических файлов, находящихся в библиотеках документов SharePoint. При этом пользователь имеет возможность в настройках библиотеки управлять механизмом распознавания текста, то есть указывать следует ли распознавать текст в файлах данной библиотеки, или нет, как показано на рисунке 1.

Рисунок 1. Управление механизмом распознавания текста
Кроме того, предусмотрена функция распознавания текста документа в индивидуальном порядке, она представлена на рисунке 2.

Рисунок 2. Распознавание текста документа в индивидуальном порядке
Для контроля над работой Модуля сканирования и распознавания К-Док предназначен журнал распознавания текста, в котором отображаются текущие состояния документов, поставленных в очередь на распознавание – рисунок 3.

Рисунок 3. Очередь документов для распознавания
На рисунке 4 представлена уже обработанная очередь документов, где пользователю предоставлена информация о результатах распознавания.

Рисунок 4. Журнал распознанных документов
Так по графическому документу Страница Трудового кодекса.tif в результате распознавания был получен текст. Сам файл предварительно был помещен в библиотеку документов SharePoint. На рисунке 5 показано, что исходный документ удалось найти по его текстовому содержимому, используя стандартные средства SharePoint, где в качестве ключевого слова поиска была указана фраза «Цели и задачи законодательства».

Рисунок 5. Результаты поиска
Пользователь, используя браузер, способен сканировать бумажные документы и сохранять их электронные копии в библиотеку SharePoint, при этом операция сканирования совмещена с операцией выгрузки документа на портал. Кроме того, сохраняемое изображение конвертируется в формат PDF с текстовым слоем, который получается в результате оптического распознавания текста.
На рисунке 6 представлено приложение Модуль сканирования К-Док, которое реализует функции сканирования и помещения документов на портал. Программное обеспечение не требует ручной установки на компьютер пользователя, система предложит установить необходимые компоненты при первом использовании.

Рисунок 6. Модуль сканирования К-Док
Приложение поддерживает такие возможности сканеров как двустороннее сканирование и автоматическая подача оригиналов. Эти функции чрезвычайно полезны, т. к. в купе с возможностью сохранения нескольких изображений в один документ позволяют автоматизировать процесс оцифровки архивов. Для этого сотруднику достаточно положить в устройство стопку бумаги, и начать процесс сканирования, а по его завершению сохранить файл в библиотеку документов SharePoint.
Для тонкой настройки качества сканирования реализована возможность вызова меню используемого сканера, где пользователь может произвести специфическую настройку, не предусмотренную интерфейсом программы.
Характеристики Модуля сканирования и распознавания К-док
Поддерживаемые форматы
Модуль сканирования и распознавания К-Док способен работать со следующими графическими форматами: BMP, EMF, GIF, JPEG, PNG, TIFF (в т. ч. многостраничный).
Ведется работа над распознаванием текста в файлах формата PDF.
Распознавание текста
При оптическом распознавании приложение извлекает текст, игнорируя разметку. Программное обеспечение позволяет извлекать текст из двуязычных документов, в которых используются русские и английские символы. Качество распознавания сильно зависит от качества изображения, в идеальном случае точность распознавания превышает 95%.
Системные требования
Серверная часть:
- Microsoft Windows Server 2008 R2 SP1 или выше;
- Microsoft SharePoint Server 2013;
- Microsoft SQL Server 2008 R2 SP1 или выше.
Клиентская часть:
- Internet Explorer 8 или выше, Mozilla Firefox и Google Chrome последних версий;
- .NET Framework 4.0.
Дистрибутив можно скачать по ссылке загрузки.
Надеемся, что предоставленный инструмент окажется Вам полезным.
Отчеты об ошибках и результатах использования, как и пожелания, пожалуйста, отправляйте по адресу support@sdcv.ru.
Полезные ссылки:
- Дистрибутив приложения (ссылка);
- Пример страницы для распознавания (ссылка);
- Результат распознавания страницы из п.3 (ссылка);
- .NET Framework 4.0 (http://www.microsoft.com/en-us/download/details.aspx?id=17718).