Автоматизация документооборота на SharePoint

Ни для кого не секрет, что средства поиска SharePoint являются мощным инструментом в повседневной деятельности каждой компании, использующей корпоративный портал от Microsoft. Так, при поиске учитываются словоформы и морфология, то есть не нужно заботиться о вводе точной фразы, потому что слова «портал» и «портале» система распознает как одно слово «портал». Результаты поиска будут ранжированы, поэтому поиск всегда будет релевантным, так как наиболее подходящие результаты будут первыми в списке.

Кроме того, в SharePoint реализована возможность полнотекстового поиска по текстовому содержимому электронных документов. Однако значительную часть документов в любой компании занимают отсканированные копии бумажных документов, не имеющие электронной текстовой версии.

Помещение таких документов в SharePoint включает в себя промежуточный этап сохранения электронной копии документа на компьютер пользователя, и найти такие документы по текстовому содержимому стандартными средствами не представляется возможным. Именно поэтому было принято решение разработать программное обеспечение Модуль сканирования и распознавания К-Док, которое расширяет базовую функциональность SharePoint, позволяя сканировать документ напрямую на портал и осуществлять поиск графического документа по его текстовому содержимому.

Возможности решения

Модуль сканирования и распознавания К-Док способен производить распознавание текста графических файлов, находящихся в библиотеках документов SharePoint. При этом пользователь имеет возможность в настройках библиотеки управлять механизмом распознавания текста, то есть указывать следует ли распознавать текст в файлах данной библиотеки, или нет, как показано на рисунке 1.

Рисунок 1. Управление механизмом распознавания текста

Кроме того, предусмотрена функция распознавания текста документа в индивидуальном порядке, она представлена на рисунке 2.

Рисунок 2. Распознавание текста документа в индивидуальном порядке

Для контроля над работой Модуля сканирования и распознавания К-Док предназначен журнал распознавания текста, в котором отображаются текущие состояния документов, поставленных в очередь на распознавание – рисунок 3.

Рисунок 3. Очередь документов для распознавания

На рисунке 4 представлена уже обработанная очередь документов, где пользователю предоставлена информация о результатах распознавания.

Рисунок 4. Журнал распознанных документов

Так по графическому документу Страница Трудового кодекса.tif в результате распознавания был получен текст. Сам файл предварительно был помещен в библиотеку документов SharePoint. На рисунке 5 показано, что исходный документ удалось найти по его текстовому содержимому, используя стандартные средства SharePoint, где в качестве ключевого слова поиска была указана фраза «Цели и задачи законодательства».

Рисунок 5. Результаты поиска

Пользователь, используя браузер, способен сканировать бумажные документы и сохранять их электронные копии в библиотеку SharePoint, при этом операция сканирования совмещена с операцией выгрузки документа на портал. Кроме того, сохраняемое изображение конвертируется в формат PDF с текстовым слоем, который получается в результате оптического распознавания текста.

На рисунке 6 представлено приложение Модуль сканирования К-Док, которое реализует функции сканирования и помещения документов на портал. Программное обеспечение не требует ручной установки на компьютер пользователя, система предложит установить необходимые компоненты при первом использовании.

Рисунок 6. Модуль сканирования К-Док

Приложение поддерживает такие возможности сканеров как двустороннее сканирование и автоматическая подача оригиналов. Эти функции чрезвычайно полезны, т. к. в купе с возможностью сохранения нескольких изображений в один документ позволяют автоматизировать процесс оцифровки архивов. Для этого сотруднику достаточно положить в устройство стопку бумаги, и начать процесс сканирования, а по его завершению сохранить файл в библиотеку документов SharePoint.

Для тонкой настройки качества сканирования реализована возможность вызова меню используемого сканера, где пользователь может произвести специфическую настройку, не предусмотренную интерфейсом программы.

Характеристики Модуля сканирования и распознавания К-док

Поддерживаемые форматы

Модуль сканирования и распознавания К-Док способен работать со следующими графическими форматами: BMP, EMF, GIF, JPEG, PNG, TIFF (в т. ч. многостраничный).

Ведется работа над распознаванием текста в файлах формата PDF.

Распознавание текста

При оптическом распознавании приложение извлекает текст, игнорируя разметку. Программное обеспечение позволяет извлекать текст из двуязычных документов, в которых используются русские и английские символы. Качество распознавания сильно зависит от качества изображения, в идеальном случае точность распознавания превышает 95%.

Системные требования

Серверная часть:

Microsoft Windows Server 2008 R2 SP1 или выше;
Microsoft SharePoint Server 2013;
Microsoft SQL Server 2008 R2 SP1 или выше.

Клиентская часть:

Internet Explorer 8 или выше, Mozilla Firefox и Google Chrome последних версий;
.NET Framework 4.0.

Дистрибутив можно скачать по ссылке загрузки.

Надеемся, что предоставленный инструмент окажется Вам полезным.

Отчеты об ошибках и результатах использования, как и пожелания, пожалуйста, отправляйте по адресу support@sdcv.ru.

Полезные ссылки:

Дистрибутив приложения (ссылка);
Пример страницы для распознавания (ссылка);
Результат распознавания страницы из п.3 (ссылка);
.NET Framework 4.0 (http://www.microsoft.com/en-us/download/details.aspx?id=17718).

Продажи:	+7 (495) 215-02-30 sales@sdcv.ru
Поддержка:	+7 (473) 239-87-67 support@sdcv.ru

Модуль сканирования и распознавания «К-Док»