Свободная OCR-система от Google теперь поддерживает русский язык

отметили
54
человека
в архиве
Свободная OCR-система от Google теперь поддерживает русский язык
Исходные тексты OCR-движка Tesseract были опубликованы компанией HP в 2005 году. К тому времени проект уже 10 лет не развивался и сильно уступал своим конкурентам. Однако проект был “подхвачен” компанией Google, которая на днях объявила о выпуске третьей версии Tesseract.

Среди усовершенствований новой версии – новый модуль анализа оформления страниц, поддержка открытого стандарта представления OCR-информации hOCR, поддержка библиотеки leptonica для выполнения операций, связанных с обработкой изображений.

Однако главная новость для российских пользователей заключается в том, что Tessaract теперь поддерживает русский язык. До недавнего времени единственной свободной OCR-системой с поддержкой русского языка было ПО CuneiForm, открытое российским разработчиком Cognitive Technologies в 2008 году. Изначально CuneiForm был доступен только в версии для MS Windows, но сегодня уже существуют графические оболочки для использования CuneiForm из среды Linux (существуют графические оболочки Cuneiform-Qt и YAGF).

Инструкция по установке Tesseract в средах Windows и UNIX доступна на сайте проекта.
Добавил u.nik.myopenid.com u.nik.myopenid.com 5 Октября 2010
Комментарии участников:
fStrange
+4
fStrange, 5 Октября 2010 , url
прощай пиратский Finereader

интересно есть ли приложения под Андроид…
X86
+2
X86, 5 Октября 2010 , url
Ух-ты… Сначала подумал, что какого-то "неуловимого Джо" перевели, а тут вон оно что, оказывается...
Кто бы к нему морду еще приделал…
ostanovsky.myopenid.com
0
ostanovsky.myopenid.com, 5 Октября 2010 , url
Зачем под юниксами "морда"? :)
X86
+2
X86, 5 Октября 2010 , url
Там и под win32 версия есть. Она самая первая в списке файлов :)
ostanovsky.myopenid.com
0
ostanovsky.myopenid.com, 5 Октября 2010 , url
Вы не поверите: под виндами, в командной строке, тоже можно делать конвейеры (отправлять выход одного процесса на вход другого). :) Иногда помогает обойти глюки гуя.
u.nik.myopenid.com
0
u.nik.myopenid.com, 5 Октября 2010 , url
А как под чем-нибудь в командной строке, например, указать разметку текстовых блоков на распознаваемой странице?
ostanovsky.myopenid.com
0
ostanovsky.myopenid.com, 5 Октября 2010 , url
Не знаю. Я гугловскую софтину еще не щупал. Можно, наверное, регионами задать, как в любой картинке.
u.nik.myopenid.com
0
u.nik.myopenid.com, 5 Октября 2010 , url
Так ее для этого надо видеть, желательно интерактивно.
С графикой работать без гуя как-то нонсенс.
ostanovsky.myopenid.com
0
ostanovsky.myopenid.com, 5 Октября 2010 , url
С графикой работать без гуя как-то нонсенс.
Это Вы просто никогда не пробовали. :) Конечно вензеля никто вырезать вслепую не будет. Но сотню одинаковых картинок пережать в нужный размер — удобнее и быстрее скриптом из командной строки.
u.nik.myopenid.com
0
u.nik.myopenid.com, 5 Октября 2010 , url
Это не называется "работать". Это пакетная процедура, станок с ЧПУ. rm -f тоже удобнее и быстрее, чем выделять да в корзину тащить. Но фотошопить или автокадить в терминале трудновообразимо.
ostanovsky.myopenid.com
0
ostanovsky.myopenid.com, 6 Октября 2010 , url
Большинству моих задач хватает пакетной обработки, если Вы, конечно, не художник и сами не рисуете. :) В автокаде — не работаю, мне Dia хватает для моих задач. Кстати, прекрасный образец работающей в консоли программы — LaTeX. :)


Войдите или станьте участником, чтобы комментировать