FineReader не нужен. Google научился распознавать текст / news2.ru

FineReader не нужен. Google научился распознавать текст

отметили

152

человека

в архиве

FineReader не нужен. Google научился распознавать текст

На странице загрузки файлов в Google Docs теперь доступен параметр «Преобразовывать текст из PDF-файлов или изображений в формат Документов Google»:

Можно загрузить отскарированное изображение (JPEG, GIF, PNG) или PDF-файл, и Google Docs извлечёт текст и форматирование для редактирования.

В Google Docs Blog пишут, что система OCR разработана в сотрудничестве с командой Google Books. Распознавание лучше всего работает с изображениями в высоком разрешении, и не всё форматирование может быть сохранено. Для того, чтобы можно было проверить ошибки распознавания, в новый документ включается оригинал изображения. Пока что поддерживаются тексты только на английском, французском, итальянском, немецком и испанском языках.

Источник: habrahabr.ru/blogs/google/9717...

Добавил

cyberlife 23 Июня 2010

google, ocr

63 комментария

проблема (1)

На эту же тему:

Google запустил «облачный FineReader» с поддержкой русского языка — 2 Марта 2011

Комментарии участников:

+12

De-Luxis, 23 Июня 2010 , url

На сколько он качественно распознает?
FineReader я думаю ближайшие 5 лет вряд ли кто-то догонит по качеству.

jour_vern, 23 Июня 2010 , url

относительно Google это утверждение неверно, как мне кажется.

De-Luxis, 23 Июня 2010 , url

в компании ABBYY работают люди, которые достаточно долго этим занимаются. Туда входят не только простые программисты.
Google придётся открывать отдельно подразделение, которое будет заниматься распознаванием текста.
Обычный текст да, я согласен, он распознает. А вот плохо видимые буквы, таблицы, и т.п. требует уже больше интеллектуальных вложений.

У Microsoft в пакете офиса есть утилита распознающая текст. В целом обычный текст распознает нормально, что-то посерьезнее, уже проблема. FineReader же редко ошибается.
Я думаю у гугла уйдет много времени, что бы разработать такое же как у ABBYY.

Max Folder, 23 Июня 2010 , url

Обычный текст да, я согласен, он распознает.

А это уже вопрос массовости задач. Одну таблицу можно и руками вбить.

pers, 23 Июня 2010 , url

Я думаю у гугла уйдет много времени, что бы разработать такое же как у ABBYY.

могут просто купить или лицензировать.

centur, 23 Июня 2010 , url

Купить кого? ABBYY — не публичная компания. Технологию — я понимаю что у Гугла денег много, но он тогда становится прямым конкурентом — в этом случае ABBYY может запросить такие деньги, что Гугл и передумает.

А бесплатное распознавание было и раньше — CuneiForms — BSD лицензия и сорцы есть или тот же Tesseract.

u.nik.myopenid.com, 23 Июня 2010 , url

Над CuneiForm работала в свое время та же команда, а потом люди с не меньшей компетенцией. Качество распознавания у него как минимум не хуже файнридера, а сама платформа уже полтора года переведена во freeware и opensource. Поэтому Google вполне мог договориться и получить какие-то готовые решения, чтобы не разрабатывать с нуля.

Это только один из возможных вариантов.

comander, 23 Июня 2010 , url

спасибо за инфу.

De-Luxis, 23 Июня 2010 , url

не знал.

centur, 23 Июня 2010 , url

насчет не хуже — странно всегда по тестам проигрывала.

u.nik.myopenid.com, 23 Июня 2010 , url

В свое время это было предметом локального холивара, поскольку обе технологии развивались очень быстро, и в этой чехарде каждая сторона устраивала тесты с более выгодным для себя исходом. Примерно

вот так это выглядело лет 10 назад.
CuneiForm несколько лет назад проиграл коммерческую гонку, соответственно затормозился, что позволяет более свежему файнридеру периодически безответно глумиться.

centur, 23 Июня 2010 , url

10 лет — очень большой срок, тогда еще сравнивали WinXP vs Win98. Это половина от того времени сколько существует компания ABBYY, например.

Все последние тесты где Cunei участвовала вроде были слиты без вариантов.

Кстати насчет той же команды в CuneiForm — откуда дровишки? Насколько мне известно люди разные, технологии разные, Cognitive даже пыталась ABBYY за нарушения патентов засудить, но проиграла

umonkey, 23 Июня 2010 , url

Google придётся открывать отдельно подразделение, которое будет заниматься распознаванием текста.

У них есть

reCAPTCHA, которая всем миром учится распознавать текст.

comander, 23 Июня 2010 , url

80 % пользователей используют только 20% функционала файнридера.
)
вообще полагаю что сканят и распознают в основном книги, которые не найти в сети

-5

d41d8cd98f00b2, 23 Июня 2010 , url

Комментарий скрыт. Нажмите, чтобы показать.

De-Luxis, 24 Июня 2010 , url

Доброе утро, мистер Троль! =) А я вас уже ждал.

X86, 23 Июня 2010 , url

У гугла переводчик гораздо хуже, чем, например, Промпт.

u.nik.myopenid.com, 23 Июня 2010 , url

Не соглашусь. Я через гугла прогоняю для скорости довольно сложные и специальные тексты, например постановления Европейского Суда, так целыми страницами только склонения несколько раз на абзац поправить приходится.
Мне есть с чем сравнивать, благо с программами перевода дело имею еще года с 1994, после знакомства с разработчиками тогда еще Сармы, потом превращенной в Сократа.

-11

precedent, 23 Июня 2010 , url

Комментарий скрыт. Нажмите, чтобы показать.

u.nik.myopenid.com, 23 Июня 2010 , url

Мне более привычны работающий по тому же принципу, но с подключаемыми во множестве движками Lingoes, а как прямой клиент к гуглу — это.

-11

precedent, 23 Июня 2010 , url

Комментарий скрыт. Нажмите, чтобы показать.

X86, 23 Июня 2010 , url

А я несколько раз переводил тексты

гуглом и Промптом и всегда Промпт выигрывал по точности перевода, а гугл частенько выдавал какую-нибудь фигню. Если в Промпте еще и указать категорию (медицина, общение, компьютеры, бизнес), то вообще идеально переводит.

Будем считать, что гугл заточен на юридические тексты :) GPL там переводить и т.д., чтобы аудитория опенсорсников хвалила гугл :)

-10

precedent, 23 Июня 2010 , url

Комментарий скрыт. Нажмите, чтобы показать.

comander, 23 Июня 2010 , url

это актуально если вы в принципе работаете )

startosfera.livejournal.com, 23 Июня 2010 , url

А я думаю, ФайнРидеру скоро капец

zelenik, 23 Июня 2010 , url

Как платному — да. А как сейчас пользуются, так пользоваться и будут.

comander, 23 Июня 2010 , url

им прямая дорога в веб сервисы. и продаться яндексу пока яндекс сам что-то не накодил )

comander, 23 Июня 2010 , url

погорячился я. вебсервис уже есть

centur, 23 Июня 2010 , url

А винде тоже?

startosfera.livejournal.com, 23 Июня 2010 , url

Буду краток: Нет :)

-2

pda, 23 Июня 2010 , url

Почему никто не читает серый текст? Нет, люди просто напрашиваются, чтобы их поимели. Потом можете не плакать. :)

donemilio, 23 Июня 2010 , url

Вероятность намного меньше, если бы на работу ввалились бы 'космонавты' и забрали б всю оргтехнику. Но нет, люди просто напрашиваются, чтобы их поимели.

pda, 23 Июня 2010 , url

Вероятность чего? Что ваш документ случайно всплывёт в кеше гугля? Действительно, разве подобное бывало раньше? К чёрту сомнения и разумную осторожность, все за бесплатным сыром, товарищи! :)

donemilio, 23 Июня 2010 , url

Уже лет 5 не устанавливаю FineReader — в пакете Microsoft Office есть ничуть не хуже — Microsoft Office Document Scanning. По количеству ошибок они примерно равны. Но ошибаются немного по-разному. А коли так — зачем платить?

-8

precedent, 23 Июня 2010 , url

Комментарий скрыт. Нажмите, чтобы показать.

donemilio, 24 Июня 2010 , url

В основном в обслуживаемых офисах именно Профи пакет. Я давно уже не вижу этот ФайнРидер на работах.

-11

precedent, 24 Июня 2010 , url

Комментарий скрыт. Нажмите, чтобы показать.

donemilio, 24 Июня 2010 , url

Я его видел лет 5 назад в последний раз. Да и какая разница — что, обычный пакет будет распознавать хуже? Тот же движок + дополнительные плюшки наверняка.

-11

precedent, 24 Июня 2010 , url

Комментарий скрыт. Нажмите, чтобы показать.

-6

Dr.Klause, 23 Июня 2010 , url

Комментарий скрыт. Нажмите, чтобы показать.

u.nik.myopenid.com, 23 Июня 2010 , url

В этой вашей убунте пока сканер запилишь все выходные пройдут, а там солнышко, девушки в микроюбках, которых давно сделавшие дело виндузятники соблазняют, пока красноглазики sane с libusb перекомпилируют :-P

-4

Dr.Klause, 23 Июня 2010 , url

Ниосилятор детектед...

ЗЫ А чо, у всех вендузятников есть и офис в нужной редакции, да? :) Смишно ;)

donemilio, 23 Июня 2010 , url

пиши по-человечески. Или это так юбунту тексты корежит в подростковый сленг? За слово Смишно хочется взять и надавать ремня, ей-богу.

-5

Dr.Klause, 24 Июня 2010 , url

Комментарий скрыт. Нажмите, чтобы показать.

donemilio, 24 Июня 2010 , url

Мне 5-тый десяток. А посылать собеседника нахуй — это неуважение к самому себе, прежде всего. Поколение даунов какое-то. Гыгы, ололо, смишно… взять и уебать! Проебываем страну с такими обсосами.

Dr.Klause, 24 Июня 2010 , url

Мне 5-тый десяток.… Проебываем страну с такими обсосами.

Ты и тебе подобные уже проебали СССР, потому ты свободен, аки какашка в унитазе…

d41d8cd98f00b2, 23 Июня 2010 , url

девушки в микроюбках

Так всё плохо, что шалав про вспоминаешь даже в чисто технических вопросах? А если сначала RTFM сделать, а потом лезть в linux, не?

u.nik.myopenid.com, 23 Июня 2010 , url

Еще и ЧЮ атрофируется, как известно :)

Если чо, меня лечить не надо, лучше уговорите Epson сделать к хорошей домашней железке Perfection V10 айскан без non-free plugin, или научите их отключать замшелый snapscan при установке своей epkowa, бо оно по пять минут висит не детектед, если его не ручками-ручками из конфигов-то :-P

X86, 23 Июня 2010 , url

У меня с точностью до наоборот. На мое МФУ от HP в винде постоянно проблемы при установке дров, да и ставятся они как-то криво, при загрузке системы выскакивает какое-то окошко и исчезает. Глюки всякие и т.д. Поэтому, когда надо распечатать или отсканировать текст, перезагружаюсь в Убунту. Там вообще ниче не надо: подключил принтер и он сразу работает. Плюс сглаживание шрифтов гораздо лучше, качество при печати заметно выше.

Кстати, Google тоже не особо нужен, ибо есть http://finereader.abbyyonline.com/

u.nik.myopenid.com, 23 Июня 2010 , url

Вполне может быть. Ни винда, ни линукс не идеальны в работе с периферией, хотя нельзя отрицать что у производителей железа приоритет по обеспечению и поддержке драйверов все же на винде.

Разница между ними в том, что если в винде есть два возможных состояния — "работает" и "не работает", после чего можно сразу идти гулять на солнышко, то в линуксе эти два возможных результата — "работает" и "сейчас допилим", причем во втором случае длительность процесса не лимитирована ничем, кроме состояния психики.

X86, 23 Июня 2010 , url

Фишка в том, что для винды они лабают огромные пакеты с драйверами, с кучей ненужного софта в придачу, которое устанавливается принудительно. Т.е. для принтера — это целый диск с 500 мегабайтами глючных прелестей. А ведь могли бы простой .inf сделать и все. А в Линуксе драйвера аскетичней. И если ваше устройство из мэйнстрима, его распознают последние ядра и дистрибутивы, то вам повезло.

Mangol, 6 Октября 2010 , url

которое устанавливается принудительно

устанавливайте вручную без автозапуска и будет вам счастье (когда мастер нового оборудования попросит указать место расположения файлов драйвера)

X86, 6 Октября 2010 , url

там в .inf файлах драйвера весь этот мусор прописан. Если только оттуда его вычищать.

Mangol, 6 Октября 2010 , url

раньше они так не делали (по крайней мере HP и Canon), сейчас правда не знаю как обстоят с этим дела… совсем совесть потеряли! или они думают, у всех резиновые винты?

X86, 6 Октября 2010 , url

Да фиг с ним с винтом, обидно, что систему засоряют :) И грузится из-за этих драйверов много всяких глючных exe-шников и библиотек.
Но вот драйвера из центра обновлений Windows 7 вроде нормальные приходят.

-10

precedent, 23 Июня 2010 , url

Комментарий скрыт. Нажмите, чтобы показать.

X86, 23 Июня 2010 , url

Вот и результаты.

С чем безупречно справлялся FineReader сегодня не справился гугл:

cyberlife, 23 Июня 2010 , url

а пример картики можно?

X86, 23 Июня 2010 , url

http://i029.radikal.ru/1006/aa/02d3f769c8de.png

cyberlife, 23 Июня 2010 , url

прежде чем распознавать, надо научиться читать

Пока что поддерживаются тексты только на английском, французском, итальянском, немецком и испанском языках.

X86, 23 Июня 2010 , url

На хабре были отзывы, что распознает и на русском.

cyberlife, 23 Июня 2010 , url

на хабре тролли профессиональнее

Войдите или станьте участником, чтобы комментировать

FineReader не нужен. Google научился распознавать текст

Вход без регистрации

Для участников

Или войдите через OpenID