FineReader не нужен. Google научился распознавать текст

отметили
152
человека
в архиве
FineReader не нужен. Google научился распознавать текст
На странице загрузки файлов в Google Docs теперь доступен параметр «Преобразовывать текст из PDF-файлов или изображений в формат Документов Google»:

Можно загрузить отскарированное изображение (JPEG, GIF, PNG) или PDF-файл, и Google Docs извлечёт текст и форматирование для редактирования.

В Google Docs Blog пишут, что система OCR разработана в сотрудничестве с командой Google Books. Распознавание лучше всего работает с изображениями в высоком разрешении, и не всё форматирование может быть сохранено. Для того, чтобы можно было проверить ошибки распознавания, в новый документ включается оригинал изображения. Пока что поддерживаются тексты только на английском, французском, итальянском, немецком и испанском языках.
Добавил cyberlife cyberlife 23 Июня 2010
проблема (1)
Комментарии участников:
De-Luxis
+12
De-Luxis, 23 Июня 2010 , url
На сколько он качественно распознает?
FineReader я думаю ближайшие 5 лет вряд ли кто-то догонит по качеству.

jour_vern
0
jour_vern, 23 Июня 2010 , url
относительно Google это утверждение неверно, как мне кажется.
De-Luxis
+9
De-Luxis, 23 Июня 2010 , url
в компании ABBYY работают люди, которые достаточно долго этим занимаются. Туда входят не только простые программисты.
Google придётся открывать отдельно подразделение, которое будет заниматься распознаванием текста.
Обычный текст да, я согласен, он распознает. А вот плохо видимые буквы, таблицы, и т.п. требует уже больше интеллектуальных вложений.

У Microsoft в пакете офиса есть утилита распознающая текст. В целом обычный текст распознает нормально, что-то посерьезнее, уже проблема. FineReader же редко ошибается.
Я думаю у гугла уйдет много времени, что бы разработать такое же как у ABBYY.

Max Folder
0
Max Folder, 23 Июня 2010 , url
Обычный текст да, я согласен, он распознает.
А это уже вопрос массовости задач. Одну таблицу можно и руками вбить.
pers
+1
pers, 23 Июня 2010 , url
Я думаю у гугла уйдет много времени, что бы разработать такое же как у ABBYY.
могут просто купить или лицензировать.
centur
0
centur, 23 Июня 2010 , url
Купить кого? ABBYY — не публичная компания. Технологию — я понимаю что у Гугла денег много, но он тогда становится прямым конкурентом — в этом случае ABBYY может запросить такие деньги, что Гугл и передумает.

А бесплатное распознавание было и раньше — CuneiForms — BSD лицензия и сорцы есть или тот же Tesseract.
u.nik.myopenid.com
+7
u.nik.myopenid.com, 23 Июня 2010 , url
Над CuneiForm работала в свое время та же команда, а потом люди с не меньшей компетенцией. Качество распознавания у него как минимум не хуже файнридера, а сама платформа уже полтора года переведена во freeware и opensource. Поэтому Google вполне мог договориться и получить какие-то готовые решения, чтобы не разрабатывать с нуля.

Это только один из возможных вариантов.

comander
0
comander, 23 Июня 2010 , url
спасибо за инфу.
De-Luxis
0
De-Luxis, 23 Июня 2010 , url
не знал.
centur
+1
centur, 23 Июня 2010 , url
насчет не хуже — странно всегда по тестам проигрывала.
u.nik.myopenid.com
0
u.nik.myopenid.com, 23 Июня 2010 , url
В свое время это было предметом локального холивара, поскольку обе технологии развивались очень быстро, и в этой чехарде каждая сторона устраивала тесты с более выгодным для себя исходом. Примерно вот так это выглядело лет 10 назад.
CuneiForm несколько лет назад проиграл коммерческую гонку, соответственно затормозился, что позволяет более свежему файнридеру периодически безответно глумиться.
centur
0
centur, 23 Июня 2010 , url
10 лет — очень большой срок, тогда еще сравнивали WinXP vs Win98. Это половина от того времени сколько существует компания ABBYY, например.

Все последние тесты где Cunei участвовала вроде были слиты без вариантов.

Кстати насчет той же команды в CuneiForm — откуда дровишки? Насколько мне известно люди разные, технологии разные, Cognitive даже пыталась ABBYY за нарушения патентов засудить, но проиграла
umonkey
+5
umonkey, 23 Июня 2010 , url
Google придётся открывать отдельно подразделение, которое будет заниматься распознаванием текста.

У них есть reCAPTCHA, которая всем миром учится распознавать текст.
comander
0
comander, 23 Июня 2010 , url
80 % пользователей используют только 20% функционала файнридера.
)
вообще полагаю что сканят и распознают в основном книги, которые не найти в сети
De-Luxis
0
De-Luxis, 24 Июня 2010 , url
Доброе утро, мистер Троль! =) А я вас уже ждал.
X86
0
X86, 23 Июня 2010 , url
У гугла переводчик гораздо хуже, чем, например, Промпт.
u.nik.myopenid.com
0
u.nik.myopenid.com, 23 Июня 2010 , url
Не соглашусь. Я через гугла прогоняю для скорости довольно сложные и специальные тексты, например постановления Европейского Суда, так целыми страницами только склонения несколько раз на абзац поправить приходится.
Мне есть с чем сравнивать, благо с программами перевода дело имею еще года с 1994, после знакомства с разработчиками тогда еще Сармы, потом превращенной в Сократа.
u.nik.myopenid.com
0
u.nik.myopenid.com, 23 Июня 2010 , url
Мне более привычны работающий по тому же принципу, но с подключаемыми во множестве движками Lingoes, а как прямой клиент к гуглу — это.
X86
0
X86, 23 Июня 2010 , url
А я несколько раз переводил тексты гуглом и Промптом и всегда Промпт выигрывал по точности перевода, а гугл частенько выдавал какую-нибудь фигню. Если в Промпте еще и указать категорию (медицина, общение, компьютеры, бизнес), то вообще идеально переводит.

Будем считать, что гугл заточен на юридические тексты :) GPL там переводить и т.д., чтобы аудитория опенсорсников хвалила гугл :)
comander
0
comander, 23 Июня 2010 , url
это актуально если вы в принципе работаете )
startosfera.livejournal.com
+4
startosfera.livejournal.com, 23 Июня 2010 , url
А я думаю, ФайнРидеру скоро капец
zelenik
+1
zelenik, 23 Июня 2010 , url
Как платному — да. А как сейчас пользуются, так пользоваться и будут.
comander
+2
comander, 23 Июня 2010 , url
им прямая дорога в веб сервисы. и продаться яндексу пока яндекс сам что-то не накодил )
comander
0
comander, 23 Июня 2010 , url
погорячился я. вебсервис уже есть
centur
0
centur, 23 Июня 2010 , url
А винде тоже?
startosfera.livejournal.com
0
startosfera.livejournal.com, 23 Июня 2010 , url
Буду краток: Нет :)
pda
-2
pda, 23 Июня 2010 , url
Почему никто не читает серый текст? Нет, люди просто напрашиваются, чтобы их поимели. Потом можете не плакать. :)
donemilio
0
donemilio, 23 Июня 2010 , url
Вероятность намного меньше, если бы на работу ввалились бы 'космонавты' и забрали б всю оргтехнику. Но нет, люди просто напрашиваются, чтобы их поимели.
pda
0
pda, 23 Июня 2010 , url
Вероятность чего? Что ваш документ случайно всплывёт в кеше гугля? Действительно, разве подобное бывало раньше? К чёрту сомнения и разумную осторожность, все за бесплатным сыром, товарищи! :)
donemilio
0
donemilio, 23 Июня 2010 , url
Уже лет 5 не устанавливаю FineReader — в пакете Microsoft Office есть ничуть не хуже — Microsoft Office Document Scanning. По количеству ошибок они примерно равны. Но ошибаются немного по-разному. А коли так — зачем платить?
donemilio
0
donemilio, 24 Июня 2010 , url
В основном в обслуживаемых офисах именно Профи пакет. Я давно уже не вижу этот ФайнРидер на работах.
donemilio
0
donemilio, 24 Июня 2010 , url
Я его видел лет 5 назад в последний раз. Да и какая разница — что, обычный пакет будет распознавать хуже? Тот же движок + дополнительные плюшки наверняка.
u.nik.myopenid.com
0
u.nik.myopenid.com, 23 Июня 2010 , url
В этой вашей убунте пока сканер запилишь все выходные пройдут, а там солнышко, девушки в микроюбках, которых давно сделавшие дело виндузятники соблазняют, пока красноглазики sane с libusb перекомпилируют :-P
Dr.Klause
-4
Dr.Klause, 23 Июня 2010 , url
Ниосилятор детектед...

ЗЫ А чо, у всех вендузятников есть и офис в нужной редакции, да? :) Смишно ;)
donemilio
0
donemilio, 23 Июня 2010 , url
пиши по-человечески. Или это так юбунту тексты корежит в подростковый сленг? За слово Смишно хочется взять и надавать ремня, ей-богу.
donemilio
+2
donemilio, 24 Июня 2010 , url
Мне 5-тый десяток. А посылать собеседника нахуй — это неуважение к самому себе, прежде всего. Поколение даунов какое-то. Гыгы, ололо, смишно… взять и уебать! Проебываем страну с такими обсосами.
Dr.Klause
0
Dr.Klause, 24 Июня 2010 , url
Мне 5-тый десяток.… Проебываем страну с такими обсосами.


Ты и тебе подобные уже проебали СССР, потому ты свободен, аки какашка в унитазе…
d41d8cd98f00b2
0
d41d8cd98f00b2, 23 Июня 2010 , url
девушки в микроюбках
Так всё плохо, что шалав про вспоминаешь даже в чисто технических вопросах? А если сначала RTFM сделать, а потом лезть в linux, не?
u.nik.myopenid.com
0
u.nik.myopenid.com, 23 Июня 2010 , url
Еще и ЧЮ атрофируется, как известно :)

Если чо, меня лечить не надо, лучше уговорите Epson сделать к хорошей домашней железке Perfection V10 айскан без non-free plugin, или научите их отключать замшелый snapscan при установке своей epkowa, бо оно по пять минут висит не детектед, если его не ручками-ручками из конфигов-то :-P
X86
+2
X86, 23 Июня 2010 , url
У меня с точностью до наоборот. На мое МФУ от HP в винде постоянно проблемы при установке дров, да и ставятся они как-то криво, при загрузке системы выскакивает какое-то окошко и исчезает. Глюки всякие и т.д. Поэтому, когда надо распечатать или отсканировать текст, перезагружаюсь в Убунту. Там вообще ниче не надо: подключил принтер и он сразу работает. Плюс сглаживание шрифтов гораздо лучше, качество при печати заметно выше.


Кстати, Google тоже не особо нужен, ибо есть http://finereader.abbyyonline.com/
u.nik.myopenid.com
+1
u.nik.myopenid.com, 23 Июня 2010 , url
Вполне может быть. Ни винда, ни линукс не идеальны в работе с периферией, хотя нельзя отрицать что у производителей железа приоритет по обеспечению и поддержке драйверов все же на винде.

Разница между ними в том, что если в винде есть два возможных состояния — "работает" и "не работает", после чего можно сразу идти гулять на солнышко, то в линуксе эти два возможных результата — "работает" и "сейчас допилим", причем во втором случае длительность процесса не лимитирована ничем, кроме состояния психики.
X86
0
X86, 23 Июня 2010 , url
Фишка в том, что для винды они лабают огромные пакеты с драйверами, с кучей ненужного софта в придачу, которое устанавливается принудительно. Т.е. для принтера — это целый диск с 500 мегабайтами глючных прелестей. А ведь могли бы простой .inf сделать и все. А в Линуксе драйвера аскетичней. И если ваше устройство из мэйнстрима, его распознают последние ядра и дистрибутивы, то вам повезло.
Mangol
0
Mangol, 6 Октября 2010 , url
которое устанавливается принудительно
устанавливайте вручную без автозапуска и будет вам счастье (когда мастер нового оборудования попросит указать место расположения файлов драйвера)
X86
0
X86, 6 Октября 2010 , url
там в .inf файлах драйвера весь этот мусор прописан. Если только оттуда его вычищать.
Mangol
0
Mangol, 6 Октября 2010 , url
раньше они так не делали (по крайней мере HP и Canon), сейчас правда не знаю как обстоят с этим дела… совсем совесть потеряли! или они думают, у всех резиновые винты?
X86
0
X86, 6 Октября 2010 , url
Да фиг с ним с винтом, обидно, что систему засоряют :) И грузится из-за этих драйверов много всяких глючных exe-шников и библиотек.
Но вот драйвера из центра обновлений Windows 7 вроде нормальные приходят.
X86
0
X86, 23 Июня 2010 , url
Вот и результаты.

С чем безупречно справлялся FineReader сегодня не справился гугл:
cyberlife
0
cyberlife, 23 Июня 2010 , url
а пример картики можно?
cyberlife
+3
cyberlife, 23 Июня 2010 , url
прежде чем распознавать, надо научиться читать
Пока что поддерживаются тексты только на английском, французском, итальянском, немецком и испанском языках.
X86
0
X86, 23 Июня 2010 , url
На хабре были отзывы, что распознает и на русском.
cyberlife
0
cyberlife, 23 Июня 2010 , url
на хабре тролли профессиональнее


Войдите или станьте участником, чтобы комментировать