search.google.books
Jul. 12th, 2007 11:14 pmОчень интересная особенность в гугл-букс: распознанный русский текст в дореволюционных книгах только частично сохраняет особенности старой орфографии: никаких еров и фит нет, они заменены на современные эквиваленты, остались только твердые знаки в конце слов и старые грамматические формы слов. Здорово, на самом деле - мало у кого на клавиатуре есть эти знаки, т.е. поисковых запросов с буквой ять вряд ли следует ожидать, да и не у всех есть такие шрифты. Пример гугловского OCR:
Съ самаго берега Дуная и по всюду по пути встречались ... бинты, тряпки, следы запекшейся крови, разодранные сапоги и т. п. ...
Интересно, гугловские спецы сами такую программу распознавания текста написали или эта удобная фича где-то отдельно существует?
Но вот поиск русских книг очень проблематичный, главным образом из-за несусветной транскрипции имен авторов и названий, о которой человек непосвященный сам никогда не догадается. Пример:

Вот и ищи потом какие-нибудь "зами-е-тки".... Я даже не знаю, где вообще можно найти в шрифте такие фиговины, чтоб воспроизвести нужную форму в этой транскрипции. "Воспоминания" лучше тоже не искать, или не надеяться найти и четверть того, что у них там есть, просто потому что транскрипция этого слова имеет примерно пять очень странных вариантов (ведь университетские библиотечные каталоги постоянно совершенствовались в этом плане с конца 19 века!).
Но, конечно, очень интересно рыться в этих кучах книг. Чем более наугад, тем интереснее.
Съ самаго берега Дуная и по всюду по пути встречались ... бинты, тряпки, следы запекшейся крови, разодранные сапоги и т. п. ...
Интересно, гугловские спецы сами такую программу распознавания текста написали или эта удобная фича где-то отдельно существует?
Но вот поиск русских книг очень проблематичный, главным образом из-за несусветной транскрипции имен авторов и названий, о которой человек непосвященный сам никогда не догадается. Пример:

Вот и ищи потом какие-нибудь "зами-е-тки".... Я даже не знаю, где вообще можно найти в шрифте такие фиговины, чтоб воспроизвести нужную форму в этой транскрипции. "Воспоминания" лучше тоже не искать, или не надеяться найти и четверть того, что у них там есть, просто потому что транскрипция этого слова имеет примерно пять очень странных вариантов (ведь университетские библиотечные каталоги постоянно совершенствовались в этом плане с конца 19 века!).
Но, конечно, очень интересно рыться в этих кучах книг. Чем более наугад, тем интереснее.