[personal profile] a_kleber
Очень интересная особенность в гугл-букс: распознанный русский текст в дореволюционных книгах только частично сохраняет особенности старой орфографии: никаких еров и фит нет, они заменены на современные эквиваленты, остались только твердые знаки в конце слов и старые грамматические формы слов. Здорово, на самом деле - мало у кого на клавиатуре есть эти знаки, т.е. поисковых запросов с буквой ять вряд ли следует ожидать, да и не у всех есть такие шрифты. Пример гугловского OCR:

Съ самаго берега Дуная и по всюду по пути встречались ... бинты, тряпки, следы запекшейся крови, разодранные сапоги и т. п. ...

Интересно, гугловские спецы сами такую программу распознавания текста написали или эта удобная фича где-то отдельно существует?

Но вот поиск русских книг очень проблематичный, главным образом из-за несусветной транскрипции имен авторов и названий, о которой человек непосвященный сам никогда не догадается. Пример:



Вот и ищи потом какие-нибудь "зами-е-тки".... Я даже не знаю, где вообще можно найти в шрифте такие фиговины, чтоб воспроизвести нужную форму в этой транскрипции. "Воспоминания" лучше тоже не искать, или не надеяться найти и четверть того, что у них там есть, просто потому что транскрипция этого слова имеет примерно пять очень странных вариантов (ведь университетские библиотечные каталоги постоянно совершенствовались в этом плане с конца 19 века!).

Но, конечно, очень интересно рыться в этих кучах книг. Чем более наугад, тем интереснее.

Style Credit

Expand Cut Tags

No cut tags
Page generated Feb. 28th, 2026 09:57 am
Powered by Dreamwidth Studios