[personal profile] a_kleber
Очень интересная особенность в гугл-букс: распознанный русский текст в дореволюционных книгах только частично сохраняет особенности старой орфографии: никаких еров и фит нет, они заменены на современные эквиваленты, остались только твердые знаки в конце слов и старые грамматические формы слов. Здорово, на самом деле - мало у кого на клавиатуре есть эти знаки, т.е. поисковых запросов с буквой ять вряд ли следует ожидать, да и не у всех есть такие шрифты. Пример гугловского OCR:

Съ самаго берега Дуная и по всюду по пути встречались ... бинты, тряпки, следы запекшейся крови, разодранные сапоги и т. п. ...

Интересно, гугловские спецы сами такую программу распознавания текста написали или эта удобная фича где-то отдельно существует?

Но вот поиск русских книг очень проблематичный, главным образом из-за несусветной транскрипции имен авторов и названий, о которой человек непосвященный сам никогда не догадается. Пример:



Вот и ищи потом какие-нибудь "зами-е-тки".... Я даже не знаю, где вообще можно найти в шрифте такие фиговины, чтоб воспроизвести нужную форму в этой транскрипции. "Воспоминания" лучше тоже не искать, или не надеяться найти и четверть того, что у них там есть, просто потому что транскрипция этого слова имеет примерно пять очень странных вариантов (ведь университетские библиотечные каталоги постоянно совершенствовались в этом плане с конца 19 века!).

Но, конечно, очень интересно рыться в этих кучах книг. Чем более наугад, тем интереснее.
This account has disabled anonymous posting.
If you don't have an account you can create one now.
HTML doesn't work in the subject.
More info about formatting

Style Credit

Expand Cut Tags

No cut tags
Page generated Feb. 28th, 2026 02:31 pm
Powered by Dreamwidth Studios