“EmoP”: как улучшить качество распознавания книг XVI–XVIII веков

Любой, кто хоть раз работал с отсканированной версией книг, изданных в XVI–XVIII веках, знает, что программы оптического распознавания (optical character recognition, OCR) плохо справляются с их шрифтами. «Длинная s», лигатуры, неравномерные пробелы между словами затрудняют работу программ распознавания, рассчитанных на современные шрифты. Примеров тому очень много на “Google Books” или “Archive.org”.

Чего стоит, например, такой отрывок из «Попытки исправления ошибок Шекспира…» (1703) Джона Холта (John Holt): “The firft Editors being obliged, for want of better Guides, to govern themfelves by what they faw and heard, whether they ftole from the Stage by Memory, or otherwife, or even printed from thG Stage Copies, with the Confent of the Proprietors, as the AClors then called themfelves, after Reprefentation”. Ошибки — уже не шекспировские — не так и мешают понимать текст, но повторяются постоянно, так что от них устают глаза и притупляется внимание. Еще хуже поддаются распознаванию готические шрифты (Blackletter).

Проект “EmoP” (“Early Modern OCR Project”), задуман для того, чтобы решить эту проблему. Центр Цифровых гуманитарных наук, медиа и культуры (Initiative for Digital Humanities, Media, and Culture, IDHMC) Техасского университета A&M на прошедшей неделе получил на этот проект грант от Фонда Меллона. Руководит проектом директор Центра Лора Манделл (Laura Mandell).

“EmoP” начнет с создания базы данных по типографским шрифтам раннего Нового времени, учитывая множество возможных написаний буквы в начале и конце слов, в составе лигатур, перед апострофом и т. д. Тексты для базы данных предоставлены проектами “EEBO “и “ECCO “(более трехсот тысяч микрофильмов с книгами XV–XVIII веков, почти 24 млн страниц). Распознанные тремя разными программами с помощью базы строки (OCR Output) будут проверены людьми (Human Assistance). C помощью специальных программ участники проекта будут исправлять ошибки и редактировать базу, определяя, какая из программ распознавания лучше справится с текстом. Особое внимание будет уделено ключевым словам, которые используют “EEBO” и “ECCO” для поиска. Станет наконец возможным определять, сколько раз в тексте используется, например, слово “ask” с обычным “s”, и сколько раз — с «длинным».

Кроме того, более точными станут n-граммы — графики частотности употребления слов. Для наиболее популярных сейчас “Google n-grams” характерна ошибка смешения “f” с длинной “s”. Чем, например, объяснить резкое падение частотности слова “fame” между 1800 и 1820? Или почему n-грамма за двести лет (1600–1800) дает такой огромный процент частотности слова “fuck”? Не викторианская чопорность запретила употреблять его в книгах — исчезла «длинная s», и оба эти слова стали в распознанных текстах отличаться от “same” и “suck” соответственно.

Подробнее об “EmoP”:

В. С. Макаров

Vladimir Makarovon