Проект осуществляется при поддержке Российского гуманитарного научного фонда (РГНФ, грант № 11-04-12064в).

14 апреля 2015

Early Modern Print: любое слово из базы EEBO

N-граммы из базы Google Books историки и корпусные лингвисты используют уже не первый год. Но, как известно, если включать в анализ тексты XVI–XVII веков, сканирование с автоматическим распознаванием дает плохие результаты: путаются «длинное s» и f (хотя еще в 2006 г. Эндрю Уэст (Andrew West) утверждал, что на основании анализа n-грамм можно определить, когда «длинное s» вышло из употребления, а к 2013 г., по утверждению разработчиков, Google разработал алгоритм, учитывающий дефекты сканирования определенных букв).

И все же есть более тщательно вычитанный и проверенный источник — база данных Early English Books Online, содержащая десятки тысяч книг, вышедших в свет между 1473 и 1700 годом. Давно был необходим инструмент, который помог бы искать в ней отдельные слова и строить n-граммы. Полнотекстовый поиск, разработанный распространителями EEBO — компанией Chadwyck-Healey, доступен только институциональным подписчикам, а открытая часть коллекции (т. н. EEBO-TCP) до недавнего времени не имела хорошего поискового алгоритма.

Early Modern Print: любое слово из базы EEBO

Проект Early Modern Print, созданный сотрудниками Мастерской цифровых гуманитарных наук (Humanities Digital Workshop) Университета Джорджа Вашингтона в Сент-Луисе под руководством доктора Анупама Басу (Anupam Basu), предлагает несколько очень нужных историкам и филологам — англистам инструментов.

EEBO N-gram Browser
EEBO N-gram Browser

Прежде всего это Ngram Browser, который составляет по текстам, вошедшим в EEBO, более точные n-граммы. Делая запрос в оригинальной или осовремененной орфографии, можно, например, увидеть, как происходит скачкообразный рост популярности слов “nation” или “commonwealth” в годы гражданской войны. N-граммы помогают понять, как работает язык, предпочитая в определенный период те или иные слова, они окунают нас в историческую реальность, в которой язык живет не только в модернистском герое-поэте. Для нас слово «левиафан» в современном понимании начинается тогда, когда образ библейского чудовища превращается в гоббсовское государство и кажется, что это произошло в какой-то один счастливый момент, но n-граммы показывают: стремительный (в пять раз) рост частотности этого слова начинается в 1630-е гг., за двадцать лет до появления в свет «Левиафана». Что вызвало этот рост? Какое подводное чудовище прячется за ним? На этот вопрос можно ответить, только отказавшись видеть в истории (и в частности, в истории языка) только титаническую работу словотворцев.

Другой инструмент, представленный на сайте — EEBO-TCP Key Words in Context — дает возможность полнотекстового поиска (тоже в оригинальной или современной орфографии) по всем текстам EEBO. Этот поиск можно использовать по-разному, приведу только один пример. Современным шекспироведам очень важно, как это сделал Дэвид Кристал (David Crystal), обратиться к «мифу об изобретении» (the invention myth) Шекспиром почти двух тысяч слов. Шекспир-логодедал совершенно не историчен и нужен как «аргумент гениальности» главным образом антистратфордианцам. Первые составители Оксфордского словаря хорошо знали и всегда имели под рукой тексты Шекспира, но какой-нибудь памфлет, сохранившийся в одном экземпляре в частной библиотеке, мог не попасться им на глаза. Шекспир, очевидно, придавал вес новому слову, особенно если оно широко разошлось впоследствии и не устарело.

База текстов, даже такая неполная, как EEBO-TCP, может легко поколебать нашу убежденность в шекспировском словотворчестве. Вот несколько примеров. “Assassination” в «Макбете»? Поиск показывает, что через четыре года после постановки «Макбета» это слово вошло в язык вместе с убийством Генриха Наваррского и зафиксировано в названии нескольких памфлетов. Но «Макбет» впервые был опубликован в Первом фолио и подвергся серьезной переделке ок. 1615–1616 гг. Вполне возможно, что слово “assassination» вошло в пьесу эхом смерти французского короля.

“Accommodation» в «Отелло»? OED действительно указывает шекспировскую трагедию как первый пример современного значения слова, однако первый же пример из Key Words in Context: “...special care of them, and their convenient accommodation and settlement...” (Richard Lawrence, The Interest of England in the Irish Transplantation) дает именно современное значение (2b или 2с в OED — c учетом того, что точную грань провести трудно).

“Anchovy” в первой части «Генриха IV»? Полно, неужели Шекспир изобрел даже слово «анчоус»? Поиск показывает, что еще в 1592 г. его употребил Энтони Манди в The English Romayne Lyfe: “have a appetite: as sometime the spanish anchovy, and sometime stew prune and raisin...”

Сколько еще примеров можно найти, если перенести в открытый доступ все тексты EEBO (125000, т. е. почти в три раза больше, чем передано в TCP сейчас)? А если еще добавить оцифрованные рукописные источники? Без этого многообразия слов и значений Шекспир будет по-прежнему возвышаться посреди terra incognita английской культуры раннего Нового времени и, в сущности, оставаться непонятым.

См. также:

В. С. Макаров


Подготовлено в рамках проекта «Виртуальная шекспиросфера: трансформации шекспировского мифа в современной культуре», поддержанного грантом РГНФ (№ 14-03-00552а).