Проект осуществляется при поддержке Российского гуманитарного научного фонда (РГНФ, грант № 11-04-12064в).

7 марта 2015

Text Creation Partnership: 25000 текстов XVI–XVIII веков в свободном доступе

Некоммерческая организация Text Creation Partnership, основанная в 1999 г. как партнерский проект Оксфордского и Мичиганского университетов, объявила об окончании первой стадии оцифровки старейших британских печатных книг. До января 2015 г. почти все они были доступны только в платной базе данных Early English Books Online, хорошо известной ученым во всем мире. Финансирование проект получал от подписки на базу данных, а также от 150 университетов-партнеров и британской неправительственной организации JISC, поддерживающей развитие информационных технологий в науке и обучении.

Early English Books Online

Открытый доступ планировался изначально, однако транскрибирование текста с микрофильмов и микрофиш заняло больше времени, чем планировалось: шрифты и орфография раннего Нового времени требует особого внимания. На первые 25000 книг у команды TCP ушло 10 лет, и еще 5 — на то, чтобы тексты наконец вышли в открытый доступ.

Самое ценное в проекте TCP — то, что книги не отбирают по их «ценности» или принадлежности к какому-нибудь «разряду» литературной иерархии. Памфлеты «водного поэта» Джона Тейлора здесь можно найти рядом с богословскими трудами его однофамильца Джереми или, например, пьесами Бена Джонсона или «Первым Фолио» Шекспира. Только так можно почувствовать, насколько сложна и неоднозначна была литературная жизнь Англии раннего Нового времени и как переплетены в ней оказывались не только истории текстов и жанров, но и судьбы их авторов.

Во-вторых, все тексты представлены в оригинальной орфографии, с опечатками, надстрочными знаками и во всем непредсказуемом буйстве языка, когда каждый издатель мог печатать слово как ему казалось правильным. На сверку орфографии электронного текста с микрофильмом и печатным оригиналом, собственно, и ушло почти все время проекта.

В-третьих, обязательное условие проекта — наличие полнотекстового поиска по всей базе старинных книг. Это тоже очень важно: допустим, нам нужно найти все печатные упоминания о «водном поэте» или каком-нибудь лондонском кабачке. По мере того, как все больше текстов оказывается в открытом доступе, эта задача облегчается, а сопоставляя такие упоминания, мы можем многое узнать: какие пабы наиболее часто упоминаются в пьесах, поставленных на лондонской сцене и почему? «Модные» ли это заведения или, наоборот, «дыры» с мрачной репутацией?

Text Creation Partnership

TCP сделало очень многое, чтобы книги было максимально удобно скачивать и читать. Oxford Text Archive предлагает их в html-версии и в формате epub (для чтения на мобильных устройствах). Полнотекстовый поиск с логическими операторами можно вести и на сайте второго сооснователя проекта — Мичиганского университета. Файлы в «исходной» xml-разметке размещены на коллаборативной платформе GitHub, где программисты совместно редактируют код программ с открытой лицензией. Аналогично зарегистрированные пользователи с правом доступа могут продолжать исправлять недостатки электронной версии текста. Можно даже скачать все тексты разом, запросив доступ к папке на сервисе файлообмена Box.com.

К сожалению, у проекта есть и свои ограничения. Факсимильные копии страниц доступны по-прежнему только через EEBO. Сложная нумерация страниц оригинала отражена в электронных текстах очень плохо — номер можно идентифицировать, только если нумерация аналогична современной, вместо буквенно-числовых сигл выводится только слово [Page]. Это делает документ бесполезным для ученого — цитировать такой текст невозможно. А хотелось бы, чтобы доступ к текстам, созданным в то время, когда об авторском праве еще не слышали, был как можно более легким, особенно для ученых. Не перешли в открытую версию и все проприетарные разработки компании ProQuest, сделанные для EEBO: поиск с учетом изменяющихся словоформ и нечеткой орфографии, поиск по ключевым словам, фильтр по полному списку авторов и т. д.

И все же представленные TCP тексты способны перевернуть или по крайней мере значительно углубить наше представление о шекспировской Англии. Большинство текстов никогда не переиздавалось и почти не изучено, а значит впереди много интересных открытий — особенно для тех, кто считает, что в истории литературы и культуры нет мелочей, которые бы не заслуживали внимания.

См. также:

В. С. Макаров


Подготовлено в рамках проекта «Виртуальная шекспиросфера: трансформации шекспировского мифа в современной культуре», поддержанного грантом РГНФ (№ 14-03-00552а).