Толстой digital: "умное" издание

В пятницу, 30 января 2015 г., на аспирантском семинаре выступил с докладом аспирант 1-го года обучения Даниил Скоринкин. Темой его выступления был отчет о разработке проекта «Толстой digital», в котором Даниил активно участвует.

 Идея проекта состоит в том, чтобы разметить оцифрованную версию (формат XML) полного собрания сочинений Л.Н. Толстого (90 томов) в формате TEI. Этот формат позволяет создавать гипертекстовые ссылки на различные элементы текста, что значительно упрощает использование электронного текста для научных исследований.

На данный момент Даниил начал работу над «семантической» разметкой оцифрованного сборника. Итоговый результат должен представлять собой полную разметку в TEI всего текста: можно будет находить не только все упоминания разных персонажей, разных мест и событий, но и комментарии редакторов, редакторские правки различных годов. Последнее представляется важной задачей, потому что в сборнике присутствует достаточно большой объем «нетолстовского» текста (предисловия, редакционные замечания, содержание тома, примечания и т.д.). И TEI позволяет все это разметить с помощью стандартного (общепринятого) набора тегов.

Как рассказал Даниил, перед ним и его коллегами по исследованию стоят следующие конкретные задачи:

  • Разбиение текста на TEI-документы (Том != TEI)
  • Отделение толстовского текста от «нетолстовского» (поскольку «нетолстовский» текст есть везде – в начале, в середине и в конце тома)
  • Связь сущностей из указателя с сущностями в тексте
  • Создание базы реальных сущностей (связь с Wiki), своего рода «энциклопедии» полного собрания сочинений
  • Создание базы вымышленных сущностей

Как отметил выступающий, необходимо будет еще придумать хороший интерфейс конечного продукта, который позволит облегчить пользователю работу с размеченным сборником сочинений.

Кроме того, что Даниил начал искать решения поставленных масштабных задач, он провел несколько лингвистических исследований с размеченным в TEI текстом Л.Н. Толстого, показав таким образом, какие возможности дает работа с таким инструментом. Он рассказал, что можно рассмотреть, например, какая одежда упоминается в каждом томе романа «Война и мира» (шинели, конечно, чаще упоминаются при описании сражений). Также можно узнать, какую именно еду подавали героям Толстого в аристократических домах Петербурга и Москвы. Наконец, в ходе исследования удалось получить данные о том, какие герои в романе чаще говорят (при подсчете частотности употребления глаголов речевого действия).

Евгения Смоловская,
аспирант Школы лингвистики