Включение в корпус картотеки старославянского языка

Кирил Рибаров (Карловый университет в Праге, Чехия)
Моня Камуля (Университет в Пизе, Италия )

Создание многомиллионной картотеки старославянского языка, предназначенное для лингвистических исследований пражской группы старославянского словаря (последний том которого недавно вышел), проводилось вручную и длилось несколько десятилетий. По своему богатству это одна из обширнейших картотек старославянского языка.

Цель данной работы—включить лингвистические данные на картотечных карточках в состав современного корпуса языка, разработанного в компьютерной форме. Кроме перенесения лингвистических данных, наша задача—сделать доступной содержащуюся на карточках информацию и обеспечить обратную реконструкцию текстов, из которых проводились выписки, избегая сплошного перенесения всех данных с карточек в компьютер.

Предлагаемый метод предопределён структурой данных на карточках, где приведена форма слова, его лемма и перевод, его позиция в рукописи и его контекст. Именно наличие контекста формы и её позиции в тексте являются ключом к существенной редукции ручной работы: слова, выступающие в контексте, являются в то же время зарегистрированными формами, контексты которых взаимно пересекаются; информацию о позиции в тексте можно использовать для составления цепочки взаимосвязанных контекстов, и тем самым, в значительной степени реконструировать подлинный текст. А если присоединить к формам их лексикографические данные, можно говорить о реконструкции аннотированного корпуса на основе картотеки, причём без малейшей потери имеющейся информации.

Преимущества компьютерного хранения текстов по сравнению со статичными запылёнными картотечными фондами очевидны: от продления их долговечности современными методами по лёгкость доступа к их данным, а также возможность более человечной и реальной проверки уложенных источников. Хранение лингвистической информации в форме аннотированных корпусов даёт возможность всестороннего использования лингвистических данных, причём картотечный способ можно считать одним из многих логических взглядов на данный словарный запас.

Предлагается система, с помощью которой в разумно приемлемое время можно достичь поставленных выше задач.