Выравнивание текстов на санскрите и русском при помощи Lingtrain Alignment Studio.
Принцип выравнивания
- Тексты на разных языках подготавливаются для выравнивания, убирается лишняя информация, добавляется разметка.
- Подготовленные тексты автоматически разбиваются на предложения на основе пунктуации.
- Предложения сравниваются друг с другом по смыслу при помощи мультиязычной языковой модели.
- Если модель не поддерживает язык, как в случае с санскритом, то нужно добавить машинно переведенный текст и выравнивать через него.
- В автоматическом режиме разрешается большинство случаев, когда предложению одного текста соответствует несколько предложений другого (конфликты).
- В ручном режиме в редакторе Lingtrain разрешаются остальные конфликты и проверяется автоматическое выравнивание.
Подготовка текстов
Будем делать на примере следующих текстов:
kathasaritsagara_rus_cleant_chap_01.txt
kathasaritsagara_san_cleant_chap_01.txt
- Нужно удалить из текстов лишние данные (сноски, номера страниц и т.д., чтобы в обоих текстах была одинаковая информация)
- Разбиение на предложения происходит на основе пунктуации (сейчас поддерживается стандартная пунктуация + иероглифическая). В данных текстах пунктуации нет, поэтому нужно добавить точки (считаем шлоки за предложения).
- Добавить разметку. Разметка нужна для того, чтобы при форматировании книги восстановить заголовки, цитаты, добавить изображения и т.д.
Разметка
Метка |
Значение |
Пример |
%%%%%author. |
Автор |
Лю Ци Синь%%%%%author. |
%%%%%title. |
Название |
Задача трёх тел%%%%%title. |
%%%%%qtext. |
Цитата |
Тот, кто спасает одну жизнь, спасает весь мир.%%%%%qtext. |
%%%%%qname. |
Подпись под цитатой |
Народная мудрость%%%%%qname. |
%%%%%h1. %%%%%h2. %%%%%h3. %%%%%h4. %%%%%h5. |
Заголовок |
Глава 1%%%%%h2. |
- Разметка в выравнивании не участвует, она хранится отдельно.
- Количество меток в обоих текстах должно совпадать.
- Разметка опциональна.