Искусственный интеллект обучат распознавать тексты на древних языках
Искусственный интеллект обучат распознавать тексты на древних языках

Искусственный интеллект обучат распознавать тексты на древних языках

Библиотека аббатства Санкт-Галла в Швейцарии хранит около 160 000 томов литературных и исторических рукописей, относящихся к восьмому веку, - все они написаны от руки на пергаменте на языках, на которых редко говорят в наше время.

Чтобы сохранить эти исторические письменные данные о человечестве, такие тексты, насчитывающие миллионы, надежно хранятся в библиотеках и монастырях по всему миру. Значительная часть этих коллекций доступна широкой публике через цифровые изображения, но эксперты говорят, что существует огромное количество материала, который никогда не читался, - сокровищница понимания мировой истории, спрятанная внутри.

Теперь исследователи из Университета Нотр-Дам разрабатывают искусственную нейронную сеть для чтения сложного древнего почерка, основанного на человеческом восприятии, чтобы улучшить возможности транскрипции глубокого обучения.

«Мы имеем дело с историческими документами, написанными в стилях, которые давно вышли из моды, уходящие в прошлое, и на таких языках, как латынь, которые сейчас редко используются», - сказал Уолтер Шайрер, доцент кафедры Денниса О. Даути в Департаменте компьютерных наук и инженерии Нотр-Дама. «Вы можете получить красивые фотографии этих материалов, но мы решили автоматизировать транскрипцию таким образом, чтобы имитировать восприятие страницы глазами опытного читателя и обеспечить быстрое чтение текста с возможностью поиска»

В исследовании, опубликованном в журнале Transaction on Pattern Analysis and Machine Intelligence Института инженеров по электротехнике и электронике, Шайрер описывает, как его команда объединила традиционные методы машинного обучения с визуальной психофизикой - методом измерения связи между физическими стимулами и психическими явлениями, такими как количество времени, которое требуется опытному читателю, чтобы распознать определенный символ, оценить качество почерка или определить использование определенных сокращений.

825-voynich-manuscript-4.jpg (52 KB)

Команда Шайрера изучила оцифрованные латинские рукописи, написанные писцами монастыря Святого Галла в девятом веке. Читатели вводили свои ручные расшифровки в специально разработанный программный интерфейс. Затем команда измерила время реакции во время транскрипции, чтобы понять, какие слова, символы и отрывки были легкими или трудными. Шайрер объяснил, что включение такого рода данных создало сеть, более соответствующую поведению человека, уменьшило количество ошибок и обеспечило более точное и реалистичное чтение текста.

«Эта стратегия обычно не используется в машинном обучении», - сказал Шайрер. «Мы маркируем данные с помощью этих психофизических измерений, которые поступают непосредственно из психологических исследований восприятия - путем проведения поведенческих измерений. Затем мы информируем сеть об общих трудностях в восприятии этих персонажей и можем вносить исправления на основе этих измерений».

Использование глубокого обучения для расшифровки древних текстов представляет большой интерес для ученых-гуманитариев.

«Есть разница между простым фотографированием и чтением, а также программой, обеспечивающей чтение с возможностью поиска», - говорит Хильдегунд Мюллер, доцент кафедры классической литературы Нотр-Дама. «Если вы рассмотрите тексты, использованные в этом исследовании - рукописи IX века - это ранняя стадия средневековья. До печатного станка прошло много времени. Это время, когда было создано огромное количество рукописей, информации, скрытой в этих рукописях - неопознанные тексты, которые никто раньше не видел».

Шайрер сказал, что проблемы остаются. Его команда работает над повышением точности транскрипции, особенно в случае поврежденных или неполных документов, а также над тем, как учесть иллюстрации или другие аспекты страницы, которые могут сбивать с толку сеть.

Однако команде удалось настроить программу для расшифровки эфиопских текстов, адаптировав ее к языку с совершенно другим набором символов - первый шаг к разработке программы, способной расшифровывать и переводить информацию для пользователей.

«В литературной сфере это могло бы быть действительно полезно. Каждое хорошее литературное произведение окружено огромным количеством исторических документов, но где оно действительно будет полезно, так это в исторических архивных исследованиях», - сказал Мюллер. «Существует большая потребность в развитии цифровых гуманитарных наук. Когда вы говорите о Средневековье и начале Нового времени, если вы хотите разобраться в деталях и последствиях исторических событий, вам необходимо просмотреть письменный материал, а эти тексты - единственное, что у нас есть. Проблема может быть еще более серьезной за пределами западного мира. Подумайте о языках, которые исчезают в культурах, находящихся под угрозой. Мы должны в первую очередь сохранить эти произведения, сделать их доступными и в какой-то момент включить переводы, чтобы сделать их частью культурных процессов, которые все еще продолжаются, - а мы бежим в ногу со временем».

По материалам: Techxplore

Джерело матеріала
loader
loader