ШІ розшифрує стародавні рукописи Ватикану

Секретні архіви Ватикану-одна з найбільших історичних колекцій рукописів у світі. У ній зберігаються такі рідкісні документи, як папська булла про відлучення Мартіна Лютера від церкви, прохання про помилування Марії Стюарт та ін.

Але на жаль, більшість цих текстів марні. Архіви Ватикану займають площу в 85,2 кілометра, і лише кілька міліметрів колекції було відскановано і викладено в мережу. Ще менше сторінок було переведено в цифровий текстовий формат і стало доступно для пошуку. Якщо вам потрібно щось інше, необхідно подати заяву на отримання спеціального доступу, дістатися до Риму і перегорнути кожну сторінку вручну.

Новий проект In Codice ratio повинен вирішити цю проблему. Дослідники планують використовувати штучний інтелект і програму для оптичного розпізнавання букв (OCR), щоб вивчити Тексти архівів і перевести їх в цифровий вигляд. Якщо їм це вдасться, вчені зможуть розшифрувати незліченну кількість історичних архівів світу.

секретные рукописи ватикана

Технологія OCR вже давно використовується для сканування та розпізнавання тексту в книгах та інших друкованих документах. Однак вона не зовсім підходить для матеріалів секретних архівів. Традиційна технологія розбиває слова на серії зображень окремих букв — для цього вона розпізнає міжбуквені інтервали. Потім вона порівнює зображення з буквами зі своєї пам’яті. Знайшовши кращу відповідність, програма переводить букву В комп’ютерний код (ASCII) і таким чином включається функція пошуку по тексту.

Подібний метод працює тільки для машинних, але не рукописних текстів. Більшість документів Ватикану написані саме від руки. Ось, наприклад, приклад паперу початку 1200 років. Алгоритм не розуміє, де закінчується одна буква і починається інша.

Деякі дослідники намагалися навчити OCR розпізнавати цілі слова, а не букви. Технічно, такий метод повинен спрацювати, адже комп’ютерам неважливо, що вони обробляють. Але реалізувати це рішення виявилося дуже складно, тому що він вимагає гігантського запасу пам’яті. Системі необхідно знати не кілька десятків букв алфавіту, а тисячі слів, а це означає, що для розшифровки архівів знадобиться ціла група фахівців з середньовічної латині, яка буде сканувати зображення кожного слова в документах. Крім того, всі слова доведеться сканувати кілька разів, тому що через різного почерку писарів їх зображення можуть відрізнятися.

Творці проекту In Codice ratio вирішили розробити технологію OCR, яка буде розбивати слова не по буквах, а деталям накреслення. Алгоритм буде вивчати вертикальні і горизонтальні рисочки і збирати з них можливі букви, як головоломку.

Однак не завжди зрозуміло, які шматочки пазла дійсно є деталями букви. Для цього вчені звернулися до учнів старших класів. Дослідники запросили учнів 24 італійських шкіл, щоб скласти з їх допомогою банк пам’яті для програми. Школярі повинні були зайти на сайт, де їх чекав екран, поділений на три секції:

Фото: In Codice ratio

У рядку зеленого кольору були хороші, чіткі зразки тексту на середньовічній латині (на прикладі показана буква g). У Червоній-так звані помилкові друзі, зайві позначки, що не передають на листі букву g. У нижній таблиці показано ядро програми. Учням потрібно було оцінити якість спроб алгоритму розпізнати ту чи іншу літери. Вони повинні звіряти варіанти, пропоновані програмою, з ідеальним зразком в зеленому рядку, і відзначати галочкою відповідності.

Таким чином учні змогли навчити програму кожної з 22 букв середньовічного латинського алфавіту. При цьому їм не потрібно було знати Латинь, вони просто шукали схожі символи. Вивчивши їх вибір, алгоритм став експертом у цій галузі. Ну, принаймні частково.

Як виявилося, збору візуальних головоломок виявилося недостатньо. У деяких випадках написання букв і їх поєднань було занадто схожим. Наприклад, у цьому зразку незрозуміло, що написала людина «clear» або «dear» , тому що рукописний варіант літери «d» дуже схожий на «cl» .

Зображення: Sam Kean

А бувають і більш складні приклади, які неможливо зрозуміти.

Було кілька варіантів-aimo, amio, aniio, aiino і навіть aiiiio. Правильним виявився «anno» , слово, що означає на латині «рік» . Програма змогла успішно розпізнати тільки букви a і o, а чотири рисочки між ними немає.

Для вирішення цієї проблеми команда проекту вирішила навчити програму думати. Дослідники взяли цифрову версію документа з 1,5 мільйона латинських слів і вивчили в ньому дво — і трибуквені комбінації. Потім вони визначили, які комбінації трапляються часто, а які не відбуваються ніколи. За допомогою цих даних алгоритм зміг розрахувати ймовірність поєднання різних букв. У підсумку програма зрозуміла, що поєднання nn більш ймовірно, ніж iiii.

Завдяки поліпшенням алгоритм зміг, нарешті, самостійно розпізнати кілька текстів. Команда проекту дала йому на обробку кілька документів з архівів, серед яких є листи європейським королям, накази та інші папери.

Фото: Unsplash

Перші результати вийшли неоднозначними. Приблизно третина слів у документах була розпізнана з помилками. Найчастіше програма плутала букви m, n і i, а також f з архаїчним подовженим написанням S. Проте 96% листів було розшифровано правильно. За словами одного з керівників проекту, «навіть неідеальна розшифровка може дати достатньо інформації» .

Як і будь-який штучний інтелект, програма розпізнання древніх текстів, буде вдосконалюватися з часом у міру обробки більшої кількості матеріалів. І що найпрекрасніше, технології проекту In Codice Ratio можна буде легко адаптувати для розшифровки документів на різних мовах.

Однак у цього методу є ряд обмежень, стверджує Рега Вуд, історик філософії та експерт з давньої писемності Індіанського університету. Наприклад, програмі буде важко розпізнавати манускрипти, написані не професійним писарем, а скопійовані любителем, адже почерк буде істотно відрізнятися. Крім того, якщо мова йде про малі обсяги тексту, то швидше і ефективніше буде розшифрувати їх вручну без застосування такої технології.

&Nbsp;