Марко Рендина: Да започнем с разопаковането на OCR. Какво е това и защо е от значение за опазването на културното наследство?
Том Ваналемерш: OCR (Optical Character Recognition) или HTR (Handwritten Text Recognition) е технология, която произвежда цифрова транскрипция на печатни или ръкописни текстове. Транскрипциите на сканирани документи са важни главно за възможността за търсене, тъй като позволяват ключови думи да се използват за търсене на конкретен документ или за търсене на конкретна част в рамките на документ. За да се подобри допълнително тази възможност за търсене, транскрипциите могат да бъдат преведени чрез машинен превод, което дава възможност на потребителите да търсят думи в документи на различни езици, като използват например само дума за търсене на английски език.
МР: Колко ефективна е съвременната OCR технология?
Телевизия: През последните години се наблюдава забележителен напредък в OCR технологията, а някои OCR модели се представят впечатляващо добре, особено при съвременните печатни текстове. Съществува и широк спектър от все по-специализирани модели, които се грижат за различни нужди, като например текстове от 18-ти век или ръкописни писма от Втората световна война.
Въпреки този напредък обаче продължават да съществуват предизвикателства, дължащи се на фактори като различни стилове на почерк и оформление на текста, съответните езици или наличието на „шум“ (влошени знаци или проливане на кръв в документи на две страници, където мастилото на задната страна се появява на лицевата страна). Проблеми като неправилното разпознаване на знаците могат драстично да повлияят на точността на транскрипциите на OCR, проблем, който става особено очевиден, когато тези резултати се използват за преводни цели.
Въз основа на нашия опит в CrossLang с разработването на системи за многоезична обработка на документи и автоматизация на превода, ние се справихме с тези предизвикателства, за да гарантираме, че резултатът от OCR е не само точен, но и готов за превод.
МР: Можете ли да ни разкажете как правите OCR транскрипциите готови за превод?
Телевизия: Със сигурност. Подготовката на транскрипциите за превод е многоетапен процес.
Първо, документът или изображението се качват и се прилага OCR технология за генериране на цифров транскрипт. Това включва анализ на оформлението на страницата и идентифициране на знаците в текстовите области. Тъй като този процес е автоматизиран, полученият резултат може да съдържа грешки, като например неправилно разпознаване на символи и липсващи интервали. Освен това изходът на OCR обикновено няма сегментиране, представяйки линии от печатни или ръкописни знаци, както се показват на изображението, без сегментиране в изречения. Въпреки че това може да е добре, стига крайният потребител да може да прочете текста на оригиналния език, използването на OCR изхода директно, включително правописните грешки и липсата на сегментиране, много вероятно ще доведе до неточни преводи.
Използваме различни техники, за да се справим с тези неточности. Ще спомена два основни подхода. Първо, се използват техники за сегментиране и дехифенация, за да се идентифицират и разделят изреченията в текста и да се премахнат тиретата за разделяне на думи в края на редовете. Второ, за да подобрим допълнително точността на изхода на OCR, използваме инструменти, базирани на лексика, и големи езикови модели (LLM), включително чатботове с отворен код, за автоматично идентифициране и коригиране на грешки в думите, за да приведем текста възможно най-близо до оригиналното изображение.
И накрая, с коригирания OCR изход, MT може да се приложи за генериране на преводи, които са по-точни. Тази стъпка се основава на качеството на входящия текст, поради което предходните две стъпки за автоматична корекция са от решаващо значение за постигането на полезни резултати от МТ.

МР: Как оценявате дали този процес на корекция е бил успешен?
Телевизия: Използваме автоматизирани показатели като процент на грешка в символите (CER) и процент на редактиране на превода (TER), за да оценим точността и качеството на коригирания OCR изход и неговия превод. Тези показатели ни позволяват да сравним коригирания OCR изход с основната истина (желаната транскрипция), предоставяйки ценна информация за ефикасността на нашите методи. Сметната палата наблюдава значителни подобрения в това отношение, тъй като както CER, така и ОПГ като цяло намаляват след корекцията на продукцията на РОК.
Също така понякога извършваме ръчни проверки, за да гарантираме цялостната точност на текста, тъй като дори незначителна грешка може да промени значението на изречението, което може да доведе до недоразумения или неточности. Може да има и случаи, в които някой (като историк) желае да запази определени елементи от текста, включително потенциални грешки (като неправилно изписани думи); в такива случаи LLM може да „прекомерно коригира“ (по същия начин той може да замени думите, написани в по-стар вариант на език, с по-новите им версии). Такива ориентирани към съхранението сценарии („дипломатическа транскрипция“) изискват внимателна ръчна проверка.
МР: Какъв съвет бихте дали на институциите в областта на културното наследство, които искат да интегрират съвременни технологии за OCR и превод в усилията си за опазване?
Телевизия: Най-важният съвет, който мога да предложа, е да следя отблизо развитието на проекта AI4Culture. През октомври 2024 г. ще предложим онлайн семинар, насочен към студенти и експерти в областта на културното наследство, в който ще обясним практическото прилагане на РОК и МТ към сканираните документи и ще предоставим някои по-технически подробности относно аспекти като автоматизираната корекция на резултатите от РОК. Така че следете профилите в социалните медии на AI4Culture.
Научете повече
През септември 2024 г. проектът AI4Culture ще стартира платформа, в която отворени инструменти, като представените по-горе инструменти за РОК, ще бъдат достъпни онлайн, заедно със съответната документация и обучителни материали. Следете страницата на проекта в Europeana Pro за повече подробности и следете профила на проекта LinkedIn и X!
