Narzędzia normalizacji i analizy diachronicznej tekstów

Narzędzia normalizacji i analizy diachronicznej tekstów

Wydział Matematyki i Informatyki UAM 

Narzędzia datowania, normalizacji, wyszukiwania w tekstach są tworzone na Wydziale Matematyki i Informatyki pod okiem prof. Krzysztofa Jassema. Jednym nich jest oprogramowanie do automatycznej diachronicznej normalizacji tekstów polskich. Pozwala ono „uwspółcześnić” teksty historyczne, tłumacząc je na język, jakim się dziś posługujemy. Inne narzędzia będą służyć do np. datowania tekstów czy wyszukiwania informacji.

Komponenty infrastruktury
  • normalizator diachroniczny: oprogramowanie do automatycznej diachronicznej normalizacji tekstów polskich – „uwspółcześniania” tekstów historycznych poprzez tłumaczenie ich na język współczesny, co umożliwia przeszukiwanie zasobów archiwalnych za pomocą współczesnych słów kluczowych 
  • oprogramowanie do datowania tekstów: określenie daty powstania tekstu na podstawie jego treści z dokładnością średnio do 14 lat 
  • oprogramowanie uwspółcześniające synonimy: wyszukiwanie słów historycznych i zamiana ich na wyrazy współczesne o takim samym lub podobnym znaczeniu a odmiennym brzmieniu 
  • oprogramowanie pozwalające na wyszukiwanie w tekście tych samych osób występujących pod różnymi nazwami (np. postaci w tekstach literackich) 
Opis infrastruktury

Użytkownik serwisu wprowadza tekst (z klawiatury lub z pliku). Tekst wyświetlany jest w oknie edycyjnym. Na żądanie użytkownika tekst może być przetworzony przez jedną z czterech funkcji: normalizacja diachroniczna, automatyczne datowanie, uwspółcześnienie synonimów, wyszukiwanie odniesień do osób. Wynik przetwarzania wyświetlany jest w oknie umieszczonym obok okna z tekstem źródłowym. 

Adresaci infrastruktury
  • Badacze literatury dawnej 
  • Badacze języka w ujęciu diachronicznym 
  • Historycy 
  • Archeologowie 
Przykładowe zastosowania dostępnych narzędzi 

Coraz większa liczba tekstów historycznych staje się dostępna w wersji zdigitalizowanej dzięki optymalizacji algorytmów skanowania i optycznego rozpoznawania pisma. Natomiast większość powstających narzędzi analizy i przetwarzania tekstów dotyczy tekstów współczesnych. Nasz projekt jest jednym z pierwszych kroków do powstania narzędzi efektywnego przeszukiwania i przetwarzania tekstów historycznych. 

Przykładem zastosowania rozwijanych przez nas metodologii jest próba odczytania historycznych zwojów papirusu z miasta Herkulaneum przechowanych pod magmą wulkanu Wezuwiusz. W badaniach stosowane są algorytmy sztucznej inteligencji z zakresu “computer Vision” – w celu wirtualnego rozwinięcia zwojów – oraz algorytmy modelowania języka – w celu uzupełnienia brakujących elementów językowej układanki.  

W ramach projektu Dariah-pl grupa WMI opracowała otwarty konkurs uczenia maszynowego o nazwie “Challenging America” (Course (gonito.net)), w którym jedno z zadań polega na automatycznym uzupełnieniu luki (brakującego wyrazu) w wycinku tekstu napisanego w historycznym języku angielskim. Algorytmy wykonujące to zadanie mogą okazać się przydatne w odczytaniu starogreckiego tekstu przechowanego prze tysiące lat pod Wezuwiuszem. 

Strona internetowa
https://diachronia.csi.wmi.amu.edu.pl/

Koordynator modułu infrastruktury i dane kontaktowe
prof. dr hab. Krzysztof Jassem (jassem@amu.edu.pl)

Wywiad z koordynatorem modułu w Życiu Uniwersyteckim UAM
https://uniwersyteckie.pl/nauka/krzysztof-jassem-inteligentne-narzedzia-dla-humanistyki

FE logotype RP logotype EU logotype