Laboratorium inteligentnej analizy i interpretacji

Laboratorium inteligentnej analizy i interpretacji

Laboratorium inteligentnej analizy i interpretacji oferuje funkcjonalność umożliwiającą przetwarzanie semantycznie powiązanych zasobów informacyjnych w zakresie analizy danych, ich szczegółowej interpretacji oraz bieżącej interakcji z danymi. Na tym etapie przetwarzania, dane będące przedmiotem badań, są już wzbogacone w Laboratorium zautomatyzowanego wzbogacania oraz powiązane semantycznie w Laboratorium nadzorowanego semantycznego odkrywania.

W procesie realizacji badań wnioskowanie odbywa się często iteracyjnie, tj. na podstawie wyników wstępnych analiz formułowane są algorytmy kolejnego etapu przetwarzania danych, a na podstawie ich wyników, algorytmy dalszych kroków. Jest to cykl powtarzany do momentu uzyskania przez naukowca satysfakcjonujących rezultatów.  Praca z danymi ma więc bardzo często charakter interaktywny, wymagający nadzoru ze strony użytkownika i reagowania na uzyskiwane wyniki.

Laboratorium inteligentnej analizy i interpretacji  udostępni rozwiązania pozwalające naukowcom na bieżący nadzór nad procesem przetwarzania danych, które analizują oraz wprowadzanie zmian w zastosowanych algorytmach. Rozwiązania te zależą oczywiście w dużej mierze od rodzaju danych oraz charakteru prowadzanych badań. Inaczej przebiega proces analizy w przypadku danych tekstowych, a inaczej danych przestrzennych czy danych multimedialnych. W Laboratorium dostępne będą podstawowe zestawy algorytmów dla danych z różnych obszaru humanistyki cyfrowej. Niektóre z nich będą miały bardziej uniwersalny charakter, np. metody analizy danych tekstowych. Inne natomiast będą opracowane z myślą o danych ściśle określonego typu i charakteru, np. teksty prasowe.

Analiza i interpretacja danych tekstowych

W zakresie analizy danych tekstowych, Laboratorium zaoferuje rozbudowane narzędzia do statystycznego przetwarzania tekstu. W tym obszarze, możliwe będzie filtrowanie tekstów po metadanych oraz grupowanie tekstów na podstawie metadanych, czyli tworzenie podkorpusów, w celu przeprowadzenia analiz porównawczych. Dla tekstów z różnych obszarów tematycznych możliwa będzie analiza bytów i pojęć pod względem częstości ich występowania z uwzględnieniem zmian w czasie, analiza relacji między bytami, czy analiza zmian znaczenia pojęć w czasie i w obrębie różnych podkorpusów.

Analizy te bazują na danych pozyskanych na wcześniejszych etapach przetwarzania danych, tj. w ramach tagowania lingwistycznego, wykrywania jednostek identyfikacyjnych, ujednoznaczniania znaczeń (np. nazw osób i miejsc), rozpoznawania wielowyrazowych jednostek leksykalnych. Wyniki analiz prezentowane będą zarówno w postaci tekstowej, jak i w formie wizualnej, tj. w postaci grafów czy wykresów różnego rodzaju.

Powyższe narzędzia mogą zostać zastosowane do analizy korpusów tekstowych z różnych obszarów tematycznych, ale oferowane będą również rozwiązania dostosowane do charakteru zebranych danych, np. dostępne będą metody analizy i eksploracji tekstów literackich i literaturoznawczych, umożliwiające rozpoznawanie terminów literackich i literaturoznawczych czy modelowanie tematyczne z uwzględnieniem bytów i terminów literackich. Specyfika danych gromadzonych w systemach bibliotecznych uwzględniona zostanie przy tworzeniu narzędzia umożliwiającego statystyczne analizy frekwencyjne, liczniki obejmujące różne metadane – gatunki, rodzaje publikacje, autorów, oraz przeglądanie statystyk klasyfikacji, tematów, rodzajów, czasu. Osobną kategorię stanowią też korpusy tekstów prasowych i narzędzia do ich analizy statystycznej.

Przykład wizualizacji wyników analizy korpusu tekstowego: mapa ciepła ilustrująca udział tematów w dokumentach – elementach korpusu

Interaktywna analiza danych multimedialnych

Narzędzia do analizy danych multimedialnych nie mają już tak uniwersalnego charakteru jak dla danych tekstowych. W tym przypadku, rozwiązania oferowane w Laboratorium dotyczyć będą danych o określonym charakterze oraz znaczeniu, a ich przetwarzanie będzie miało ściśle określony cel.

Jedno z takich rozwiązań dotyczy anotacji emocji wyrażonych w warstwie językowej i wizualnej filmu fabularnego. Celem analizy danych jest ukazanie zgodności i/lub różnic w manifestacji konkretnych emocji w różnych językach (polski, niemiecki, duński) w odniesieniu do tych samych elementów wizualnych filmu, zaś jej podstawą – dane z warstwy anotacji wygenerowanej w procesie wzbogacania metadanych, określające emocje przypisane do poszczególnych elementów materiału.

Innym rozwiązaniem tego typu jest narzędzie do analizy symbolicznych reprezentacji różnych własności melodii, wypowiedzi ustnej oraz gestykulacji. W tym przypadku, dane poddawane analizie, uzyskane na wcześniejszych etapach przetwarzania materiałów audiowizualnych, to zawartość informacyjna wyliczona dla poszczególnych dyskretnych elementów przebiegów muzycznych (klas wysokości dźwięku, wartości rytmicznych) i mownych (głosek, sylab, słów, gestów). Wartości te reprezentują modelowe ujęcie efektów działania ludzkich umysłowych mechanizmów predykcyjnych wykorzystywanych w percepcji oryginalnych przebiegów muzycznych, mownych i towarzyszących im zjawisk gesturalnych. Wyniki analizy znajdują zastosowanie w badaniach nad aktywnością autonomicznego układu nerwowego, w przemyśle muzycznym oraz systemach automatycznej analizy mowy. 

Interaktywna analiza danych przestrzennych

Wiele współczesnych danych posiada w swojej naturze aspekt przestrzenny. Dotyczą konkretnego miejsca, opisując jego charakter i cechy. Sam fakt wytworzenia niektórych rodzajów danych w określonym miejscu również może mieć istotne znaczenie. Zastosowanie do danych historycznych nowoczesnych technik przetwarzania, wizualizacji i dystrybucji pozwala na spójne przedstawienie historii danego miejsca i jego zmian na przestrzeni czasu.

Analiza danych przestrzennych i czasoprzestrzennych wymaga w pierwszej kolejności ustalenia powiązań między danymi o różnym charakterze (opisowych i liczbowych), z warstwami referencyjnymi, takimi jak jednostki administracyjne, nazwy geograficzne czy punkty adresowe. Przetwarzanie tak powiązanych i wzbogaconych danych, może dostarczyć odpowiedzi na wiele pytań wymagających zrozumienia relacji przestrzennych między elementami (np. odległości) i pozwolić np. na znalezienie wszystkich lokalizacji spełniających określone kryteria. Analiza może ujawnić istnienie pewnych wzorców i ich zmiany w czasie lub zidentyfikować obszary koncentracji zjawisk.

Laboratorium zaoferuje narzędzia interaktywnej analizy danych przestrzennych wspomaganej metodami geomatycznymi, czyli związanymi z gromadzeniem, przechowywaniem i przetwarzaniem właśnie danych przestrzennych.

FE logotype RP logotype EU logotype