Dariah.lab | Laboratorium nadzorowanego semantycznego odkrywania

Laboratorium nadzorowanego semantycznego odkrywania

Laboratorium nadzorowanego semantycznego odkrywania oferuje funkcjonalność związaną z kolejnym, po pozyskaniu i digitalizacji w Laboratorium źródeł oraz wzbogacaniu metadanych przez anotację w Laboratorium zautomatyzowanego wzbogacania, etapem przetwarzania danych. Etapem tym jest wiązanie danych oraz odkrywanie nowych zależności i tym samym budowanie bazy wiedzy umożliwiającej eksplorację informacji.

Chmura Linked Open Data
https://lod-cloud.net/, CC BY 4.0 via Wikimedia Commons

Dane otwarte i połączone

Różne zbiory danych mogą zawierać informacje odnoszące się do tego samego bytu, np. osoby czy miejsca. Wiązanie danych w uproszczeniu polega na wykryciu tego faktu i połączeniu informacji zawartych w poszczególnych zbiorach, tworząc tym samym bazę wiedzy na temat tego bytu i umożliwiając jego analizę. Do tego celu nie wystarczy maszynowo interpretowalna reprezentacja zawartości materiału. Konieczna jest dostępność metadanych, które opisują jego zawartość w znaczeniu semantycznym z wykorzystaniem dostępnych słowników i danych referencyjnych.

Innymi słowy, konieczne jest zapewnienie nie tylko możliwości odczytania zawartości przez komputer, ale również zrozumienia treści przez odpowiednie oznakowanie zawartości. Dodatkowo, dane te powinny mieć określoną strukturę, umożliwiającą ich automatyczną interpretację i przetwarzanie. Innymi słowy, dane powinny być przygotowane i udostępnione zgodnie z regułami LOD (ang. Linked Open Data).

Czym jest LOD? Linked Open Data to sposób publikowania ustrukturyzowanych danych, który pozwala na łączenie i wzbogacanie metadanych, dzięki czemu można odnaleźć różne reprezentacje czy instancje tej samej informacji oraz łączyć ze sobą powiązane zasoby. LOD jest określeniem stosowanym również w stosunku do opublikowanych zgodnie z tym zasadami połączonych zbiorów danych.

Jak przygotować dane jako LOD?

Wykryte w proces wzbogacania metadanych materiałów tekstowych jednostki nazewnicze i istotne terminy, muszą zostać oznaczone w sposób, który umożliwia ich właściwą interpretację, z wykorzystaniem ogólnie stosowanych kartotek haseł wzorcowych takich jak VIAF (ang. Virtual International Authority File) dla osób czy GeoNames dla nazw geograficznych. Dzięki temu, ten sam byt, np. ta sama osoba, występujący w różnych zbiorach danych ma przypisany ten sam unikalny identyfikator (URI).

Kolejnym krokiem na drodze do tworzenia zbioru danych będącego częścią LOD jest opisanie relacji między oznaczonymi elementami w formie trójek zawierających podmiot, predykat opisujący relację oraz przedmiot, zgodnie z zasadami standardu RDF (ang. Resource Description Framework) zdefiniowanego jako model do reprezentacji i wymiany danych. Podobnie jak w przypadku bytów, również relacje powinny być wyspecyfikowane z wykorzystaniem istniejących i ogólnie stosowanych ontologii.

Stosowanie opracowanych dla różnych dziedzin wiedzy słowników zapewnia spójność danych pochodzących z różnych zbiorów i umożliwia ich wiązanie. RDF jest modelem abstrakcyjnym, które może być formalnie zapisany z wykorzystaniem różnych formatów, takich jak Turtle czy RDF/XML. Dysponując metadanymi wygenerowanymi i zapisanymi zgodnie z powyższymi zasadami, można formułować zapytania w języki SPARQL w celu pozyskania określonej informacji.

Laboratorium oferuje szereg narzędzi i zasobów związanych z LOD obejmujących: ujednolicanie danych, tworzenie, wzbogacanie i udostępnianie zasobów słownikowych; oraz rzutowanie danych na LOD.

Normalizacja, standaryzacja i ujednolicanie

Wiązanie danych jest często utrudnione przez problemy związane z nietypowymi formatami danych, brakiem jednolitych opisów w metadanych czy czasoprzestrzennym wymiarem treści. Problemy te można wyeliminować stosując metody normalizacji, standaryzacji i semantycznego ujednolicania.

Ujednolicenie może dotyczyć zarówno samych danych, tzn. ich formatu lub postaci, jaki i metadanych. Nietypowy format danych (np. DjVu), może ograniczyć możliwości ich wykorzystania. Dlatego ważne jest udostępnienie danych w formatach zapewniających interoperacyjność, np. dla danych graficznych w formacie IIIF/JPG (ang. International Image Interoperability Framework) czy PDF. Przekształcenie może dotyczyć także postaci danych. Przykładowo dane występujące w postaci tabelarycznej, zapisane np. w formacie CSV, powinny zostać przekształcone do postaci RDF, która może zostać zapisana w formacie Turtle lub RDF/XML.

Metadane z różnych źródeł są różnorodne nie tylko w kontekście schematu opisu (metadanych) jaki wykorzystują, ale również w kontekście sposobu wprowadzania informacji w ramach samego opisu czyli poszczególnych pól metadanych. Laboratorium zaoferuje narzędzia umożliwiające rzutowanie metadanych z jednego schematu na inny. Rzutowanie posiadanych danych na LOD umożliwi z kolei wzbogacenie elementów (metadanych) o zewnętrzne identyfikatory poprzez linkowania jednostek nazewniczych i istotnych terminów z różnych dziedzin z siecią LOD, tj. z wykorzystaniem danych pochodzących ze słowników i ontologii dostępnych w ramach infrastruktury Dariah.lab oraz innych zasobów.

Zasoby semantyczno-leksykalne

Jedną z podstawowych zasad LOD jest opisanie posiadanych danych bazując na istniejących słownikach, tezaurusach czy ontologiach. W przypadku, gdy nie jest możliwe wyrażenie określonej informacji za pomocą istniejących już terminów czy relacji, konieczne jest rozszerzenie istniejących zasobów lub zdefiniowanie nowych dla danego obszaru wiedzy. Laboratorium udostępni zasoby semantyczno-leksykalne, jak również narzędzia do tworzenia, edycji i prezentacji słowników kontrolowanych, tezaurusów i ontologii.

Dane opublikowane w Internecie tworzą wielką sieć połączonych zasobów – ontologii, tezaurusów i baz wiedzy. Do LOD należą m.in. Wikipedia, Princeton WordNet, języki haseł przedmiotowych (np. Biblioteki Kongresu), a także różnorodne tezaurusy specjalistyczne, jak medyczny MeSH czy astronomiczny UAT. Jednym z zasobów udostępnionych w Dariah.lab będzie opracowany w Laboratorium VeSNet – wersja LOD, obejmująca polskie odpowiedniki dla setek tysięcy pojęć z wielu różnych zasobów leksykalnych. Jest ona zintegrowana ze Słowosiecią, która – łącznie z Princeton WordNet – stanowi centrum VeSNetu. Laboratorium udostępni zintegrowane zasoby leksykalne dla języka polskiego i łaciny średniowiecznej, tj. słowniki, kartoteki materiałowe i korpusy językowe. Innym specjalistycznym zasobem będzie zbiór zagregowanych i powiązanych danych z zakresu literaturoznawstwa.

Laboratorium udostępni również rozwiązanie do tworzenia, rozbudowy i edycji istniejących oraz nowych słowników w semantycznym modelu SKOS (ang. Simple Knowledge Organization System). SKOS jest jednym ze standardów Semantic Web zbudowanych na bazie RDF, a jego głównym celem jest ułatwienie publikacji i wykorzystania słowników jako danych powiązanych. Słowniki wykorzystywane do przygotowywania metadanych zasobów cyfrowych mogą przybierać różne formy. Ważne jest więc możliwości wiązania pojęć z istniejących słowników i tezaurusów i ich konsolidacja. W tym ostatnim przypadku możliwe będzie np. rzutowanie stworzonego przez użytkownika zasobu na podobne, anglojęzyczne zasoby, co pozwoli na jego spopularyzowanie.