Scenariusze

Scenariusze wykorzystania infrastruktury

Możliwości oferowane przez Dariah.lab w zakresie wykorzystania usług, sprzętu oraz zbiorów danych ilustrują poniższe scenariusze opisane zgodnie z konwencją przyjętą w Standardization Survival Kit. SSK jest otwartym narzędziem do publikacji scenariuszy badawczych dokumentujących dobre praktyki oraz standardy stosowane w badaniach w dziedzinie humanistyki cyfrowej i dziedzictwa kulturowego.

Celem prezentacji scenariuszy opracowanych dla Dariah.lab jest wyjaśnienie co oferuje dany element infrastruktury i w jaki sposób może zostać wykorzystany w różnych obszarach oraz umożliwienie oceny jego przydatność dla różnych grup użytkowników. Scenariusze ilustrują również możliwości wykorzystania kilku elementów infrastruktury do przetwarzania danych poprzez ich zestawienie w określonym porządku w przepływie danych.

Zbiór prezentowanych poniżej scenariuszy będzie stopniowo rozszerzany.

Tworzenie napisów do materiału wideo na podstawie ścieżki dźwiękowej
Automatyczne tworzenie abstraktów na podstawie treści artykułów

Tworzenie napisów do materiału wideo na podstawie ścieżki dźwiękowej

Celem realizacji scenariusza jest uzyskanie tzw. zamkniętych napisów bazujących na transkrypcji ścieżki dźwiękowej materiału audiowizualnego przeznaczonych dla widzów z niepełnosprawnością słuchową.

Obiekty:
- Multimedia
- Sound
- Text

Techniki:
- Information Retrieval
- Machine Learning

Standardy:
- ISO/IEC 14496
- XML
- WebVTT

Wyodrębnienie ścieżek dźwiękowych z materiału audiowizualnego

Conversion

Wybór postaci wyników rozpoznania mowy w zakresie konwersji (np. zapis cyfrowy dat, godzin, skróty itp.)

Uzyskanie transkrypcji mowy dla poszczególnych ścieżek dźwiękowych w formacie XML zawierających zapis ortograficzny poddany konwersji oraz znaczniki czasowe

Data Recognition
Transcription

Konwersja wyników do wybranego formatu napisów

Translation

Ręczna modyfikacja wyników rozpoznania mowy w celu korekty błędów, dopasowania długości napisów do dostępnego czasu ich wyświetlania, uzupełnienie o opis dźwięków niewerbalnych

Cleaning
Editing

Automatyczne tworzenie abstraktów na podstawie treści artykułów

Celem jest uzyskanie abstraktów artykułów literaturoznawczych za pomocą algorytmów uczenia nienadzorowanego, w celu wzbogacenia metadanych tekstów naukowych

Obiekty:
- Text

Techniki:
- Information Retrieval
- Encoding
- Content Analysis

Załadowanie pliku wejściowego

Encoding

Przetworzenie treści artykułu

Content Analysis

Przygotowanie treści abstraktu/streszczenia

Modelling
Anotating

Zapis wyniku do pliku wyjściowego

Weryfikacja wyników