Scenariusze
Scenariusze wykorzystania infrastruktury
Możliwości oferowane przez Dariah.lab w zakresie wykorzystania usług, sprzętu oraz zbiorów danych ilustrują poniższe scenariusze opisane zgodnie z konwencją przyjętą w Standardization Survival Kit. SSK jest otwartym narzędziem do publikacji scenariuszy badawczych dokumentujących dobre praktyki oraz standardy stosowane w badaniach w dziedzinie humanistyki cyfrowej i dziedzictwa kulturowego.
Celem prezentacji scenariuszy opracowanych dla Dariah.lab jest wyjaśnienie co oferuje dany element infrastruktury i w jaki sposób może zostać wykorzystany w różnych obszarach oraz umożliwienie oceny jego przydatność dla różnych grup użytkowników. Scenariusze ilustrują również możliwości wykorzystania kilku elementów infrastruktury do przetwarzania danych poprzez ich zestawienie w określonym porządku w przepływie danych.
Zbiór prezentowanych poniżej scenariuszy będzie stopniowo rozszerzany.
- Tworzenie napisów do materiału wideo na podstawie ścieżki dźwiękowej
- Automatyczne tworzenie abstraktów na podstawie treści artykułów
Tworzenie napisów do materiału wideo na podstawie ścieżki dźwiękowej
Celem realizacji scenariusza jest uzyskanie tzw. zamkniętych napisów bazujących na transkrypcji ścieżki dźwiękowej materiału audiowizualnego przeznaczonych dla widzów z niepełnosprawnością słuchową.
- Obiekty:
- Multimedia
- Sound
- Text
- Techniki:
- Information Retrieval
- Machine Learning
- Standardy:
- ISO/IEC 14496
- XML
- WebVTT
Wyodrębnienie ścieżek dźwiękowych z materiału audiowizualnego
- Conversion
Wybór postaci wyników rozpoznania mowy w zakresie konwersji (np. zapis cyfrowy dat, godzin, skróty itp.)
Uzyskanie transkrypcji mowy dla poszczególnych ścieżek dźwiękowych w formacie XML zawierających zapis ortograficzny poddany konwersji oraz znaczniki czasowe
- Data Recognition
- Transcription
Konwersja wyników do wybranego formatu napisów
- Translation
Ręczna modyfikacja wyników rozpoznania mowy w celu korekty błędów, dopasowania długości napisów do dostępnego czasu ich wyświetlania, uzupełnienie o opis dźwięków niewerbalnych
- Cleaning
- Editing
Automatyczne tworzenie abstraktów na podstawie treści artykułów
Celem jest uzyskanie abstraktów artykułów literaturoznawczych za pomocą algorytmów uczenia nienadzorowanego, w celu wzbogacenia metadanych tekstów naukowych
- Obiekty:
- Text
- Techniki:
- Information Retrieval
- Encoding
- Content Analysis
Załadowanie pliku wejściowego
- Encoding
Przetworzenie treści artykułu
- Content Analysis
Przygotowanie treści abstraktu/streszczenia
- Modelling
- Anotating
Zapis wyniku do pliku wyjściowego
Weryfikacja wyników