Scenariusze

Scenariusze wykorzystania infrastruktury

Możliwości oferowane przez Dariah.lab w zakresie wykorzystania usług, sprzętu oraz zbiorów danych ilustrują poniższe scenariusze opisane zgodnie z konwencją przyjętą w Standardization Survival Kit. SSK jest otwartym narzędziem do publikacji scenariuszy badawczych dokumentujących dobre praktyki oraz standardy stosowane w badaniach w dziedzinie humanistyki cyfrowej i dziedzictwa kulturowego.

Celem prezentacji scenariuszy opracowanych dla Dariah.lab jest wyjaśnienie co oferuje dany element infrastruktury i w jaki sposób może zostać wykorzystany w różnych obszarach oraz umożliwienie oceny jego przydatność dla różnych grup użytkowników. Scenariusze ilustrują również możliwości wykorzystania kilku elementów infrastruktury do przetwarzania danych poprzez ich zestawienie w określonym porządku w przepływie danych.

Zbiór prezentowanych poniżej scenariuszy będzie stopniowo rozszerzany.

Tworzenie napisów do materiału wideo na podstawie ścieżki dźwiękowej

Celem realizacji scenariusza jest uzyskanie tzw. zamkniętych napisów bazujących na transkrypcji ścieżki dźwiękowej materiału audiowizualnego przeznaczonych dla widzów z niepełnosprawnością słuchową.

  • Obiekty:
    • Multimedia
    • Sound
    • Text
  • Techniki:
    • Information Retrieval
    • Machine Learning
  • Standardy:
    • ISO/IEC 14496
    • XML
    • WebVTT

Wyodrębnienie ścieżek dźwiękowych z materiału audiowizualnego

  • Conversion

Wybór postaci wyników rozpoznania mowy w zakresie konwersji (np. zapis cyfrowy dat, godzin, skróty itp.)

Uzyskanie transkrypcji mowy dla poszczególnych ścieżek dźwiękowych w formacie XML zawierających zapis ortograficzny poddany konwersji oraz znaczniki czasowe

  • Data Recognition
  • Transcription

Konwersja wyników do wybranego formatu napisów

  • Translation

Ręczna modyfikacja wyników rozpoznania mowy w celu korekty błędów, dopasowania długości napisów do dostępnego czasu ich wyświetlania, uzupełnienie o opis dźwięków niewerbalnych

  • Cleaning
  • Editing

Automatyczne tworzenie abstraktów na podstawie treści artykułów

Celem jest uzyskanie abstraktów artykułów literaturoznawczych za pomocą algorytmów uczenia nienadzorowanego, w celu wzbogacenia metadanych tekstów naukowych

  • Obiekty:
    • Text
  • Techniki:
    • Information Retrieval
    • Encoding
    • Content Analysis

Załadowanie pliku wejściowego

  • Encoding

Przetworzenie treści artykułu

  • Content Analysis

Przygotowanie treści abstraktu/streszczenia

  • Modelling
  • Anotating

Zapis wyniku do pliku wyjściowego

Weryfikacja wyników

FE logotype RP logotype EU logotype