Tijdens de succesvolle en plezierige workshop in Arezzo (2017) werd duidelijk dat, mits goed en eenvoudig uitgevoerd, het automatisch transcriberen van interviews nuttig kan zijn om sneller een goed beeld te krijgen van hetgeen er werd gezegd. Men was zich bewust van de onvolkomenheden van automatische spraakherkenning en dat de resultaten afnemen wanneer de audio-kwaliteit minder is en/of er in (zwaar) dialect gesproken wordt.

Wat nadrukkelijk gevraagd werd, was om een mogelijk portal eenvoudig te houden door weinig eisen aan de invoer te stellen en zo min mogelijk technische jargon te gebruiken.

Nadat in het najaar van 2017 de aanvraag voor het bouwen van de portal goedgekeurd was, begon het team van Christoph Draxler aan de bouw ervan. Een dag voor de presentatie werd de bèta-versie geüpgraded naar versie 1.0.0: waarlijk precies op tijd J.

De portal

Afbeelding1Fig. 1: Screenshot van de portal

Het idee van de portal is eenvoudig. Je gaat naar de website (https://www.phonetik.uni-muenchen.de/apps/oh-portal/# ) en selecteerde en of meerdere geluidsbestanden. Op dit moment moeten de bestanden als wav-files gecodeerd zijn, maar in de nabije toekomst is zelfs dat niet meer noodzakelijk omdat de portal zelf de ontvangen bestanden in het juiste formaat zal over zetten. Wat nu al kan is dat het niet uitmaakt met welke sample frequentie de files opgenomen zijn en of ze mono of stereo zijn. Wel is het zo dat in geval van stereo, de portal vraagt of je beide kanalen apart of samen wilt processen. Wanneer je kiest voor apart worden beide kanalen na elkaar gedaan waardoor je bij opnamen met 2 sprekers elk op een eigen kanaal, je veel beter de verschillende sprekers kunt scheiden, turn-taking kun bepalen en overal een beter herkenningsresultaat kunt krijgen.

Workflow

Wanneer je op de portal bent, selecteer je middels de knop  de wav-files van je eigen computer waarvan je de spraak wilt gaan herkennen. Vervolgens klik je op verify waarna er een keuze venster opent waarin je de verschillende opties kunt instellen.

Afbeelding2Fig. 2: verify-window. Selecteer de taal en eventueel de gewenste ASR-engine voor die taal.
Bovendien kun je kiezen wat je met de herkenningsresultaten wilt gaan doen: “manuele transcriptie/correctie gevolgd door woord alignment.

Op dit moment kun je slechts een keuze maken voor alle files in het verify-window. Je kunt dus niet twee files laden en dan de ene door de Italiaanse en de andere door de Engelse herkenner halen.

Als de keuze eenmaal gemaakt zijn, kun je via de knop  het processen beginnen. De files worden eerst geupload en vervolgens verwerkt. Zoals gezegd, als er een stereo file bijzit, wordt gevraagd hoe je de stereo file wilt verwerken.

Manual Transcription

Zoals gezegd, werkt spraakherkenning bijna nooit foutloos. Afhankelijk van de opnamen kwaliteit, de manier van spreken en het woordgebruik van de verschillende sprekers, hun accenten en de aanwezigheid van achtergrondgeluiden zal spraakherkenning meer of minder succesvol zijn. Bij goede opnamen, heldere, coherente spraak is een foutpercentage van minder dan 10% goed te doen voor de vier talen in de huidige portal (En, Nl, It, en De).

Maar ook bij heel goede herkenning, zal er altijd wel iets fout gaan. De knop Manual Transcriptie biedt de mogelijkheid om correcties in het herkenningsresultaat aan te brengen. Maar door in de herkende tekst te gaan editen, wordt het verband tussen het herkende woord en de tijd in de audiofile verbroken. Om die weer te herstellen kan, nadat de automatisch verkregen transcriptie handmatig gecorrigeerd is, gekozen worden voor “word alignment”. De herkenner gaat nogmaals aan de slag maar weet nu precies wat er gezegd werd. Het resultaat is nu een perfecte transcriptie waarbij van ieder woord precies bekend is wanneer het werd uitgesproken. Dit biedt de mogelijkheid om automatische ondertiteling te genereren of een karaoke-versie te maken waarbij het uitgesproken woord gehighlight wordt.

Webservice

Tijdens de eerste dag van workshop werd de werking van spraakherkenning, de gemaakte keuzes en de problemen bij het bouwen verteld. De huidige portal is een webservice die op een uniforma manier de audio-files “verzamelt” en die vervolgens, afhankelijk van de gemaakte keuzes, doorstuurt naar de verschillende spraakherkenners (WebASr in Sheffield, LST-NL in Nijmegen, LST-En in Enschede, EML-It in Duitsland). Elke herkenner geeft vervolgens een eigen output terug die door de portal in München weer naar een van de gekozen standaards wordt herschreven. Wanneer in de nabije toekomst extra talen toegevoegd zullen worden, zal dit steeds opnieuw moeten worden opgelost.

Commercial versus Open Source

Er zijn veel meer herkenners beschikbaar (en ook voor meer talen dan de nu getoonde 4) maar die zijn bijna allemaal (semi-)commercieel. Het is zeer eenvoudig om de uitstekende Google-herkenner aan te sluiten en in de bèta-versies van de portal was dit ook gedaan.

Het betalen met geld is meestal geen probleem omdat het om zeer lage bedragen gaat (een paar euro per uur spraak) maar bijna altijd wordt de gebruikte audio-data op de schijven van de commerciële partijen opgeslagen voor extra training, testen of iets anders. En dat is dikwijls wel een probleem omdat het vaak om gevoelige informatie gaat. Sowieso is het gebruik van onze (betrouwbare) portal soms al een probleem omdat in de voorwaarde van veel collecties nadrukkelijk staat dat de data het “gebouw” niet zonder toestemming mogen verlaten.

Voor gebruik van de portal tijdens de workshop werd daarom besloten de commerciële herkenners als keuze optie te verwijderen.

Bij de eerste evaluatie op woensdagmiddag werd echter door veel deelnemers gevraagd deze optie toch weer in te bouwen maar dan nadrukkelijk aan te geven dat de herkenners X, Y en Z “commercieel zijn en dat ze wellicht de data op hun eigen schijven zullen bewaren. Het is dan aan de gebruikers om te besluiten die herkenners wel/niet te gebruiken.

Hands-on

Op donderdagochtend was er eerst een presentatie van de manier waarop de portal gebruikt moet worden. Vervolgens kon iedereen een kort geluidsfragment (eigen geluidsfile of eentje beschikbaar via workshop-portal) uploaden en door de herkenner halen, bewerken, alignen en de uiteindelijke resultaten downloaden.

Dat ging bijna goed. De systemen van de LMU bleken niet in staat te zijn 20 gebruikers parallel te bedienen waardoor er soms vreemde foutmeldingen verschenen en sommige deelnemers enorm lang moesten wachten om een fragment van 5 minuten herkend te krijgen. Schaalbaarheid is zeker nog iets om goed naar te kijken!

Wel waren de meeste deelnemers zeer te spreken over de eenvoud van het geheel. Het enige dat af en toe lastig bleek was het extraheren van de audio uit video-interviews en/of het omzetten van een bepaald formaat (bv *.wma of *. mp3) in het verwachte *.wav formaat. Technisch is dit een fluitje van een cent, maar als je niet weet hoe je het moet doen en/of de juiste software niet op je computer hebt, is dit toch wel een issue. De mogelijkheid om het binnenkort in de portal te doen, werd daarom met enthousiasme begroet.

De meeste deelnemers waren meer dan tevreden over de herkenningsresultaten en begrepen goed dat automatische spraakherkenning van geluidsfragmenten die ze zelf nauwelijks konden verstaan, lastig zo niet onmogelijk was.

Wat wel gevraagd werd was of extra output-formaten gemaakt konden worden zodat ze de resultaten van het gehele proces direct in hun eigen systemen zouden kunnen laden (Zwangsarbeit Archiv, ELAN). Technisch is dit geen enkel probleem maar we kunnen niet alle formaten van alle OH-projecten gaan ondersteunen. De bouwers van de portal hebben aangegeven dat ze op korte termijn zullen gaan kijken naar mogelijk interessante export-formaten, en deze zullen toevoegen aan de huidige export-formaten.

Conclusie

Over het algemeen waren de deelnemers tevreden over de mogelijkheden van de OH-portal. Iedereen kon, na enige hulp bij het omzetten van de geluidsbestanden, zijn eigen geluidsfiles door de portal halen, de transcriptie handmatig corrigeren en de uiteindelijke resultaten downloaden. Het feit dat de belasting van de services door het gelijktijdig gebruik van 20+ deelnemers te hoog werd waardoor de systemen onderuitgingen was eigenlijk het enige dat bij de hands-on sessie verkeerd ging. Voor de bouwers van de portal was het een goede wake-up call.

In de komende maanden zal de verdeling over verschillende systemen beter geregeld gaan worden en zullen verschillende andere herkenners (zowel commercieel als niet-commercieel) worden toegevoegd. Wij zullen (o.a. tijdens de CLARIN-dagen in Pisa) gaan kijken welke andere CLARIN-deelnemers een herkenner beschikbaar hebben en eventueel zouden willen meedoen.

Kaldi

Op dit moment is het Kaldi het populairste platform voor op DNN-gebaseerde spraakherkenning. De Nederlandse en een Engelse herkenner werken al met Kaldi en de zowel in Duitsland als Italië zijn aan de universiteiten verbonden onderzoekers bezig een op Kaldi gebaseerde herkenner te maken. Omdat het zonde zou zijn het wiel meerdere keren uit te vinden, is afgesproken te onderzoeken in hoeverre we de krachten kunnen bundelen en gezamenlijk aan op Kaldi gebaseerde herkenners kunnen gaan werken.