Anders dan de titel wellicht doet vermoeden, ging het hier niet om een wedstrijd tussen twee Nederlandssprekende gebieden, maar juist om een samenwerking: is het mogelijk om met vereende kracht een infrastructuur op te zetten waarmee de spraak van zowel de plenaire sessies als de commissie-vergaderingen van het Vlaams Parlement, in goed leesbare tekst kunnen worden omgezet.
Doel
Ergens in het najaar van 2017 kwam er een e-mail van de Vlaamse overheid:
Open marktconsultatie PIO-project
“Spraaktechnologie voor verslaggeving Vlaams Parlement (ST-VP)”
Het Vlaams Parlement, het Departement Economie, Wetenschap en Innovatie (EWI) en Addestino Innovation Management nodigen u uit om deel te nemen aan een open marktconsultatie op vrijdag 24 november 2017 van 9 tot 13 uur in de Valerius De Saedeleerzaal van het Vlaams Parlement.
Het achterliggende doel van deze oproep was:
Het Vlaams Parlement wenst na te gaan in welke mate het inzetten van automatische spraakherkenning bij de productie van verslagen van parlementaire debatten kan bijdragen tot het optimaliseren van de werkprocessen van de redacteurs/verslaggevers van het Vlaams Parlement. Het Vlaams Parlement wil verder bouwen op de beschikbare technologieën en spraakherkenning gebruiken om de audio-/video-opnames van de commissievergaderingen en van de plenaire zittingen naar tekst om te zetten.
Bijkomend beoogt het Vlaams Parlement (zo mogelijk live) ondertiteling van de beeldverslagen op de website van het Vlaams Parlement.
Dit was een best wel ambitieuze doelstelling. Voor het Nederlandse Parlement doen we bij Telecats al een aantal jaren zoiets maar daar gebruiken we de menselijke transcripten (de Handelingen) om de uitgezonden vergaderingen van ondertitels te voorzien. Maar de tekst is door mensen gemaakt. Wij doen de forced alignment en het “mooi" maken van de ondertitels.
Het Vlaams Parlement wilde een stapje verder gaan door ook de transcripties door de computer te laten maken. Uiteraard was het niet de bedoeling om de mens er tussen uit te halen maar wel om de efficiëntie te verhogen zodat meer gedaan kan worden met dezelfde hoeveelheden mensen. Op de bijeenkomst bij het Vlaams Parlement bleek dat men bovendien nog meer wilde. Niet alleen moest de spraak herkend worden, maar ook de sprekers. Het Vlaams Parlement telt 124 afgevaardigden en bovendien worden met enige regelmaat gastsprekers uitgenodigd. Tenslotte, en daar zat het venijn, wilde men niet een letterlijke transcriptie, maar een grammaticaal correcte weergave van wat er gesproken wordt waarbij de syntax/grammatica kan aangepast worden maar de inhoud dezelfde moet blijven.
Kennismaken in Brussel
Op de goed bezochte bijeenkomst waren het vooral de academische instellingen die de onmogelijkheid van dit alles benadrukten: herkennen is al een “dingetje” laat staan het "vertalen" in een goed leesbaar en de inhoud correct weergevend verslag. Begin met die herkenning en ga kijken of dat voldoende goed werkt om het werken efficiënter te maken!
Vlak voor deze bijeenkomst werd besloten het traject in te gaan met Parladium: een mix van Vlaamse en Nederlandse universiteiten (KU Leuven, UGent en de Radboud Universiteit Nijmegen) en twee bedrijven die hun sporen op het gebied van spraakherkenning al hadden verdiend: MyForce uit Vlaanderen (Merelbeke) en Telecats uit Nederland (Enschede). Het project is ambitieus en voor het ontwikkelen van nieuwe technologie heb je universiteiten nodig, maar het eindresultaat is een werkende applicatie die onderhouden moet worden en daar heb je juist weer bedrijven voor nodig.
Parladium |
|
|
|
|
|
Fig. 1: Het consortium van 3 universiteiten en 2 bedrijven
|
In februari kwam het verzoek om voor 19 februari een voorstel (soort plan van aanpak) en de expertise van de verschillende partijen toe te lichten. Aan de hand van alle ingediende plannen zouden ze dan drie partijen selecteren die op de testdag op 4 mei mee zouden mogen doen aan “De Wedstrijd”. Men zou dan een USB-stick met 3 geluidsfragmenten krijgen die zo goed (en zo snel) mogelijk moesten worden omgezet in tekst waarbij moest worden aangegeven wie per fragment de spreker was. De resultaten zouden dan beoordeeld worden door medewerkers van het Vlaams Parlement die normaal gesproken ook de verslagen maken. Pas als zij vinden dat er kans op slagen is, zou het project door kunnen gaan!
Na afloop van De Wedstrijd op 4 mei, bleek dat 6 partijen een voorstel hadden ingediend (waarvan er eentje te laat was dus die deed sowieso niet mee). Gelukkig hoorden wij, Parladium, tot de gelukkigen die werden uitgenodigd.
Voorbereiding
In de weken voor 4 mei werd er, met name door de KU Leuven en de UGent, erg hard gewerkt aan het verbeteren van de herkenning door de uitgeschreven teksten van eerdere parlementaire vergaderingen te gebruiken voor het verbeteren van het taalmodel. Ook werden alle eigennamen van de Parlementariërs manueel aan het uitspraakwoordenboek toegevoegd, alsook werd de uitspraakvorm van een reeks in het Parlement frequent gebruikte termen geverifieerd. Verder werkte de UGent hard aan het verbeteren van sprekerherkenning door van elk huidig Vlaams Parlementslid een eigen audioprofiel te maken.
De Radboud Universiteit richtte zich op het verbeteren van de zogeheten Spreek-naar-Schrijf module: een tool, oorspronkelijk ontwikkeld voor de Nederlandse Tweede Kamer, die probeert de gesproken spraak in een meer op lezen gerichte vorm te gieten (zie: https://notas.nl/dixit/s2s.pdf) . Het Vlaamse MyForce coördineerde de gehele actie en verzorgde de communicatie met het Vlaams Parlement.
Tijdens de laatste bijeenkomst bij ESAT in Leuven werden de puntjes op de i gezet en de laatste afspraken qua formaten ed. gemaakt. Wat zouden we precies gaan doen, wie zou er aanwezig zijn, en vooral: wat zouden we gaan inleveren.
Dirk Van Compernolle van de KU Leuven nam het op zich om een overzichtsdocument te schrijven met daarin de toelichting op de geleverde resultaten.
De wedstrijd
Fig. 2: Lieve Beullens te midden van Erwin Dewallef (links) en Bart Martens (rechts) bij de aftrap van De Wedstrijd.
De gesloten enveloppen liggen klaar om uitgedeeld te worden.
Vrijdag 4 mei om 8:45 in Brussel geraken was een uitdaging op zich. De Antwerpse Ring, het verkeer in Brussel en vooral de permanente wijzigingen in het Brusselse stratenplan, maakte het noodzakelijk om rond 5:30 te vertrekken. Maar…. de reis verliep vlotjes en als eerste bij het Parlement aanwezig.
Bij binnenkomst bleken behalve de eerder ontmoete medewerkers van het parlement ook twee oudgedienden van het Vlaams-Nederlandse STEVIN-programma (2004-2011) aanwezig: Peter Spyns en Erwin Dewallef. Erg gezellig om beiden weer te zien en ook te horen dat ze allebei nog op enigerwijze betrokken zijn bij de (implementatie van) Taal- en Spraaktechnologie.
We werden samen met onze concurrenten (ZoomMedia met Microsoft, Cedat85/Bertin-IT) in een van de commissiezalen gezet alwaar Lieve Beullens van het Vlaams Parlement een toelichting gaf op de procedure. We kregen een enveloppe met daarin de USB-stick met de drie geluidsfragmenten en moesten die stick met daarop de eindresultaten en een geprinte, en door ons ondertekende versie van het uiteindelijke document weer inleveren.
Aan de slag
Kris Demuynck en Brecht Desplanques, beiden van de UGent, togen direct aan het werk. De data werd naar computers aan de UGent gekopieerd en de volautomatische spraak-naar-tekst pijplijn werd opgestart. Deze pijplijn omvat volgende deelstappen:
- Omzetten van het mp3-format in 16 kHz, 16-bit, mono wav
- Het bepalen van de spraak <-> geen-spraak
- Diarisatie: het segmenteren van de opnamen in sprekers
- Het identificeren van de sprekers (welk parlementslid of minister sprak er waarschijnlijk)
- Het herkennen van de spraak
- Het combineren van de verschillende informatie in een leesbaar en editeerbaar html-document.
Fig. 3: Screenshot van Kris Demuynck's computer tijdens het runnen van de verschillende componenten. De herkenning van de drie fragmenten werd parallel op drie verschillende computers gedaan. Hierdoor waren we na 20 minuten alweer klaar.
Daarna zou ik de resultaten door de Nijmeegse Spreek2Schrijf-module halen, om de herkende tekst nog iets fraaier te presenteren.
Kris had zowel in Gent als in Leuven (als back-up) een set snelle (waren eigenlijk oude computers; de nieuwe heb ik niet op tijd in het netwerk gekregen) computers klaar staan om deze klus te klaren en na ongeveer 20 minuten waren hij en Brecht klaar. De resultaten zagen er al zeer veelbelovend uit. De sprekers waren zo te zien goed herkend en er was ook automatisch al een fotootje van elke spreker en een link naar zijn/haar officiële website geplaatst.
Fig. 4: Screenshot van een fragment van de herkende spraak. De spreekster, Elisabeth Meuleman, werd automatisch herkend.
Haar naam linkt door naar haar officiële webpagina bij het Vlaams Parlement.
De laatste stap was de S2S, maar…… Ik had het de dag ervoor nog geprobeerd en alles werkte dus dat moest een eitje worden. Vol goede moed stuurde ik de drie resultaten naar de Nijmeegse server en na een vijftal minuten kwamen de resultaten. Mooi! Maar de resultaten waren leeg. In paniek de maker Maarten van Gompel geprobeerd te bereiken, maar dat lukte niet. Later bleek dat de server wel werkte maar dat een kleine aanpassing in het formaat de oorzaak was van het leegblijven van de resultaten. Kris had in de week voor de wedstrijd nog een extra mogelijkheid gemaakt waardoor de resultaten ook direct in Microsofts word-format weggeschreven konden worden. Mooi maar ik had verzuimd om behalve te controleren of de server werkte (dat deed ie) ook te kijken of de inhoud ok was. Enorm stom.
Het resultaat
Het gevolg van dit alles was dat de resultaten zonder de mogelijke verbeteringen van S2S werden ingeleverd. Enerzijds enorm jammer maar we hadden al wel gezien dat S2S, dat getraind was op Nederlandse parlementaire data, niet altijd een verbetering gaf. Soms wel, maar soms werden goed herkende Vlaamse teksten “vernederlandst” doordat een Vlaamse afkorting werd herschreven in een gelijkend, maar net iets andere Nederlandse afkorting. Het was dus niet heel erg maar wel ontzettend stom dat de S2S-resultaten niet werden meegenomen.
{accordion title="De opgeleverde resultaten"}
{/accordion}
De drie herkende spraakopnames werden geprint, door Dirk Van Compernolle officieel ondertekend en in de enveloppe gedaan. Later dit voorjaar zullen we te horen krijgen of het Vlaams Parlement doorgaat met de inzet van spraaktech en zo ja met welke partij. Voor nu dus even geduld.
Een eenvoudige doch voedzame maaltijd
Fig. 5: Na afloop was het goed napraten op het dak van het gebouw van het Vlaams Parlement.
Van links naar rechts: Brecht Desplanques, Kris Demuynck, Peter Spyns en Erwin Dewallef.
Nadat iedereen zijn resultaten had ingeleverd konden we met z’n allen op het dak van het gebouw (strakblauwe lucht, schitterend uitzicht over Brussel) genieten van een eenvoudige doch voedzame maaltijd.
Dat een paar ongelukken met vrachtwagens de Nederlands-Belgische grensovergangen blokkeerde waardoor de terugreis bijna 4 uur in beslag nam, mocht het tevreden gevoel een mooi resultaat te hebben neergezet, niet drukken.