PIO logo

Anders dan de titel wellicht doet vermoeden, ging het hier niet om een wedstrijd tussen twee Nederlandssprekende gebieden, maar juist om een samenwerking: is het mogelijk om met vereende kracht een infrastructuur op te zetten waarmee de spraak van zowel de plenaire sessies als de commissie-vergaderingen van het Vlaams Parlement, in goed leesbare tekst kunnen worden omgezet.

Doel

Ergens in het najaar van 2017 kwam er een e-mail van de Vlaamse overheid:

Open marktconsultatie PIO-project
“Spraaktechnologie voor verslaggeving Vlaams Parlement (ST-VP)”

Het Vlaams Parlement, het Departement Economie, Wetenschap en Innovatie (EWI) en Addestino Innovation Management nodigen u uit om deel te nemen aan een open marktconsultatie op vrijdag 24 november 2017 van 9 tot 13 uur in de Valerius De Saedeleerzaal van het Vlaams Parlement.

Het achterliggende doel van deze oproep was:

Het Vlaams Parlement wenst na te gaan in welke mate het inzetten van automatische spraakherkenning bij de productie van verslagen van parlementaire debatten kan bijdragen tot het optimaliseren van de werkprocessen van de redacteurs/verslaggevers van het Vlaams Parlement. Het Vlaams Parlement wil verder bouwen op de beschikbare technologieën en spraakherkenning gebruiken om de audio-/video-opnames van de commissievergaderingen en van de plenaire zittingen naar tekst om te zetten.

Bijkomend beoogt het Vlaams Parlement (zo mogelijk live) ondertiteling van de beeldverslagen op de website van het Vlaams Parlement.

Dit was een best wel ambitieuze doelstelling. Voor het Nederlandse Parlement doen we bij Telecats al een aantal jaren zoiets maar daar gebruiken we de menselijke transcripten (de Handelingen) om de uitgezonden vergaderingen van ondertitels te voorzien. Maar de tekst is door mensen gemaakt. Wij doen de forced alignment en het “mooi" maken van de ondertitels.

Het Vlaams Parlement wilde een stapje verder gaan door ook de transcripties door de computer te laten maken. Uiteraard was het niet de bedoeling om de mens er tussen uit te halen maar wel om de efficiëntie te verhogen zodat meer gedaan kan worden met dezelfde hoeveelheden mensen. Op de bijeenkomst bij het Vlaams Parlement bleek dat men bovendien nog meer wilde. Niet alleen moest de spraak herkend worden, maar ook de sprekers. Het Vlaams Parlement telt 124 afgevaardigden en bovendien worden met enige regelmaat gastsprekers uitgenodigd. Tenslotte, en daar zat het venijn, wilde men niet een letterlijke transcriptie, maar een grammaticaal correcte weergave van wat er gesproken wordt waarbij de syntax/grammatica kan aangepast worden maar de inhoud dezelfde moet blijven.

Kennismaken in Brussel

Op de goed bezochte bijeenkomst waren het vooral de academische instellingen die de onmogelijkheid van dit alles benadrukten: herkennen is al een “dingetje” laat staan het "vertalen" in een goed leesbaar en de inhoud correct weergevend verslag. Begin met die herkenning en ga kijken of dat voldoende goed werkt om het werken efficiënter te maken!

Vlak voor deze bijeenkomst werd besloten het traject in te gaan met Parladium: een mix van Vlaamse en Nederlandse universiteiten (KU Leuven, UGent en de Radboud Universiteit Nijmegen) en twee bedrijven die hun sporen op het gebied van spraakherkenning al hadden verdiend: MyForce uit Vlaanderen (Merelbeke) en Telecats uit Nederland (Enschede). Het project is ambitieus en voor het ontwikkelen van nieuwe technologie heb je universiteiten nodig, maar het eindresultaat is een werkende applicatie die onderhouden moet worden en daar heb je juist weer bedrijven voor nodig.

Parladium
logo kuleuven logo ugent logo ru logo myforce logo Telecats
Fig. 1: Het consortium van 3 universiteiten en 2 bedrijven

In februari kwam het verzoek om voor 19 februari een voorstel (soort plan van aanpak) en de expertise van de verschillende partijen toe te lichten. Aan de hand van alle ingediende plannen zouden ze dan drie partijen selecteren die op de testdag op 4 mei mee zouden mogen doen aan “De Wedstrijd”. Men zou dan een USB-stick met 3 geluidsfragmenten krijgen die zo goed (en zo snel) mogelijk moesten worden omgezet in tekst waarbij moest worden aangegeven wie per fragment de spreker was. De resultaten zouden dan beoordeeld worden door medewerkers van het Vlaams Parlement die normaal gesproken ook de verslagen maken. Pas als zij vinden dat er kans op slagen is, zou het project door kunnen gaan!

Na afloop van De Wedstrijd op 4 mei, bleek dat 6 partijen een voorstel hadden ingediend (waarvan er eentje te laat was dus die deed sowieso niet mee). Gelukkig hoorden wij, Parladium, tot de gelukkigen die werden uitgenodigd.

Voorbereiding

In de weken voor 4 mei werd er, met name door de KU Leuven en de UGent, erg hard gewerkt aan het verbeteren van de herkenning door de uitgeschreven teksten van eerdere parlementaire vergaderingen te gebruiken voor het verbeteren van het taalmodel. Ook werden alle eigennamen van de Parlementariërs manueel aan het uitspraakwoordenboek toegevoegd, alsook werd de uitspraakvorm van een reeks in het Parlement frequent gebruikte termen geverifieerd. Verder werkte de UGent hard aan het verbeteren van sprekerherkenning door van elk huidig Vlaams Parlementslid een eigen audioprofiel te maken.

De Radboud Universiteit richtte zich op het verbeteren van de zogeheten Spreek-naar-Schrijf module: een tool, oorspronkelijk ontwikkeld voor de Nederlandse Tweede Kamer, die probeert de gesproken spraak in een meer op lezen gerichte vorm te gieten (zie: https://notas.nl/dixit/s2s.pdf) . Het Vlaamse MyForce coördineerde de gehele actie en verzorgde de communicatie met het Vlaams Parlement.

Tijdens de laatste bijeenkomst bij ESAT in Leuven werden de puntjes op de i gezet en de laatste afspraken qua formaten ed. gemaakt. Wat zouden we precies gaan doen, wie zou er aanwezig zijn, en vooral: wat zouden we gaan inleveren.
Dirk Van Compernolle van de KU Leuven nam het op zich om een overzichtsdocument te schrijven met daarin de toelichting op de geleverde resultaten.

De wedstrijd

lieveFig. 2: Lieve Beullens te midden van Erwin Dewallef (links) en Bart Martens (rechts) bij de aftrap van De Wedstrijd.
De gesloten enveloppen liggen klaar om uitgedeeld te worden.

 

Vrijdag 4 mei om 8:45 in Brussel geraken was een uitdaging op zich. De Antwerpse Ring, het verkeer in Brussel en vooral de permanente wijzigingen in het Brusselse stratenplan, maakte het noodzakelijk om rond 5:30 te vertrekken. Maar…. de reis verliep vlotjes en als eerste bij het Parlement aanwezig.

Bij binnenkomst bleken behalve de eerder ontmoete medewerkers van het parlement ook twee oudgedienden van het Vlaams-Nederlandse STEVIN-programma (2004-2011) aanwezig: Peter Spyns en Erwin Dewallef. Erg gezellig om beiden weer te zien en ook te horen dat ze allebei nog op enigerwijze betrokken zijn bij de (implementatie van) Taal- en Spraaktechnologie.

We werden samen met onze concurrenten (ZoomMedia met Microsoft, Cedat85/Bertin-IT) in een van de commissiezalen gezet alwaar Lieve Beullens van het Vlaams Parlement een toelichting gaf op de procedure. We kregen een enveloppe met daarin de USB-stick met de drie geluidsfragmenten en moesten die stick met daarop de eindresultaten en een geprinte, en door ons ondertekende versie van het uiteindelijke document weer inleveren.

Aan de slag

Kris Demuynck en Brecht Desplanques, beiden van de UGent, togen direct aan het werk. De data werd naar computers aan de UGent gekopieerd en de volautomatische spraak-naar-tekst pijplijn werd opgestart. Deze pijplijn omvat volgende deelstappen:

  1. Omzetten van het mp3-format in 16 kHz, 16-bit, mono wav
  2. Het bepalen van de spraak <-> geen-spraak
  3. Diarisatie: het segmenteren van de opnamen in sprekers
  4. Het identificeren van de sprekers (welk parlementslid of minister sprak er waarschijnlijk)
  5. Het herkennen van de spraak
  6. Het combineren van de verschillende informatie in een leesbaar en editeerbaar html-document.


Vlaams Parlement ScreenshotFig. 3: Screenshot van Kris Demuynck's computer tijdens het runnen van de verschillende componenten. De herkenning van de drie fragmenten werd parallel op drie verschillende computers gedaan. Hierdoor waren we na 20 minuten alweer klaar.

Daarna zou ik de resultaten door de Nijmeegse Spreek2Schrijf-module halen, om de herkende tekst nog iets fraaier te presenteren.

Kris had zowel in Gent als in Leuven (als back-up) een set snelle (waren eigenlijk oude computers; de nieuwe heb ik niet op tijd in het netwerk gekregen) computers klaar staan om deze klus te klaren en na ongeveer 20 minuten waren hij en Brecht klaar. De resultaten zagen er al zeer veelbelovend uit. De sprekers waren zo te zien goed herkend en er was ook automatisch al een fotootje van elke spreker en een link naar zijn/haar officiële website geplaatst.

herkende spraak vpFig. 4: Screenshot van een fragment van de herkende spraak. De spreekster, Elisabeth Meuleman, werd automatisch herkend.
Haar naam linkt door naar haar officiële webpagina bij het Vlaams Parlement.

De laatste stap was de S2S, maar…… Ik had het de dag ervoor nog geprobeerd en alles werkte dus dat moest een eitje worden. Vol goede moed stuurde ik de drie resultaten naar de Nijmeegse server en na een vijftal minuten kwamen de resultaten. Mooi! Maar de resultaten waren leeg. In paniek de maker Maarten van Gompel geprobeerd te bereiken, maar dat lukte niet. Later bleek dat de server wel werkte maar dat een kleine aanpassing in het formaat de oorzaak was van het leegblijven van de resultaten. Kris had in de week voor de wedstrijd nog een extra mogelijkheid gemaakt waardoor de resultaten ook direct in Microsofts word-format weggeschreven konden worden. Mooi maar ik had verzuimd om behalve te controleren of de server werkte (dat deed ie) ook te kijken of de inhoud ok was. Enorm stom.

Het resultaat

Het gevolg van dit alles was dat de resultaten zonder de mogelijke verbeteringen van S2S werden ingeleverd. Enerzijds enorm jammer maar we hadden al wel gezien dat S2S, dat getraind was op Nederlandse parlementaire data, niet altijd een verbetering gaf. Soms wel, maar soms werden goed herkende Vlaamse teksten “vernederlandst” doordat een Vlaamse afkorting werd herschreven in een gelijkend, maar net iets andere Nederlandse afkorting. Het was dus niet heel erg maar wel ontzettend stom dat de S2S-resultaten niet werden meegenomen.

De drie herkende spraakopnames werden geprint, door Dirk Van Compernolle officieel ondertekend en in de enveloppe gedaan. Later dit voorjaar zullen we te horen krijgen of het Vlaams Parlement doorgaat met de inzet van spraaktech en zo ja met welke partij. Voor nu dus even geduld.

Een eenvoudige doch voedzame maaltijd

maaltijdFig. 5: Na afloop was het goed napraten op het dak van het gebouw van het Vlaams Parlement.
Van links naar rechts: Brecht Desplanques, Kris Demuynck, Peter Spyns en Erwin Dewallef.

Nadat iedereen zijn resultaten had ingeleverd konden we met z’n allen op het dak van het gebouw (strakblauwe lucht, schitterend uitzicht over Brussel) genieten van een eenvoudige doch voedzame maaltijd.
Dat een paar ongelukken met vrachtwagens de Nederlands-Belgische grensovergangen blokkeerde waardoor de terugreis bijna 4 uur in beslag nam, mocht het tevreden gevoel een mooi resultaat te hebben neergezet, niet drukken.

Achtergrond

Al sinds de eerste jaren van het internet, bestond er de behoefte om te kunnen zoeken in de content die datzelfde internet ontsloot. Ging het in eerste instantie nog met specifieke zoektechnieken zoals Boolean Search, later kwamen er meer verfijnde technieken die over het algemeen beter aansloten bij de manier waarop mensen gewend waren te zoeken.

KarelEnDeElegastDe antwoorden op een zoekvraag waren en eigenlijk zijn nog steeds vrij simpel: hier heb je een lijst met verwijzingen (links naar andere website, naar documenten, video’s, etc) waarin volgens ons zoekalgoritme het juiste antwoord hopelijk staat. Succes ermee!

Dit is lang niet altijd verkeerd. Wil ik iets weten over “Karel en de Elegast” dan is er niets mis mee dat ik een lijst met verschillende verwijzingen naar informatie over dit heldenepos krijg. Ik kan die bekijken en zelf beslissen welke documenten ik hierover wil lezen of bekijken.

Anders ligt het wanneer ik wil weten wat “Karel en de Elegast” is. Dan wil ik een kort antwoord: “een heldenepos uit 1270 over de avonturen van Keizer Karel de Grote (748-814)”.

De eerste manier van zoeken-vinden is, zeker sinds de komst van Google, enorm uitgebreid en goed en wordt niet-voor-niets dagelijks door honderdduizenden Nederlanders gebruikt. De tweede, waarbij je een antwoord wilt hebben op een gestelde vraag (en dus niet: hier kun je het antwoord waarschijnlijk zelf vinden), is veel minder goed ontwikkeld. Met de komst van Linked (Open) Data, RDF, Wikipedia en vooral DBpedia is daar veel in verbeterd. Zoek je nu naar bv Telecats, dan krijg je links nog steeds de lijst met wellicht relevante documenten, maar aan de rechterkant krijg je een soort antwoord in de vorm van wat plaatjes van het gebouw, de sluitingstijden (wij schijnen al om 17:30 te stoppen met werken) en een plattegrond van de omgeving.

telecats LODAntwoord op de zoekvraag "wat is Telecats".
Het antwoord wordt gegeven via een aantal voor bedrijven relevante gegevens zoals openingstijden, locatie, eigenaren en meer.

Dit is een mooie ontwikkeling en zal ervoor zorgen dat het internet steeds meer ook een soort vraag-antwoord karakter zal krijgen. Maar dit geldt voor de informatie die “publiek” ontsloten is en waar zoekmachines dus makkelijk bij kunnen. Bovendien is het zo dat Google (en andere zoek engines zoals BING - Microsoft) bepalen welk antwoord jij gaat krijgen.

Zoals de affaire rond Facebook - Cambridge Analytics heeft laten zien, is het zeker niet zo dat de gegeven antwoorden “waarde vrij” zullen zijn. Het antwoord kan afhangen van de computer die je gebruikt, eerdere zoekvragen, je IP-adres, etc. Bovendien is het zo dat eigenaren van de content slechts in zeer beperkte mate invloed hebben op de antwoorden die gegeven worden.

Gaan we bij Google zoeken naar hoe zet ik een Billy in elkaar dan krijg ik als eerste antwoord een YouTube-filmpje, dan een aantal verwijzingen naar handleiding.com en op de vijfde plek een soort scheldkanonnade.

 

ikeaEen wat overtrokken en onterecht antwoord maar door de vraag-antwoorden “uit te besteden” aan internet, is IKEA hier bijna alle controle kwijt.

Zoeken in de eigen content

Om hier iets aan te doen, moet een leverancier het mogelijk maken om bijvoorbeeld via de eigen website alleen in de, door de leverancier goedgekeurde informatie te zoeken. Dat kan ook m.b.v.  Google maar dan krijg je weer die lijst met mogelijke documenten/links waarin je zelf de informatie moet opzoeken.

Chatbots

Joseph Weizenbaum's Eliza kan gezien worden als “De moeder van alle Chatbots”. Eliza werd geprogrammeerd om trefwoorden te matchen met een dataset in een gesloten domein. De meest populaire versie van Eliza lag op het gebied van de Rogeriaanse psychotherapie.

Q: ik voel me ongelukkig

A: wat vind jij daar zelf van?

Etc.

Om echt antwoord te geven op gestelde vragen werd in de jaren negentig een soort vraag-antwoord programma bedacht dat in 1994 bekend werd als Chatbot. Aanvankelijk werden gestelde vragen bijna geheel handmatig aan antwoorden gekoppeld: werkte goed, zolang de vragen maar leken op de voorbeeldvragen. Naarmate de taaltechnologie beter werd, werd het scala aan te beantwoorde vragen groter. Zo kon je vragen als “ik wil mijn abonnement opzeggen” en “hierbij zeg ik mijn abonnement op” aan elkaar gelijkstellen en daar een antwoord op geven.

En hoewel deze techniek zeer bruikbaar was, bleek al snel dat meer ingewikkelde vragen hiermee niet beantwoord konden worden. Ook ontkenningen (“ik wil mijn abonnement niet opzeggen, maar…”) zorgde voor veel problemen. Machine Learning waarbij niet alleen gekeken werd naar de woorden die wel in de vraag voorkwamen maar ook naar woorden die juist niet voorkwamen, bleek een uitkomst waardoor de chatbot-technologie weer een flink stuk robuuster werd. Wel werd het steeds meer duidelijk dat we voor deze technologie grote hoeveelheden beoordeelde data nodig hadden.

M.a.w. je hebt duizenden voorbeelden nodig van door mensen gemaakte vraag-antwoord paren. De komst van geavanceerdere zelflerende systemen (o.a. Deep Neural Networks) en grote hoeveelheden data, maakte het mogelijk de chatbot-technologie steeds beter te maken.

Avatars

De eerste vraag-antwoord applicaties bestonden allemaal uit een invoerregel en een submit-knop. In een tekstveld daaronder verscheen dan het antwoord. Al snel werd geprobeerd dit wat aantrekkelijker te maken door er een plaatje van een (meestal een mooi) meisje bij te zetten.

avatarDe volgende stap was een meer geavanceerde avatar die de antwoorden min-of-meer lip-synchroon uitsprak. Voor het voorlezen van het antwoord wordt danText-to-Speech gebruikt; een technologie die zo goed wordt dat het, bij korte antwoorden, nauwelijks meer van echt te onderscheiden is.

Toch zette deze trend van “namaak-mensen” niet echt door en gebruiken de meeste chatbots tegenwoordig een meer karikaturale avatar of slechts een plaatje met een tekstueel antwoord. De mensachtige avatars voegden weinig nut toe maar kosten wel veel overhead voor het animeren.

Gesproken chatbots

Naarmate de spraakherkenning beter werd, werd steeds vaker geëxperimenteerd met gesproken chatbots waarbij zowel de vraag als het antwoord via spraak gingen. Ideaal voor situaties waarbij je je handen nodig hebt of waarbij het verboden is om het toestel aan te raken (mobiele telefoon in de auto). Een van de bekendste voorbeelden is natuurlijk TomTom waarbij je het adres volgens een vast stramien (stad, straat, huisnummer) kon inspreken, waarna het kastje je zo snel mogelijk naar het juiste adres leidde.

De grote doorbraak kwam met het verschijnen van SIRI voor iOS (2011). Aanvankelijk alleen voor het Engels, maar later ook voor andere talen. SIRI was toentertijd erg revolutionair en er werd enorm veel van verwacht. Er verschenen talloze filmpjes waarin mensen vroegen of ze een paraplu moesten meenemen, of SIRI de kookwekker op 3 minuten kon zetten of dat SIRI iemand op z’n mobiele nummer wilde bellen. Later kwamen daar ook “Location Based Services” bij waarbij je kon vragen of er een goed Italiaans restaurant in de buurt was. Het initiatief van Apple werd snel gekopieerd door Google (Google Now, 2012) en Microsoft (Coratana, 2013).

En hoewel de spraakherkenning bijna vlekkeloos werkt, werd snel duidelijk dat het succes van dit soort Avatars afhang van de aanwezigheid van “context informatie”. Ook al herkent de app perfect de ingesproken zin “wat is de dichtstbijzijnde Volvo-garage”, zolang de app niet weet wat een Volvo-garage is en als ie het wel weet, waar die garage dan is, heb je er weinig aan. Meestal volstaat SIRI met het vertalen in tekst van de ingesproken vraag om die vraag dan op internet te zetten. Je krijgt dan weer een lijst met Volvo-garages terug.

Google deed het al snel beter. Niet omdat de spraakherkenning beter was, maar omdat Google veel meer informatie had (heeft) en dus veel beter een juist antwoord kan componeren. Apple heeft op dit vlak duidelijk haar aanvankelijke voorsprong verspeeld.

Praatpalen

praatpaalDe grote doorbraak kwam in 2014 met de praatpaal van Amazon: Alexa. De goede spraakherkening, de open structuur (veel API’s beschikbaar) en de makkelijke bediening werd Alexa snel zeer populair en dus gekopieerd door Google (Google Home. 2016).

Met beide praatpalen kun je je huis automatiseren (lichten aan/uit doen, de voordeur openen/op slot doen, je favoriete speellijst afspelen en nog veel meer. Het is dan ook te verwachtten dat dit soort praatpalen de rol van chatbots voor een deel gaan overnemen. I.p.v. je energieleverancier te bellen met een vraag over je voorschotbedrag, stel je die vraag straks aan Alexa/Google Home/Coratana/SIRI (zie hiernaast).

Als die praatpaal dan jouw informatie heeft, kan die contact leggen met jouw energieleverancier om te achterhalen wat jouw voorschotbedrag is.

Maar ook hier geldt het eerder genoemde bezwaar: de content-eigenaar is hier niet volledig de baas over de dialoog. Opnieuw zijn het de grote Amerikaanse Techgiganten die “eigenaar” zijn over “jouw” vraag-antwoord applicatie.

Gesproken Chatbots

Naarmate de spraakherkenning beter wordt, wordt de vraag om volledig gesproken chatbots op de eigen website steeds groter. Je zou denken dat, als je eenmaal een tekstuele chatbot hebt, het eenvoudig moet zijn om hem voor spraak geschikt te maken. Het antwoord hierop is ja en nee. De structuur van de dialoog kan eenvoudig hergebruikt worden en de tekstuele invoer vervangen door de resultaten van de spraakherkenner. Het antwoord geef je dan via Tekst-to-Speech en klaar is kees. Maar….. zo eenvoudig is het niet.

Ten eerste is het niet zeker dat het soort vragen dat je via spraak stelt gelijk is aan de vragen die je via tekst stelt. In 2010 hebben we dat bij Telecats eens uitgezocht voor FAQ’s. Toen bleek dat men andere soort vragen stelde via de web-interface (tekst) dan via de telefoon (spraak). Als je andere soort vragen krijgt, moet het systeem dus opnieuw worden getraind.

Ten tweede is het zo dat bij tekst-invoer je typo’s kunt maken, terwijl je bij spraak-invoer juist verkeerde woorden herkent (maar wel goed geschreven).

Website van de Spraakherkenner van de Universiteit Twente.
Een mooie mogelijkheid om eens zelf uit te testen hoe goed spraakherkenning voor jouw stem werkt.

Ten derde is het zo dat bij content-specifieke dialogen je dikwijls allemaal eigennamen en/of woorden in een andere taal dan Nederlands hebt. Stel je wilt bij dat leuke restaurant in de stad een aantal dingen om te eten bestellen. De algemene spraakherkenning gaat goed, maar de woorden “Assiette” “Clarenteries” of “Veau” worden gewoon niet herkend omdat a) ze anders worden uitgsproken dan dat de Nederlandse klankregels voorspellen, en b) de meeste Nederlanders ook niet weten hoe uitgesproken moeten worden en dus maar wat doen.

fransMenubord in het Frans van een Nederlandse Bistro.
Hoe leest een gemiddelde Nederlander dit voor?

 

De spraakherkenner geeft dan (intern, niet zichtbaar op het scherm) een <unk> (=unknown word). En nu zijn dit nog geeneens de lastigste voorbeelden?

Tenslotte is er de feedback. Bij veel succesvolle gesproken chatbots zie je wat je inspreekt direct op het scherm. Is de herkening verkeerd of heb je iets verkeerd ingesproken, dan zie je dat direct op het scherm (denk aan de gesproken invoer bij TomTom). Als het dan verkeerd gaat, dan weet je direct dat dat komt door of de herkenner of door jou. Je kunt de invoer dan makkelijk overrulen door het opnieuw in te spreken. Als je geen visuele feedback hebt (aan de telefoon) dan zul je er vanuit gaan dat bij verkeerde antwoorden het systeem gewoon niet werkt. Maar dat weet je pas als het verkeerd gaat.

Door deze vier “bezwaren” is het maken van een gesproken chat een stuk lastiger dan men dikwijls denkt en een eenvoudige copy-paste is helaas niet de aangewezen weg.

Toekomst

Is het gebruik van gesproken chatbots uitgesloten? Nee, dat niet maar we hebben hierboven (hopelijk) duidelijk gemaakt dat er best wel wat bij komt kijken en je dus niet direct een bestaande tekstuele chatbot kunt overzetten naar een gesproken versie. Met het (nog steeds) beter worden van de spraakherkenning en goede gesproken feedback is het zeker mogelijk om goede, gebruiksvriendelijke gesproken chatbots te maken zoals het overweldigende succes van Amazon’s Alexa laat zien. Het is alleen niet zo dat een werkende tekstuele chatbot makkelijk overgezet kan worden in een gesproken variant.

Arjan van Hessen

Een Kerstgedachte (sort-of)

alexaHet is bijna weer Kerstmis: een periode voor bezinning, gezellig met z’n allen voor de openhaard met warme wijn en veel zoetigheid. En als het goed is, is iedereen aardig tegen elkaar (dat is tenminste de verwachting). Maar hoe praten wij met Kerstmis met apparaten? En meer algemeen: hoe gaan we met Voice User Interfaces (VUI) om? Zien we deze steeds slimmere en persoonlijker apparaten steeds meer als persoonlijkheden en benaderen we ze dan ook zo, of blijven het in onze ogen gewoon dingen van metaal en kunststof en praten we ertegen zoals het ons uitkomt?

De populariteit van spraakgestuurde diensten is, vooral dankzij Amazon’s Alexa, het afgelopen jaar enorm gestegen en zal nu zowel Amazon als Google hebben aangekondigd vanaf het voorjaar van 2018 ook Nederlands te gaan ondersteunen alleen maar toenemen.

mediumIn een interessant artikel op Medium gaat Cheryl Platz uitgebreid in op de manier waarop we met onze VUI’s zouden moeten, kunnen of willen “communiceren”.

Het artikel is uiteraard vanuit Amerikaans perspectief geschreven wat inhoudt dat de veronderstelde beleefdheidsnormen een stuk hoger liggen dan wij in Nederland gewend zijn. Ze schrijft dat in haar tijd bij Amazon ze ongeveer eens per maand een mail van verontruste ouders kregen met als strekking: "Mijn kinderen zijn onbeleefd tegen Alexa. Wij vinden dat Alexa alleen moet reageren als de kinderen er “a.u.b.” bij zeggen" (bv. “Alexa, turn on the lights please”)!
De ouders, zo bleek uit de verschillende mails, vonden het niet per se verkeerd om zo tegen een machine te praten, maar maakten zich zorgen over het aanleren van ongewenst gedrag: “Als ze dit leren dan gaan ze straks ook zo tegen mensen praten”!

Lokaliseren

Natuurlijk, dit “geplease” is heel Amerikaans en Cheryl geeft zelf al aan dat beleefdheid, hoewel als concept universeel, in de uitvoering ervan van land-tot-land sterk kan verschillen en dat implementatie van zo’n beleefdheidsmodule in het beste geval een kostbaar en glibberig concept zal zijn. Verder is beleefdheid ook sterk sociaal bepaald. Want als mijn 20-jarige neefje op bezoek is en mij op een vriendelijke toon vraagt “Oom Arjan, mag ik een biertje?”, dan hoeft er wat mij betreft zeker geen a.u.b. achter, maar als dezelfde vraag van een mij grotendeels onbekende student komt, ligt dat toch iets anders.

Maar hoe zit dat nu wanneer we met “apparaten” spreken via de steeds betere en steeds meer gepersonaliseerde VUI’s? Willen we dan dat “men” beleefd is tegen zo’n apparaat en zo ja waarom?

Een dikwijls gehoord argument is dat door gebruikers te stimuleren beleefd te zijn (tegen apparaten) ze ook eerder beleefd tegen anderen zullen zijn en dat is dan goed voor de maatschappij. Interessante gedachte maar is het ook zo?

Nederlanders versus Duitsers

Een aantal jaren geleden deden we een evaluatie van de dialogen in het Europese project ARISE over gesproken treintijden (“Ik wil morgenochtend om 10:00 uur van Utrecht naar Enschede”). Wat opviel was dat de Duitsers veel beleefder waren dan de Nederlanders. Ze begonnen een vraag dikwijls met “Bitte” en als eenmaal de juiste informatie gegeven was (“De trein vertrekt om 10:05 uur van perron 14”) dan werd het systeem daadwerkelijk beleefd bedankt “vielen Dank und auf Wiedersehen”. Nederlanders daarentegen hingen meestal direct op nadat ze gehoord hadden wat ze wilden weten.

Maar waarom zou je nu een VUI willen bedanken? Die computer maakt het echt niets uit! Blijkbaar is beleefd zijn iets dat bij Duitsers is ingebakken en bij ons (ietsje) minder aanwezig is.

Maar terug naar de vraag: willen we dat men beleefd omgaat met VUI”s en zo ja, hoe gaan we dat dan regelen?

Afdwingen van beleefdheid

cortanaWanneer we de mensheid willen opvoeden en proberen af te dwingen dat men beleefd tegen apparaten spreekt, dan kunnen we dat proberen te doen door interactief te reageren op de manier waarop de vraag gesteld wordt. Stel dat je Microsofts Cortana het volgende vraagt:
“Cortana, zet de wekker op 7 uur ’s morgens”. Dan kunnen systemen grofweg op de volgende 4 manieren reageren:

  1. Niet antwoorden. Als men de vraag niet beleefd stelt, gewoon niet doen wat er gevraagd werd, maar aangeven dat een “alstublieft” verwacht wordt.
    Cortana: “je bedoelt alsjeblieft?”
  2. Positieve feedback. Wel reageren maar aangeven dat het ook beleefd gevraagd had kunnen worden.
    Cortana: “Alsjeblieft, de wekker staat ingesteld op 7 uur in de ochtend!”
  3. Positieve stimulatie. Wel doen wat er gevraagd werd, maar ook laten weten dat het anders gevraagd had kunnen worden.
    Cortana: “De wekker staat op 7 uur. maar... wil je in het vervolg met twee woorden spreken, alsjeblieft”
  4. Spiegelen. Op dezelfde manier antwoorden als de vraag gesteld wordt.
    Cortana: “Staat op 7 uur!”

De eerste drie vormen komen op mij wat prekerig over en zeker als je hoofd er niet naar staat, kan het tot een enorme ergernis leiden als zo’n (stomme) computer niet doet wat je wilt omdat je het niet aardig vraagt. Maar… wellicht dat het bij kinderen toch zou helpen om hen in ieder geval te laten realiseren dat het ook beleefd gevraagd had kunnen worden.

Spiegelen

Persoonlijk zou ik het liefst zien dat de computer mijn gedrag spiegelt. Als ik haast heb of om wat voor redenen dan ook mijn hoofd er niet naar staat, dan zou ik het niet erg vinden om op een bruusk gestelde vraag een dito bruuske reactie te krijgen. Ik heb haast, stel een korte vraag en wil waarschijnlijk snel een korte reactie.

Als ik daarentegen vrolijk ben en de computer op een beleefde wijze een vraag stel, dan wil ik waarschijnlijk ook wel op zo’n wijze beantwoord worden: “Hee Cortana, zou je alsjeblieft de wekker op morgenochtend 7 uur willen zetten?” -> “Ha Arjan, ik heb het gedaan hoor. Om 7 uur loopt ie af. Moet ik nog iets anders doen?” -> “Hee Cortana, nee hoor en bedankt”.

googleDie laatste conversatie klinkt wellicht wat overdreven, maar omdat bijna alle huidige VUI’s pas reageren als je eerst het activeringswoord uitspreekt (Hee Cortana, Hi Alexa, OK Google), moet je dat wel doen. Alleen “Nee hoor en bedankt” leidt dan ook tot niets.

Maar die keuze tot spiegelen is persoonlijk en je kunt je voorstellen dat organisaties met een eigen stijl (bv IKEA met het hun typerende “je” en “jij”) altijd op een hun eigenwijze willen doen.

Realisering

Maar stel nu dat we dat spiegelen inderdaad zouden willen, hoe doen we dat dan?

Het is waarschijnlijk niet eenvoudig om iedereen op precies dezelfde manier als waarop de vraag gesteld wordt te antwoorden. Maar we zouden wel bijvoorbeeld drie beleefdheidscategorieën kunnen definiëren (onbeleefd, neutraal, beleefd) en iedere gestelde vraag met een van deze categorieën kunnen labelen. Wanneer het niet helemaal duidelijk is in welke categorie een vraag thuishoort, kies je voor de zekerheid de hoogste.

Het toekennen van een categorie kan gedaan worden middels woorden en tijdsduur. Wanneer bepaalde woorden wel of juist niet aanwezig zijn (hallo, goedemorgen, alsjeblieft, etc.) en wanneer de gemiddelde tijdsduur van de vraag onder of juist boven de gemiddelde duur ligt, dan zijn dat indicatoren voor de manier waarop de vraag gesteld werd.

De VUI kan dan besluiten om, indien mogelijk, op eenzelfde wijze te reageren. Wel houdt het in dat de verschillende wijzen om te reageren voorgeprogrammeerd moeten worden en dat is waarschijnlijk een hoop extra werk.

Huidige status

Hoe doen de huidige VUI’s het nu? Waarschijnlijk doen ze niets met de wijze waarop de opdracht gesteld werd zoals deze twee screenshots laten zien. In beide gevallen werden de lichten keurig uitgedaan.

siri uit lang siri uit lang

De reactie van SIRI is onafhankelijk van de manier waarop je het vraagt.

Tone of voice

Wat vooralsnog buiten beschouwing blijft is de “tone-of-voice”: de vocale realisatie van de gestelde vraag. Wij mensen kunnen hier makkelijk mee spelen en daardoor ook een korte vraag toch op een aardige manier stellen. Denk aan “Hee, heb je de garage gebeld?” dat je op verschillende manieren kunt uitspreken. Maar een goede analyse van deze tone-of-voice is niet eenvoudig en bovendien spelen hier de verschillende manieren waarop dit in de verschillende landen en sociale groepen gedaan wordt een grote rol. Voorlopig maar afblijven dus. Maar zo’n simpele, spiegelende VUI lijkt me wel wat.

Conclusie

Het zeer lezenswaardige artikel van Cheryl Platz is duidelijk vanuit een Amerikaanse context geschreven. In de Verenigde Staten is men waarschijnlijk meer dan bij ons in Nederland gericht op beleefdheid bij het voeren van een conversatie en dus is het te verwachten dat ouders zich zorgen maken over de in hun ogen onbeleefde manier waarop kinderen tegen VUI’s zoals Alexa of Siri kunnen spreken. In Nederland kijken we waarschijnlijk iets losser tegen deze veronderstelde degeneratie van de omangsvormen aan, maar het is de vraag of ouders echt zitten te wachten op tegen Siri vloekende pubers. Zeker met Kerstmis iets om bij stil te staan.

siri pjdAls je “verkeerde” taal gebruikt dan herkent SIRI dat uitstekend, maar ze kan er niets mee zoals uit haar reactie blijkt.

 

IMG 0113NOTaS-deelnemers aan tafel bij de directeur van DANS Peter Doorn (rechts).

Op 15 december 2017 was NOTaS op bezoek bij DANS. Heel NOTaS? Nee, een kleine delegatie van drie personen hield moedig stand tegen andere verleidingen en meldde zich om 10 uur op de Anna van Saksenlaan. De ontvangst was allerhartelijkst en ons klein getal stond een plezierige en inhoudelijk boeiende bijeenkomst bepaald niet in de weg.

Welkom

Directeur Peter Doorn van DANS beet het spits af met een inleiding over wat DANS doet en dat is bepaald indrukwekkend. De kern wordt gevormd door:

  1. het EASY-systeem (een self-deposit-systeem met Dublin Core metadata),
  2. DATAVerse (voor gevanceerde opslag en toegankelijkheid van data),
  3. NARCIS (met inmiddels 1,5 M publicatiegegevens en metadata van 165 K datasets).

Nieuwe samenwerking speelt zich af met Elsevier dat zijn data in Mendelay beschikbaar stelt. Daarnaast wordt ook software opgeslagen in een samenwerkingsverband met Inria, en wordt er met de Brill het Research Data Journal  for the Humanities and Social Sciences uitgegeven. Ook wordt er nu ingezet op de European Open Science Cloud (EOSC) waar publicaties, data, software, onderzoek en innovatie samenkomen.
Peter sloot zijn presentatie af met een kort exposé over de gevolgen van de nieuwe Europese wetgeving op het gebied van bescherming van persoonsgegevens (AVG ofwel GDPR). DANS is bezig met een beslisboom en bijbehorende vragenlijst waarmee een onderzoeker de juiste data-tag aan zijn/haar data kan hangen.

IMG 0108Vyacheslav Tykhonov legt uit hoe Linked Open Data bij DANS gebruikt wordt.

LOD

Hierna volgde een presentatie van Reinier van de Valk en Vyacheslav Tykhonov over Linked Open Data. Reinier vertelde ons over de principes erachter waarbij termen als URI’s, RDF, triplestores, GraphQLen SPARQL ons om de oren vlogen. Na deze mooie inleiding liet Vyacheslav ons zien hoe DANS met Linked Open Data experimenteert op het gebied van metadata-verrijking.
De metadata van EASY en NARCIS worden naar RDF triples geconverteerd waarbij Timbuctoo (ontwikkeld binnen CLARIAH) een centrale rol speelt.
De gemaakte triples moeten echter voor een deel nog wel door de betrokken onderzoeker gecheckt en gecorrigeerd worden en dat is nog best een klus. Prachtige visualisaties van het huidige LOD netwerk zijn overigens te zien op http://lod-cloud.net.
Hoover maar eens over de knopenwolk, zoom in en verbaas je.

Oral History

Als laatste nam Ilona von Stein ons mee naar de AV-collecties voor Oral History. Bij DANS staan er 2734 datasets in 68 collecties, samen 5% van alle datasets bij DANS. Deze collecties zijn ook interessant voor gebruikers buiten de wetenschap, zoals archieven (m.b.v. het OAI-PMH-protocol) en Veteranen-organisaties. Ilona liet ons zien hoe zorgvuldig deze data aan het DANS-repertoire worden toegevoegd omdat het om persoonsgevoelig materiaal gaat. Toegang tot de data geschiedt door verspreiding van de metadata aan 17 grote repositories en de toegang tot de onderliggende AV-data (voor zover toegestaan) via streaming met Springfield WebTV. Om de toegankelijkheid te vergroten heeft DANS met externe partners een systeem opgezet om de beschikbare video-opnames via automatische oplijning en transcriptie te ondertitelen. DANS is met de partners van http://oralhistory.eu op zoek naar subsidiëring van verdere projecten.

DANS en CLARIN

Na en deels ook tijdens deze presentaties vonden geanimeerde discussies plaats over de relatie tussen DANS en CLARIN datacenters, de toename van datasets bij DANS en het aantal open access datasets, hoe er in verschillende disciplines tegen open access wordt aangekeken, hoe bedrijven gebruik kunnen maken van deze dataverzamelingen, wat er nodig is om de data geschikt te maken voor taal- en spraak­technologische toepassingen, enzovoorts.

Daarna was er een voortreffelijke lunch waarbij de discussies in klein comité gewoon doorgingen tot we om een uur of een echt moesten stoppen.

goetheHet was een mooie ochtend. J.W. Goethe heeft eens gezegd:
Wie fruchtbar ist der kleinste Kreis, wenn man ihn wohl zu pflegen weiβ”. Welnu, bij DANS weten ze hoe dat moet.

 

 

Henk van den Heuvel & Oele Koornwinder

NOTaS in Leiden

Vrijdag de 13de: je zou denken dat er wellicht een andere datum gekozen had kunnen worden voor de deelnemersbijeenkomst in Leiden bij het Instituut voor de Nederlandse Taal (INT). Maar…..het bleek allemaal mee te vallen. Enige “ongeluk” bleek de afwezigheid door ziekte van een van de beoogde sprekers: Dirk De Hertog van KU Leuven, Edulab.

Ondanks het labyrintische gebouw bleek iedereen toch de juiste zaal te kunnen vinden alwaar NOTaS-voorzitter Staffan om 10:15 de bijeenkomst opende.

INT

frieda

Daarna hield de directeur van het INT Frieda Steurs een indrukwekkend verhaal over alle data die het INT heeft en beschikbaar stelt. Dat het INT veel heeft was wel bekend maar toch werd ik aangenaam verrast. Niet alleen bleek dat heel veel gewoon online beschikbaar is, maar ook dat het INT ernaar streeft om zoveel mogelijk ook via API’s toegankelijk te maken. Het INT is tegenwoordig ook een CLARIN-B-center hetgeen inhoudt dat veel materiaal op een min-of-meer gestandaardiseerde wijze beschikbaar is voor onderzoekers en andere geïnteresseerden.

Dat houdt in dat binnen afzienbare tijd we bv. woordenlijsten, werkwoordsvormen en andere zaken gewoon via onze eigen software kunnen benaderen.

ANWEen mooi voorbeeld is het ANW: het grootste woordenboek ter wereld. Nu kun je daar een woord per keer opzoeken, maar straks kun je vanuit je eigen software ieder woord direct opzoeken. Ook woordenlijst.org mag genoemd worden als de plaats waar de correcte spelling van het Nederlands wordt aangeboden en waarvan het Groene Boekje een uittreksel bevat. En er was nog veel meer. De PowerPoint van Frieda’s verhaal kan hier bekeken worden.

CLARIN/CLARIAH

jan notas

Daarna was Jan Odijk, directeur CLARIAH-NL, aan de beurt om een overzicht te geven van al het materiaal dat via de verschillende CLARIN-centers in binnen en buitenland beschikbaar is. Ook hier weer een enorme hoeveelheid data en tools die niet alleen voor onderzoekers, maar ook voor TST-bedrijven beschikbaar zijn. Met name de NER-tool die Jan liet zien, maakte mij nieuwsgierig: zou het lukken om die vanuit onze (Telecats) software rechtstreeks aan te spreken?
De presentatie van Jan Odijk, inclusief allerlei links, staat hier.

Koffie

Na de koffie was eigenlijk de beurt aan Dirk De Hertog, maar die was er dus niet. Frieda nam het op zich om zijn verhaal te vertellen: powerpoint-karaoke :-). Een mooi overzicht van de mogelijkheden in Vlaanderen (en vooral in en rondom Kortrijk en Leuven) voor startups om iets te doen met Taal- en Spraaktechnologie. Veel van de aanwezigen waren hier zo enthousiast over dat besloten werd te onderzoeken of we een volgende bijeenkomst misschien daar in Leuven zouden kunnen houden. De door Frieda gegeven presentatie van Dirk staat hier.
Wordt vervolgd.

Discussie

Het laatste deel van de bijeenkomst was bedoeld voor discussie over het aanbod van data en tools. De openingszet kwam van Inge de Mönnink van Dedicon. Zij merkte het volgende op:

  • Data is niet of lastig te vinden, niet te bereiken, dikwijls niet goed genoeg voor de toepassing (slechts bruikbaar als startpunt) of domweg te duur om mee aan de slag te gaan als bedrijf.
  • Voor de tools geldt hetzelfde, maar die zijn bovendien onvoldoende gestandaardiseerd en gedocumenteerd voor gebruik door derden. Die derden zijn niet alleen bedrijven, maar ook andere onderzoekers.

Dit is doodzonde, gezien de rijke variatie aan materialen en tools die beschikbaar zijn. Dus áls het een doel is van de instellingen en projecten zoals het INT, CLARIAH en CLARIN-EU om materialen en tools ruim beschikbaar te stellen, expliciet ook aan bedrijven, dan moet komende jaren vooral aandacht zijn voor het verbeteren van deze genoemde punten.

Veel van de aanwezigen hadden een gelijksoortige ervaring (o.a. Telecats met SPRAAK, de KU Leuven spraakherkenner). Anderen betoogden dat het ook niet de taak van het INT/CLARIAH is om “kant-en-klare” software aan te bieden. Het zijn tenslotte geen softwareontwikkelaars!

Maar….. er was toch wel de wens van veel aanwezigen dat de software en data die beschikbaar zijn, door anderen gebruikt kunnen/gaan worden. Voor de bedrijven is het gaaf om de geavanceerde spullen te gebruiken, en voor de “leveranciers” is het goed als zij hun financiers kunnen laten zien dat het gebruikt wordt. Om een en ander te stimuleren zal er onder leiding van Catia Cucchiarini met een ter plekke geformeerde werkgroep een vervolgbijeenkomst georganiseerd worden waarin experts informatie geven over het gebruik van de verschillende data en tools en waarbij de aanwezigen concreet aan de slag gaan met beschikbare resources: een hands-on workshop!
Zo kan men ervaring opdoen met de mogelijkheden en onmogelijkheden. Ter voorbereiding zal aan bedrijven en kennisinstellingen gevraagd worden welke waar zij precies behoefte aan hebben
.

Conclusie

Het onderwerp van de NOTaS bijeenkomst “Data en Tools bij het INT en CLARIAH” was wellicht niet de meest aansprekende, maar het was wel een zeer interessante bijeenkomst. Er werd veel nieuws gebracht en het onderwerp leefde bij veel van de aanwezigen zoals de verhitte discussie duidelijk maakte. Als instellingen als het INT en programma’s als CLARIAH er in zouden slagen de documentatie van hun resources/tools sterk te verbeteren en aansprekende demonstraties zouden maken om te laten zien hoe men bv de software zou kunnen gebruiken, dan zou het gebruik ervan beslist gaan stijgen.