Intersteno 2017

Aanleiding

Ergens in het voorjaar van 2017 kwam het verzoek van Henk-Jan Eras namens de Dienst Verslag en Redactie (DVR) of ik het leuk zou vinden om op InterSteno 2017 in Berlijn een praatje te houden over het Telecats-Radboud project “Spreek2Schrijf” (S2S).

In het S2S-project gaan we proberen om met Moses (een soort GoogleTranslate) een software-tool te maken waarmee gesproken tekst automatisch kan worden omgezet in geschreven tekst. Dit om het werk van de medewerkers van de DVR te verlichten. Als het lukt, kunnen ze sneller een goed geschreven verslag maken.

Parallel CorpusHet bouwen van die tool gaat op een “BigData” manier waarbij we 100 uur opname van plenaire debatten gebruiken. Enerzijds hebben we de transcripties zoals die uit de spraakherkenner komen, anderzijds de officiële transcripties van de debatten zoals die door de medewerkers van de DVR werden gemaakt (de Handelingen). In feite beschouwen we de gesproken en de geschreven versie elk als een eigen taal en wordt het dus een vertaalprobleem met twee parallelle corpora.

InterSteno

InterSteno is een hybride conferentie. Enerzijds is het een echte conferentie (IPRS) met dit jaar het thema “Kwaliteit van de Verslaglegging”, anderzijds is het een wedstrijd waarin gekeken wordt wie er het snelst allerlei soorten audio mbv steno (shorthand transcription) kan transcriberen. De InterSteno bijeenkomst was van 21 tot 28 juli maar de eigenlijke IPRS-conferentie was op zondag 23 juli van 14:00 tot 18:00 en dinsdag 25 juli van 09:00 tot 18:00.

IPRS

IPRSIPRS (Intersteno Parliamentary and other professional Reporters’ Section) heeft als doel parlementaire en andere professionele verslaggevers samen te brengen en in staat te stellen kennis te nemen van voor de doelgroep relevante ontwikkelingen op het gebied van technologie, productiviteit, gezondheid en veiligheid, kwaliteitsstandaarden, rekrutering en training.

IPRS kijkt dus naar alle nieuwe ontwikkelingen op het gebied van verslaglegging en de vragen c.q. problemen die daarbij optreden. De stenografie-mensen richten zich vooral op de geschiedenis van steno en de huidige ontwikkelingen op dit gebied. Voorzichtig opmerken dat steno wellicht zijn langste tijd heeft gehad, werd dan ook niet door iedereen op prijs gesteld (😀).

Naar Berlijn

treinHoewel vliegen net iets sneller gaat, is de trein toch een stuk comfortabeler (zeker het tweede deel met de ICE) en natuurlijk milieuvriendelijker. Je kunt er werken, er is WiFi, goede koffie of een biertje, veel beenruimte en een tafeltje voor de laptop. Bovendien kom je in het hartje van de stad aan zonder al dat veiligheidsgedoe. En met de eerste trein van zondag zou ik keurig op tijd komen voor de opening van de IPRS-conferentie om 14:00.
En inderdaad: om 13:45 wandelde ik uitgerust het hotel binnen, benieuwd naar hetgeen de conferentie nu precies behelsde.

Dag een: opening

De openingsbijeenkomst was in een lange, smalle zaal en de projectie op het scherm was van 1 meter boven de grond tot aan het plafond: lekker groot dus! Maar dit hield in dat de mensen achterin eigenlijk niets konden zien: onderste deel van het scherm verdween achter de ruggen van de mensen op de eerste rijen en veel presentaties gebruikte een veel te klein font zodat het vanaf rij 5 al niet meer leesbaar was.

Real-time ondertiteling

Wat wel erg gaaf was, was de aanwezigheid van het bedrijf Text-on-Top. De medewerkers schreven met een VeloType "life" mee met wat er gezegd werd (zelfs in meerdere talen) en projecteerden die text over het bovenste gedeelte van de presentatie. Bovendien werd de getypte tekst zin-voor-zin via GoogleTranslate vertaald en naar speciaal geprepareerde tablets gestreamd worden. In de praktijk werkte dit behoorlijk goed waardoor de aanwezigen die het Engels minder machtig waren toch bijna realtime een redelijk adequate transcriptie in hun eigen taal te lezen kregen. Nadeel was wel dat de tekst over de bovenste 10% van het scherm geprojecteerd werd waardoor er nog minder van de PPT te zien was. Wellicht handig om de presenatatoren daar de volgende keer vooraf op te wijzen?

Programma

Het zondagmiddagprogramma bestond uit 2 delen. Het eerste over manieren om de kwaliteit van het werk (het maken van de handelingen) te beoordelen, de tweede over de inzet van TST voor de verslaglegging: wat is het en heb je er iets aan?

Kwaliteitsmeting

Een interessant verhaal over kwaliteitsmeting kwam van de Nederlandse DVR: “Checking turns against the audio – a system of peer evaluation in the Dutch Parliamentary Reporting Office”. Het ging om een systeem waarmee de kwaliteit van het werk van de DVR-medewerkers gemeten kan worden. Dit wordt gedaan door elkaar (anoniem) de maat te nemen middels het door iedereen laten beoordelen van 40 random geselecteerde korte uitschrijffragmenten. Methodologisch wellicht niet helemaal zuiver (elk fragment werd maar door een iemand beoordeeld), maar goed om te zien dat ze op deze manier proberen de overall kwaliteit te verhogen.

Voice Recognition

Een van de twee organisatoren, Carlo Eugeni van de universiteit van Pisa, gaf een mooi overzicht van de verschillende technieken en terminologie die binnen "Speech Technology" gebruikt worden. Zo stelde hij dat de term Voice Recognition een overkoepelende term is die onder meer Speech Recognition, Speaker Identification, Speaker Diarization omvat. Ben het er niet helemaal mee eens: zou gewoon de term Speech Technology gebruiken. Maar het was nuttig dat hij zo’n overzicht schetste en geeft goed aan hoe de verschillende terminologien door elkaar kunnen lopen.

Voor deze en overige programmapunten, zie hier op de IPRS-website.

Het publiek

Het publiek van de IPRS-conferentie bestond vooral uit medewerkers van verschillende nationale (o.a. Engels, Nederlands, Canadees, Duits) en regionale parlementen (Wales, Siciliaans, Vlaams). Gegeven de verschillende sessies die over techniek gingen, had ik verwacht een meer tech-geïnteresseerd publiek te treffen, maar dat was niet echt zo.
Over het algemeen waren er weinig vragen na afloop en de vragen die kwamen, werden door steeds dezelfde mensen gesteld. Deels zal dat te maken hebben gehad met het niet altijd even vloeiend zijn in het Engels, maar je kreeg ook het idee dat technologie dikwijls meer als een bedreiging dan als een nuttig hulpmiddel werd gezien en dat is jammer.
In de wandelgangen een praatje aangeknoopt met een vertegenwoordiger van de Duitse Bundestag. Doen jullie al iets op dit gebied? Nou nee, we zijn daar totaal niet mee bezig, een beeld dat later door anderen werd bevestigd.

De sprekers

Tenslotte bleken ook veel sprekers niet heel handig te zijn met computers waardoor er bij bijna iedere sprekerswisseling behoorlijk wat tijd verloren ging met het installeren van de presentatie, converteren van bestanden, verbinden van de laptop met het scherm en meer. Wellicht kan dit een volgende keer voorkomen worden door a) iemand aan te wijzen die dit regelt en b) door de presentatoren een afstandsbediening te geven waardoor ze de presentatie vanaf het katheder kunnen bedienen.

Ook waren niet alle sprekers even vertrouwd met het presenteren in het openbaar en in het Engels. Volkomen begrijpelijk, maar het voorlezen van papier leidde bijna nooit tot een boeiende presentatie. En dat was jammer omdat veel onderwerpen wel zeer de moeite waard waren. Het enige voordeel van het voorlezen was dat de meeste praatjes qua tijd niet uitliepen.

Ondanks het schrappen van de workshop liep de bijeenkomst toch nog uit waardoor we pas om 18:30 onze eerste "Hefe Dunkel" op het nog zonnige Berlijnse terras konden gaan drinken. Daarna: op naar het hotel in het bosrijke Dahlem-Dorf.

Dag twee: bijslijpen

Op maandag gingen de wedstrijden captioning gewoon door maar was het voor de conferentiegangers een excursiedag. Ik heb die aan mij voorbij laten gaan omdat mijn presentatie voor dinsdag, na de ervaring op zondag, beslist moest worden aangepast. Minder techniek en moeilijke woorden, veel meer slides met grotere fonts want anders zag men er toch niks van. Maandag werd daarom vooral besteed aan het onder een grote parasol in de zon zittend, afmaken en bijvijlen van de presentatie.

De middag werd afgesloten met een biertje met Cord Pagenstecher: een collega Oral History onderzoek aan de Freie Universität Berlin (5 minuten van het hotel). Gezellig en goed om te horen welke nieuwe projecten zij nu allemaal weer aan het opzetten zijn en wellicht biedt dit kansen voor een nauwere samenwerking in de nabije toekomst. Na de biertjes met Cord een pizzeria gezocht in het nabije Dahlem-dorf. De pizzeria bleek eigenlijk een soort grote Biergarten te zijn waarin bijna iedereen onder de parasol bleef zitten toen het toch wel heel hard begon te regenen.
Bij het betalen bleek weer eens dat Duitsers toch heel wat beschaafder zijn dan wij. Ik had gevraagd of ik per kaart kon betalen en dat kon. Echter, bij afrekening bleek dat het om een lokale bankkaart ging en niet om een pinpas of creditkaart. "Nou", zei het kassameisje, "5 minuten verderop zit een betaalautomaat: daar kun je geld wisselen". In het vertrouwen dat ik dat zou doen en ook zou terugkomen om te betalen, ging ze verder met haar werk. Ik geheel verbaasd: kon dus gewoon weglopen en de boel de boel laten! Het was vooral het vanzelfsprekende vertrouwen dat mij zo verbaasde: geen enkel wantrouwen jegens de klant.

stenoDag drie: praatje

Het weer was definitief omgeslagen en al bij het ontbijt goot het. Uitchecken en in 20 min met de U-bahn naar het Mediahotel op de Kurfürstendamm. Deze laatste conferentiedag was er een mix van verhalen over kwaliteit, spraakherkenning en vooral erg veel over stenografie: hoe het in de verschillende landen ontstaan was en waarom steno toch zo belangrijk is dat het niet mag verdwijnen.
Vooral dat laatste riep een hoop vraagtekens op bij mij: steno is uitgevonden om snel en goed een woordelijk verslag te kunnen maken van een gesprek of discussie. Zo werd in het stenosysteem "Groote" rond 1899 uitgevonden door Arnold Willem Groote. Hij was de assistent van een Nederlandse generaal en had een methode nodig om de woorden van die generaal op te schrijven terwijl ze op een paard reden. Fascinerend en voor die tijd bijzonder inventief, maar daar heb je tegenwoordig toch echt een heleboel andere mogelijkheden voor.

Ook deze dag werden alle praatjes op een paar na weer van papier afgelezen. In sommige gevallen ging het zelfs om duo-presentaties waarbij de een de tekst van papier voorlas en de ander meelas en op vooraf aangegeven momenten (kruisjes in de uitgeschreven tekst) op het knopje “volgende slide” drukte.

Wat moet je opschrijven?

De enige die ook het verhaal gewoon vertelde was John Vice: Editor of Debates of the House of Lords. En dit was volgens mij dan ook direct het beste en ook wel fundamentele verhaal (hij kon gewoon z’n moerstaal spreken, maar toch).
John Vice vroeg zich af hoe je nu op papier verslag legt van "fysieke zaken" die gebeuren tijdens het debat.

farageDenk daarbij bijvoorbeeld aan een speech van Nigel Farage in het Europarlement. Terwijl Farage zijn bekende verhaal over criminelen en buitenlanders houdt, steekt een andere parlementariër die schuin achter hem zit, een bordje omhoog met “He’s lying to you”. Erg komisch, maar hoe geef je zoiets in het verslag weer?

John onderkende 5 officiële strategieën:

  1. Schrijf alleen op wat er gezegd wordt
  2. Pas de woorden een klein beetje aan
  3. Voeg een beschrijving toe (tussen haakjes)
  4. Zinspeel op deze niet-verbale gebeurtenis
  5. Rapporteer alles voor zover mogelijk

Hoe gaat dat nu?

Interessante vragen die geïllustreerd werden met een groot aantal filmpjes van parlementariërs uit verschillende landen die zoiets deden. Bijvoorbeeld een groot mes meenemen in de House of Lords en daarmee zwaaien om aandacht te vragen naar "al die wapens op straat". De Speaker merkte slechts op dat het tonen van een wapen in het Britse Parlement verboden was. In het verslag werd aan deze toch een paar minuten durende act slechts aan gerefereerd met: [interuption].

Niet alleen papier?

BurkeOok vroeg John zich af of het niet tijd werd om ook op een andere manier dan alleen schriftelijk, verslag te leggen van hetgeen zich in het parlement voordoet. Naast een groot aantal video’s van parlementsleden die allerlei zaken (vissen, zwaard, Rode Boekje van Mao en meer) gebruiken om hun betoog te onderstrepen, liet hij zien dat dit niet alleen iets is van tegenwoordig. Op 28 december 1792 waarschuwde Edmund Burk zijn mede parlementsleden voor het gevaar van de Franse revolutie door zijn zwaard demonstratief op de grond te gooien. Dit werd niet beschreven in de officiele papers maar 2 dagen later verscheen er wel een spotprent van James Gillray over in de kranten. Een mooi voorbeeld van een historische multimediale presentatie.

Deze vraag sprak mij wel aan: wij (=computertechneuten & DH-onderzoekers) vinden al lang dat niet alleen het parlement maar ook andere overheidsdiensten (politietie, FIOD, Rechtbank) multimediaal zouden moeten kunnen rapporteren. Nu mag dat nog niet, maar of “alleen papier” het nog 10 jaar volhoudt……...

Spreek-naar-Schrijf

Mijn praatje (na de lunch) werd direct gevolgd door een door Rian Schwarz-van Poppel (Hoofd van de DVR en een van de organisatoren van deze IPRS-conferentie) geleidde discussie over het voor- en nadeel van Taal- en Spraaktechnologie (spraakherkenning, slim zoeken en betere ontsluiting).
Met enig trekken en duwen kwamen er een paar leuke reacties van onder andere het Canadese, Schotse en Italiaanse parlement. Allemaal hadden ze al ervaring met vooral re-speaking maar alleen het Schotse Parlement gebruikte dat ook daadwerkelijk. Wel vonden anderen de nu gepresenteerde technologie "interessant genoeg" om er toch nog eens naar te kijken. We zullen zien 😀.

Hoewel de conferentie pas om 18:00 zou zijn aflopen, was het voor mij tijd om te gaan: om 16:50 vertrok de laatste trein naar huis.

Conclusie

Al met al was het een interessante, zeer heterogene conferentie. Duidelijk werd dat er op het gebied van parlementaire verslaglegging veel gebeurt en ook dat niet iedereen hier op zit te wachten. Deze tweedeling is op zich niet vreemd en dit is wellicht een goede reden om de volgende keer aan de hand van cijfers en use-cases te laten zien dat de gepresenteerde oplossingen ook daadwerkelijk hun nut hebben voor de praktijk van parlementaire verslaglegging. Wij (Telecats en Radboud) hopen dat het Spreek2Schrijf project zo goed loopt dat wij volgend jaar die cijfers kunnen laten zien. 
Ik kijk er stiekem al naar uit.

 

Arjan

25 juli 2017, Utrecht

28 juni 2017 was er de Better-Together conferentie in het Haagse Worldforum. De, mede door Dedicon en “the International Daisy Consortium” georganiseerde eendaagse-conferentie bracht experts en bedrijven uit de hele wereld bijeen om tijdens “Vision 2017 (the 12th International Conference by the International Society for Low Vision Research and Rehabilitation) van gedachten te wisselen over uiteenlopende zaken die allemaal betrekking hadden op de hoofdvraag: hoe informatie toegankelijk te maken voor mensen die een visuele beperking hebben.

bettertogether 1

Of, zoals Dedicon het formuleerde:

Toegankelijke informatie is de sleutel. Vooral in een samenleving die steeds meer wordt gedomineerd door een visuele cultuur. Onze ambitie is om deze informatie beschikbaar te maken door iedereen toegang te bieden tot afbeeldingen, tekst en geluid. Omdat toegang tot informatie het paspoort is tot vollediger deelname aan de maatschappij en gelijke kansen.

 

Taal- en Spraaktechnologie is bij uitstek een technologie die hier zinvol bij kan worden ingezet. Met TTS kan bv de beschrijving van een plaatje worden voorgelezen terwijl het navigeren door allerlei menu’s of het browsen op het internet juist spraakherkenning goed zou kunnen worden gedaan. Het was dan ook niet verrassend dat verschillende NOTaS-deelnemers hier van de partij waren: de Radboud Universiteit (CLST)  en de Universiteit Twente en de bedrijven Telecats, ReadSpeaker, Lexima Reinecker Vision, The Innovation Playground (met de Nao-robots die we met NOTaS gebruikt hebben) en natuurlijk Dedicon zelf.

CLST gaf een presentatie over het met spraak bedienen van de Daisy Reader (de speler die visueel gehandicapten kunnen gebruiken om op eenvoudige wijze boeken te laten voorlezen) en deed mee aan de aansluitende paneldiscussie. En ook Mike van Rijswijk die robot Nao binnen NOTaS introduceerde, was aanwezig met de opvolger van Nao, robot Pepper.
Telecats verzorgde een netwerktafel over Spraaktechnologie en Domotica: een onderwerp dat, zoals bleek uit de middag die NOTaS in 2015 in het MuZIEum organiseerde, zeer aanspreekt bij visueel gehandicapten. In een wereld waar apparaten steeds slimmer worden en steeds meer kunnen, verschuift de bediening richting Touch-screens. Mooi, handig, maar ja… als je niet of niet zo goed ziet……….

Uit de gehouden enquête in 2016 was naar voren gekomen dat juist de combinatie van slimmere apparaten met touch-bediening en de steeds betere spraakherkenning (Alexa, Siri, GoogleNow, Cortona) tot frustraties leidde. Als het allemaal zo goed werkt, waarom kan ik dan niet koffiezetten middels een spraakcommando?

Het antwoord hierop is eenvoudig: natuurlijk kan het technisch gesproken, maar er moet een koppeling komen tussen de “virtuele wereld (die van de spraakherkenning en apps) en de echte wereld (de wasmachines, koffiezetapparaten, deuren en gordijnen) en dat is niet iets dat de TST-gemeenschap in z’n eentje kan doen: Better Together!

Om hierover van gedachten te wisselen, had Telecats aangeboden een “netwerktafel” te bemannen waaraan mensen uit binnen- en buitenland over deze onderwerpen met elkaar konden discussiëren en nieuwe initiatieven tot samenwerking konden ontstaan.

De tafel met de titel “Hey Fridge! Voice Control: where is it going?” was zo populair, dat ie 4x volgeboekt was. Dat was dus hard werken maar maakte vooral duidelijk dat het onderwerp bij heel veel mensen en organisaties leeft.

Keynotes

De dag begon met 3 keynotes van bedrijven die zich verbonden hebben (of voelen) aan het thema: informatie voor iedereen toegankelijk maken.

Microsoft

bettertogether 2Hector Minto, Technology Evangelist Accessibility bij Microsoft hield een overtuigend verhaal over de inspanning die Microsoft doet om computers, software en diensten voor mensen die een (niet noodzakelijk visuele) beperking hebben. Zo liet hij zien hoe mensen die tijdelijk dan wel permanent een arm niet kunnen gebruiken toch hun computer kunnen gebruiken. Er zitten allerlei slimme trucjes in bv Office365 die het mogelijk maken ook met een hand een mooi verslag te maken. Hector is deels een ervaringsdeskundige doordat zijn vrouw blind is en hij, beter dan de meeste van ons, weet hoe vervelend het kan zijn om met niet geschikte software te werken.

Nu zijn er natuurlijk meer beperkingen dan visueel en Microsoft doet dan ook erg veel moeite om zoveel mogelijk mensen met een of meerdere (verschillende) beperkingen in dienst te nemen om zoveel mogelijk het gehele spectrum af te dekken. Maar soms is dat lastig zoals Hector in een korte anekdote vertelde.

De HR-afdeling was opzoek naar mensen met een Autisme-storing. Net als naar andere mensen hadden ze een aardige e-mail verstuurd met de opmerking dat ze graag een interview met hem wilden houden en of hij wellicht op die dag en tijd kon. Vlak na het versturen van de mail kwam het antwoord al:
Nee.
Dat moest voortaan dus anders aangepakt worden.

Google

bettertogether 3

Na de enthousiaste lezing van Microsoft was het tijd voor die van Google. Op het programma stond Kiran Kaja. Tot mijn verbazing kwam, samen met een begeleider, een man met een blindenstok voorzichtig het podium opgestapt: “een keynotespeaker die blind is?” Maar Kiran had dit duidelijk vaker gedaan en nadat hij eenmaal plaats genomen had achter de katheder, gaf hij een mooie keynote over hetgeen Google allemaal doet op het gebied van informatieontsluiting voor visueel beperkten. Indrukwekkend omdat hij precies wist wanneer hij welke slide toonde en ook precies wist wat er op iedere slide stond. Als “Technical Program Manger Google Search Accessibility” is hij actief betrokken bij het ontwikkelen van zoek-software voor mensen met een beperking. Geweldig om te zien dat dit allemaal kan!

Volvo

Als laatste was Volvo aan de beurt. Anders dan de eerste twee die duidelijk gingen over het thema, was dit meer een pr-verhaaltje over de geweldige dingen die Volvo allemaal doet op het gebied van zelfrijdende auto’s. Ze hebben in Gotenborg 100 testauto’s aan “gewone” mensen gegeven en verzamelen nu alles wat die mensen in en met hun auto doen. De auto’s zijn al behoorlijk zelfstandig en zolang je op de grotere wegen rijdt, kun je met gemak het rijden aan de auto overlaten en zelf je mail gaan afhandelen. Alleen bij het wegrijden en arriveren op de aankomstplek moet je dan zelf nog wat doen.

bettertogether 4

Als trouwe Volvorijder sprak mij dit wel aan (snel sparen om in 2020 ook zo’n Volvo te kopen) maar met het thema van de dag had het eigenlijk niets te maken. Het zou mooi zijn geweest als Arthur van Es meer was ingegaan op de mogelijkheden die de technologieën die nu voor smart cars worden ontwikkeld bieden voor mensen met een visuele beperking, ook buiten de context van een zelfrijdende auto. Denk aan spraakbesturing, navigatie, beeldherkenning, etc. Nu bleef het net iets te veel een PR-praatje.

De netwerktafel

bettertogether 5Bezetting van de eerste netwerktafel Na de keynotes en koffiepauze begon de eerste netwerktafel. Ik had een "gelikte PPT" voorbereid als introductie voor de discussie maar bij gebrek aan een grote monitor, heb ik dat maar overgeslagen.

8 mensen uit Denemarken, Zweden, Engeland en Nederland begonnen met een korte introductie van zichzelf en gaven aan waarom ze aan deze tafel waren gaan zitten. De helft van de aanwezigen was werkzaam bij organisaties die zich bezighouden met het beschikbaar maken van boeken en kranten voor mensen met een visuele beperking.

Wat opviel was dat Nederland met Engeland vooropliep in het gebruik van TST bij deze vorm van informatieontsluiting. De Zweedse en Deense vertegenwoordigers vertelden dat ze wel op de hoogte waren van de mogelijkheden van TST maar dat er van een concrete samenwerking met bedrijven en universiteit eigenlijk geen sprake was en dat terwijl het KTH uit Stockholm al jaren een prominente rol speelt in de TST-wereld.

De meest opvallende gast aan tafel was de Engelse Laifa. Zij is blind en vertelde de soms sceptische mede-tafelgenoten over hetgeen zij allemaal deed met TST. Ze kreeg iedere ochtend 5 headlines voorgelezen en kon dan zeggen of ze er eentje van wilde horen of vijf anderen wilde horen. Ze sprak in welke Spotify speellijst ze wilde horen en bestelde met spraak boeken die ze via de Daisyspeler kon beluisteren. Ze bestuurde de lichten en de verwarming met haar stem en nog veel meer....
“Is dat allemaal mogelijk en kan dat ook in het Nederlands/Zweeds en Deens? Ja, dat kan.

Wat kwam er nog meer uit?

bettertogether 6Bij de tweede tafel zaten Maaike en Sven: twee mensen van Bartiméus . Zij werken met meervoudige gehandicapten en zeker voor de mensen met spierproblemen is het drukken of swipen (ook als ze kunnen zien) dikwijls “een uitdaging”. Konden we daar nu niet iets voor doen? Waarschijnlijk wel en afgesproken werd om, net als voor het MuZIEum, in het najaar ook voor Bartiméus zo’n NOTaS-bijeenkomst te beleggen.

Hoogbezoek

Op deze manier ging het 4x 45 minuten door en de meeste tafelgenoten vonden het een “inspiring session”: een mooie opsteker!
Wat ook nog erg leuk was, was dat geheel onverwacht ook Hector en Kira (de twee keynote sprekers van Microsoft en Google) aanschoven. Twee vertegenwoordigers van internetgrootmachten naast je aan tafel: da’s niet verkeerd en het maakt duidelijk dat ook zij de verbinding van virtuele wereld met de echte zien als iets dat moet en kan! Hector vertelde dat voor Microsoft het ontwikkelen en toevoegen van een nieuwe taal ongeveer 150 k€ kost. Dat is inderdaad niks, maar de grootste bottleneck ligt in de beschikbaarheid van experts. Die hebben ze nu eenmaal niet in grote hoeveelheden en dus moeten ze talen prioriteren. Maar…. Hij gaat ons in contact brengen met de juiste personen van Microsoft om te zien wat er “geregeld” kan worden. Spannend!

India

bettertogether 7Shilpi Kapoor legt uit wat haar bedrijf zoal doet Bij de laatste tafel was er een dame uit India: Shilpi Kapoor. Ze is een “Accessibility Expert and Social Entrepreneur focusing on technology for inclusion”.
Een hele mond vol, maar ze houdt zich in India met dezelfde zaken bezig als veel West-Europese bezoekers. Als bedrijf voeren ze in India veel onderzoeken en testen op het gebied van toegankelijkheid uit in opdracht van vooral westerse bedrijven.

Taal

In India is de taal een duidelijk issue. Engels is daar de lingua franca maar het wordt wel met een duidelijk accent gesproken waardoor veel standaard (Engelstalige) oplossingen niet direct werken. Daarnaast hebben ze nog 22 andere officiële talen en een veelvoud aan regionale talen, dialecten en accenten.

Conclusie

bettertogether 8Een door SIRI goed herkende ingesproken opdracht om de was te doen. Hoewel vermoeiend, was het een interessante en nuttige serie bijeenkomsten die duidelijk maakten dat de behoeften van visueel beperkten op dit moment vooral ligt in het ontsluiten van informatie en het bedienen van apparaten. bettertogether 9Een door SIRI goed herkende ingesproken opdracht om een boek van een bepaalde schrijver te zoeken. Gesproken commando’s als “zet over een halfuur de wasmachine aan op 600 en voor de witte was” of “Ik wil graag een boek van Tolkien lezen” zijn zeer goed te herkennen: maar wat doe je er dan mee?

Dat is zowel nationaal als internationaal de grote vraag. Zolang bibliotheken geen gesproken interface hebben en apparaten zoals wasmachines niet op het internet zijn aangesloten, blijft het lastig om ze met spraakcommando’s aan te sturen. Dat velen, overal ter wereld, hier wel op zitten te wachten, is nu weer eens duidelijk geworden. Laten we dus hopen dat daar snel verandering in komt.

 

Arjan van Hessen

 

De “Spraakboys” van NOTaS (UTwente, Radboud Universiteit en Telecats) zijn de laatste tijd zeer actief op het gebied van spraakherkenning: niet alleen met pilots, onderzoek of demo’s maar nu met echte toepassingen. Hieronder een overzicht van de verschillende activiteiten op het gebied van ASR in en buiten Nederland.

 

Natuurlijk: spraakherkenning is er al een tijdje en wordt (bv door Telecats) al jarenlang gebruikt voor “vraag-antwoord-dialogen” in de call centre wereld. Maar met de komst van AI en het gebruik ervan voor spraakherkenning (vanaf ± 2010) is de algemene herkenning zoveel beter geworden, dat grootschalige toepassingen eenvoudig mogelijk worden.

 

KALDIOp de workshop “Low Development Cost, High Quality Speech Recognition for New Languages and Domains” op de Johns Hopkins University in 2009 besloten een groepje enthousiaste ASR-ontwikkelaars de handen in een te slaan en een “Open Source AI ASR-systeem” te ontwikkelen: KALDI. Het duurde nog even voordat dit initiatief bij “iedereen” bekend was maar sinds een aantal jaren wordt er door verschillende ontwikkelaars in verschillende landen hard gewerkt om een “KALDI-herkenner” ook voor hun taal beschikbaar te maken.

In Nederland besloten de Nederlandse Politie, het Instituut voor Beeld en Geluid en de Universiteit Twente “botje-bij-botje” te leggen en Laurens vd Werff (net teruggekeerd van een Postdoc verblijf in Reykjavik) te vragen een Nederlandse KALDI-herkenner te maken. Zo-gezegd-zo-gedaan en sinds een krap jaar is de herkenner beschikbaar.

Narratieven

Zowel binnen als buiten de onderzoekswereld worden er verschrikkelijk veel “gesprekken” opgenomen. Je moet daarbij denken aan alle redevoeringen en interrupties in het Nederlandse Parlement, raadvergaderingen in de gemeente of Provinciale Staten, colleges, verhoren door de Politie of de FIOD, RTV-uitzendingen, verhalen van “gewone” mensen over hun leven of (speciale) gebeurtenissen waar zij bij waren, preken in de kerken en eindeloos veel meer.

Niet alles is natuurlijk even relevant en moet voor de eeuwigheid bewaard worden, maar veel is wel de moeite waard om op z’n minst een tijdje te bewaren. Het nadeel van veel van dit soort “gesprekken” (ofwel narratieven) is dat ze moeilijk vindbaar en ontsluitbaar zijn.

Vaak bestaat er van een opgenomen narratief slechts een summiere hoeveelheid metadata: de titel, datum van opname/uitzending, de sprekers en, als je geluk hebt, een korte samenvatting. Maar wat er daadwerkelijk gezegd werd, is meestal niet bekend en kan alleen gekend worden door de opname af te luisteren.

Het is dan al lang een terugkerende vraag aan spraakherkenningsonderzoekers: “he, wanneer kunnen jullie dit nou eens goed herkennen?”

Nou, met enige mitsen-en-maren: dat kan.

Oral History

Een van de onderzoeksgebieden waar veel gebruik gemaakt wordt van narratieven is Oral History. Mensen worden gevraagd te vertellen over hun leven en/of speciale gebeurtenissen waar ze bij waren. Alles dat ze zeggen wordt opgenomen, volledig uitgeschreven en minutieus geanalyseerd. Daarbij gaat het er niet alleen om wat ze zeggen, maar dikwijls ook om hoe ze het zeggen. Waar aarzelen mensen, waar pauzeren ze, welke niet-afgemaakte woorden gebruiken ze etc. etc.

Transcriberen

Het zo gedetailleerd uitwerken (=verbatim transcriberen) van een interview is echter een monnikenklus: een uur opnamen kost tussen de 6 en de 8 uur uitwerktijd. En doordat er dikwijls niet veel geld beschikbaar is, wordt vaak nagelaten de opnamen volledig uit te schrijven. Hierdoor zijn de interviews weer minder goed vindbaar en kan een andere onderzoeker niet direct zien of zo’n interview wellicht ook voor hem/haar geschikt zou kunnen zijn.

Taalafhankelijk

arezzoWorkshop in Arezzo alwaar de verschillende spraakherkenners met elkaar werden vergeleken en bekeken werd hoe die herkenners voor OH-onderzoekers zinvol zouden kunnen worden ingezet. Een bijkomend probleem is de gesproken taal. Bijna alle onderzoekers beheersen naast hun eigen taal het Engels en vaak nog een derde taal maar (bijna) niemand beheerst alle talen van potentieel interessante narratieven. Het zou geweldig zijn als je (geheel automatisch) van de transcripties een ruwe vertaling (in je eigen taal of het Engels) zou kunnen krijgen om op basis daarvan te besluiten of een echte vertaling de moeite waard zou zijn.

Omdat zowel de automatische spraakherkenning als het automatisch vertalen door de inzet van kunstmatige intelligentie de laatste jaren zo’n enorme performance boost hebben gekregen, werd er in mei 2017 in Arezzo een Oral History and Technology workshop gehouden om de (on)mogelijkheden van de technologie en de eisen en wensen van gebruikers (Oral Historians) in kaart te brengen en op elkaar af te stemmen. Het achterliggende doel van de workshop was om tot een plan-van-aanpak te komen voor een web-portal waarmee onderzoekers hun audiovisuele data snel, goedkoop en makkelijk zouden kunnen transcriberen en (eventueel) vertalen.

Een uitgebreid verslag (door Stef Scagliola) van deze succesvolle workshop is te vinden op de website van CLARIAH.

Terug naar het Nederlands

RUUTWebportal van het CLST voor de Nederlandse spraakherkenning (Algemeen en OH)Om in Arezzo de stand van zaken in Nederland te laten zien, was er door het CLST in de weken voorafgaand aan de workshop, hard gewerkt aan de Nederlandse Portal. Dit resulteerde in een eenvoudige doch bruikbare portal waarmee (geregistreerde) onderzoekers hun audiovisuele opnamen kunnen laten transcriberen.

Gaat dit foutloos? Nee! Maar, mits de sprekers duidelijk en niet door elkaar spreken, er geen of weinig achtergrondlawaai is en de woorden “gewoon” Nederlands zijn (niet veel jargon, eigennamen of afkortingen) werkt het wel heel goed.

Taalmodel

Een van de zaken die voor verbetering vatbaar zijn, is het zgn Taalmodel: een statistisch model dat de woorden bevat die herkend moeten worden en dat de kans berekend op woord-C, gegeven de woorden A en B. Om de herkenning zo goed mogelijk te krijgen, moet zo’n model een afspiegeling zijn van de spraak zoals gesproken binnen een bepaalde context. Hoe beter deze afspiegeling is, hoe meer de woorden en zinsconstructies lijken op hetgeen er gezegd zal worden, hoe beter de herkenning.

OH-taalmodel

Een taalmodel voor interviews met mensen over hun belevenissen tijdens WOII moet bv. woorden als concentratiekamp, Führer, Nazi’s en hongerwinter bevatten, terwijl dat voor een taalmodel om interviews over de staat van het Nederlandse onderwijs te transcriberen, minder nodig is: daar zijn juist andere woorden en afkortingen relevant.
Voor de workshop in Arezzo werd door het CLST en de UTwente met materiaal van het Getuigenverhalenproject (NIOD) een Nederlands OH-model gemaakt mbv grote hoeveelheden teksten over de Tweede Wereldoorlog. Dit taalmodel zorgde direct al voor een flink betere herkenning van met name "oude woorden".

Een goed taalmodel is, naast een goed akoestisch model, beslissend voor de mate waarin spraak herkend kan worden. En voor de hier beschreven Nederlandse KALDI-herkenner ook door niet-ASR-specialisten succesvol gebruikt kan worden, moet er de mogelijkheid geschapen worden om zelf (wellicht met enige steun) een taalmodel te kunnen maken.

Toepassingen

Op dit moment worden de Nederlandse spraakherkenners door verschillende partijen (allemaal NOTaS-deelnemers) gebruikt om te laten zien dat de lang gekoesterde droom van “Goede Spraakherkenning” realiteit wordt.

Hieronder een aantal voorbeelden van verschillende soorten narratieven waarbij ASR werd gebruikt om de transcripties met tijdinformatie (van ieder herkend woord is bekend wanneer het uitgesproken werd) te maken.

NOTaS-MuZIEum video

videoNaar aanleiding van de feestelijke lancering van “Taal- en Spraaktechnologie voor mensen met een visuele handicap” in het MuZIEum in Nijmegen, werd een interview gehouden met MuZIEum-directeur Heleen Vermeulen en NOTaS-voorzitter Staffan Meij. De ondertitels zijn geheel automatisch gegenereerd en niet door mensen gecorrigeerd.

Nachtmispreek

audioOmdat met name ouderen nogal eens moeite hebben me het volgen van de preek tijdens de mis, werd een test gedaan om te zien of spraakherkenning ook zou werken in een galmende omgeving (de kerk) waarbij er veel langzamer dan gebruikelijk wordt gesproken. Hier de preek van Vicaris Woolderink tijdens de kerstnachtmis van 2016.

Spraaktechnologie en Oral History

videoInterview met Henk van den Heuvel tijdens de Arezzo-workshop over zijn beweegredenen om juist als spraaktechnoloog met Oral Historians samen te werken. De enige correctie in de verder automatisch gegenereerde transcriptie is het vervangen van “spraaktechnologie” (werd wel herkend) door “spraaktechnoloog” (werd niet herkend want stond niet in het taalmodel). Het interview met de Nederlandse Henk, de Italiaanse Silvia en de Engelse Louise, werd eerst herkend door de resp. Nederlandse, Italiaanse en Engelse spraakherkenner en vervolgens mbv Google Translate omgezet in de andere twee talen. De vertaling is dus gebaseerd op ongecorrigeerde herkenning!

Wie remt de robot?

audioEen interessant interview in de Nieuwsshow met de Tilburgse hoogleraar Pieter Spronck (Computer Science) nav zijn Oratie over de “Veiligheidsmaatregelen Kunstmatige intelligentie”. Het interview (de geïnterviewde en 2 interviewers) werd door de herkenner gehaald en ongecorrigeerd op de site geplaatst. De presentatie is in de zgn “Karaoke stijl” waarbij de gehele tekst wordt getoond en het uitgesproken woord wordt benadrukt (onderstreept en geel).

Debat Gemist

videoSpraakherkenning wordt ook ingezet voor het oplijnen van audio en tekst. De plenaire debatten van de Tweede Kamer worden op deze manier automatisch ondertiteld. De griffie van de Tweede Kamer levert de officiële teksten aan (de door de griffie uitgeschreven handelingen), de spraakherkenner berekent van ieder woord wanneer het werd uitgesproken en een ondertitelingsalgoritme maakt vervolgens de ondertitels. De geschreven tekst is “grammaticaal correct Nederlands” en komt daarom niet altijd overeen met de daadwerkelijk gesproken tekst.

Conclusie

KALDIMet de komst van AI in het algemeen en de KALDI-toolkit in het bijzonder, zijn er grote stappen gemaakt op het gebied van Automatische Spraakherkenning. ASR werkt ook al geldt dat nog niet voor alle situaties en sprekers. Kinderen en sprekers met een zwaar accent zijn nog steeds moeilijk te herkennen en ook gesprekken waarin mensen door elkaar spreken of waar een sterk afwijkend taalgebruik wordt gebezigd, worden duidelijk suboptimaal herkend.

Deze problemen kunnen deels getackeld worden door betere akoestische modellen, deels door betere taalmodellen die bij voorkeur “on-the-fly” door eindgebruikers kunnen worden aangepast.

Maar dat ASR niet meer weg te denken is uit onze samenleving blijkt wel uit de enorme hoeveelheid toepassingen van ASR in onze moderne wereld. Omdat 85% van de mensen op Facebook de video’s zonder geluid bekijkt, heeft Facebook besloten gewoon alle video’s automatisch te ondertitelen (anders zappen de mensen weg) en ook Google biedt al jarenlang de mogelijkheid om je eigen video’s automatisch te ondertitelen, te corrigeren en opnieuw te uploaden.

Gecombineerd met de steeds betere automatische vertalingen wordt het steeds makkelijker om het enorme potentieel aan AV-content op het net, voor iedereen te ontsluiten.

Op de vooravond van kerstmis 2016 een leuk stuk in de krant over het samenleven met een persoonlijke (digitale) assistente. Hoe is het om al meer dan een jaar een "doosje" op tafel te hebben dat meeluistert (alles wat je zegt gaat rechtstreeks naar Amerika) en desgewenst interacteert met het gesprek?

Geen geduld

Als een ander iets niet verstaat, heb je er meestal geen moeite mee om het nog eens, nog eens (en wellicht nog eens op een andere manier) te herhalen. Zeker als je weet dat de ander uit een ander taalgebied komt, vind je er niets vreemds aan als hij/zij jou niet direct begrijpt. Maar.... met een computer/robot is dat beslist anders. Word je niet direct begrepen, dan is het al snel "hij doet het niet"!
Uit een Amerikaans onderzoek naar acceptatie van kunstmatige intelligentie blijkt dat een verkeerd advies van een computer snel leidt tot gebrek aan vertrouwen in de software. Dus ook als de herkenning ok is ("Alexa, doe het licht uit") maar om de een-of-andere reden de lampen niet uitgaan, dan is het al gauw: "die spraakherkenner doet het niet!"

 

nrc filmpjeGesprek Marc Hijink en Patrick van Hoof over digitale assistenten in huis

Compaan in huis

Nu wordt de spraakherkenning (snel) veel beter en zul je straks sneller/beter herkend worden. Een en ander leidt er toe dat we steeds vaker een "spraakherkenner in een doosje" als compaan in huis halen. Het begon met Alexa van Amazon en nu is er ook de Google Home, Apple's SIRI, Microsofts Cortana, Facebooks M en Samsungs Viv.

NRC Handelsblad techredacteur Marc Hijink schreef een erg leuk stuk over het samenleven met een digitale assistent: "Hoe intiem kun je werkelijk samenleven met een digitale huisgenoot?"

Alexa trok anderhalf jaar geleden bij de familie Hijink in en kreeg een plekje in de keuken. Vorige maand kwam daar een vriendje bij: Google Home. Ook een smart speaker maar dan eentje met gekleurde lampjes, die gaan knipperen zodra je ‘OK Google’ zegt. Het heeft wel iets weg van een hondje dat kwispelt zodra je z’n naam roept.

In dit artikel en de bijbehorende 6 min durende video wordt een mooi overzicht gegeven van de huidige staat van dit soort assistenten (wat kan wel/niet) en wat er de komende jaren gaat komen (o.a. geschikt maken voor het Nederlands en de Nederlandse context).

Zeer de moeite waard voor bij de kerstboom!

 

 

Kun jij liplezen?

Wanneer we met elkaar in gesprek zijn (en elkaar kunnen zien) doen we onbewust aan liplezen, en dit helpt bij het verstaan. Maar hoe zit dit bij computerspraak? Helpt het als een spraaksynthesizer via "visemen" een animatie van een gezicht laat zien?

Op de vijfde editie van het DRONGO talenfestival hebben we bezoekers gevraagd om deel te nemen aan een onderzoekje: het geluid stond uit, en de deelnemers moesten op basis van de animatie telkens raden welk van 4 woorden er werd uitgesproken. Het idee was: wie boven kansniveau scoort kan liplezen.

Elke deelnemer kreeg eerst een item om te oefenen met de applicatie. Daarna werden 10 items gepresenteerd die meetelden voor de score. Telkens werden 4 woorden willekeurig gekozen uit een lijst van ruim 3000 woorden van 1 of 2 lettergrepen. Het toeval bepaalde ook welk van de 4 woorden er werd uitgesproken (met het geluid uit!). Als je een keuze had gemaakt, kreeg je te horen of dat goed of fout was.


Het volledige artikel met de uitslagen per dag, is te lezen op de website van Fluency.