Selecteer de taal

  • English (United Kingdom)
  •  
    • Over
    • Login
    • Agenda
  • Organisatie
    • Missie
    • Bestuur
    • Deelnemers
    • Partners
    • Deelnemers van Verdienste
    • Deelnemer worden
    • Informatiepakket
    • Enquête
    • Support letters
  • Nieuws
  • DIXIT
  • Blogs
  • Activiteiten
    • Inschrijven
    • Bijeenkomsten
    • NOTaS & TST
  • Video
  • Contact
  • Downloads
  • Foto's
Lunchbijeenkomst Nijmegen (maart 2023)

Lunchbijeenkomst Nijmegen (maart 2023)

zondag 19 mrt 2023

Op donderdag 16 maart 2023 was er weer een erg boeiende NOTaS bijeenkomst over Taaltechnologie: Big Models. De hoofdredacteur van de laatste Dixit, Suzan Verberne, hield in Nijmegen een boeiende...

Geslaagde NOTaS bijeenkomst bij het LIACS

Geslaagde NOTaS bijeenkomst bij het LIACS

dinsdag 27 aug 2019

Op vrijdagochtend 13 september was er een zeer geslaagde, Engelstalige, NOTaS-deelnemers bijeenkomst bij het prestigieuze LIACS in het Sylviusgebouw in Leiden. Het Leiden Institute of Advanced...

NOTaS in Tilburg

NOTaS in Tilburg

donderdag 7 feb 2019

Ik weet niet waar u Tilburg van kent maar vanaf 15 februari 2019 zal de stad voor NOTaS de boeken ingaan als de plek waar we een zeer succesvolle themabijeenkomst rond het thema “TST en kunstmatige...

Groot Dictee der Nederlandse Taal 2018

Groot Dictee der Nederlandse Taal 2018

zondag 16 dec 2018

Het is weer half december en dat houdt al jaren in: Het Groot Dictee der Nederlandse Taal. Tot een paar jaar geleden was dat een nationale TV-gebeurtenis in de voormalige Tweede Kamer. Maar om de...

Evaluatie van de OH-portal

Evaluatie van de OH-portal

donderdag 4 okt 2018

Tijdens de succesvolle en plezierige workshop in Arezzo (2017) werd duidelijk dat, mits goed en eenvoudig uitgevoerd, het automatisch transcriberen van interviews nuttig kan zijn om sneller een goed...

Vlaanderen – Nederland

Vlaanderen – Nederland

dinsdag 8 mei 2018

Anders dan de titel wellicht doet vermoeden, ging het hier niet om een wedstrijd tussen twee Nederlandssprekende gebieden, maar juist om een samenwerking: is het mogelijk om met vereende kracht...

Gesproken en geschreven chatbots

Gesproken en geschreven chatbots

donderdag 3 mei 2018

Al sinds de eerste jaren van het internet, bestond er de behoefte om te kunnen zoeken in de content die datzelfde internet ontsloot. Ging het in eerste instantie nog met specifieke zoektechnieken...

Beleefd zijn tegen je spraak-assistent

Beleefd zijn tegen je spraak-assistent

dinsdag 19 dec 2017

Een Kerstgedachte (sort-of) Het is bijna weer Kerstmis: een periode voor bezinning, gezellig met z’n allen voor de openhaard met warme wijn en veel zoetigheid. En als het goed is, is iedereen...

Verslag NOTaS-deelnemersbijeenkomst bij DANS

Verslag NOTaS-deelnemersbijeenkomst bij DANS

maandag 18 dec 2017

NOTaS-deelnemers aan tafel bij de directeur van DANS Peter Doorn (rechts). Op 15 december 2017 was NOTaS op bezoek bij DANS. Heel NOTaS? Nee, een kleine delegatie van drie personen hield moedig...

Verslag NOTaS-bijeenkomst bij het INT

Verslag NOTaS-bijeenkomst bij het INT

maandag 16 okt 2017

Vrijdag de 13de: je zou denken dat er wellicht een andere datum gekozen had kunnen worden voor de deelnemersbijeenkomst in Leiden bij het Instituut voor de Nederlandse Taal (INT). Maar…..het bleek...

More Articles
  • NOTaS op InterSteno 2017maandag 31 jul 2017
  • Samen beter aan tafelvrijdag 30 jun 2017
  • Spraakherkenning van Nederlandse bodemzondag 11 jun 2017
  • Samenleven met Alexa: hoe is dat?zaterdag 24 dec 2016
  • DRONGO: Liplezen bij computerspraakwoensdag 5 okt 2016
  • NOTaS op het DRONGO-festivalzondag 2 okt 2016
  • NOTaS bij het Nationaal Archiefdonderdag 22 sep 2016
  • Waarom we robots overschattenmaandag 6 jun 2016
  • Uitgevers en TST, een vreemde combinatie?vrijdag 25 mrt 2016
  • NOTaS, de Taalunie & het MuZIEumdonderdag 10 dec 2015
  • Zorgverzekeraar investeert liefst in gevorderde innovatievrijdag 9 okt 2015
  • De wet van Zipfzondag 27 sep 2015
  • DeepDeepDeep: InterSpeech2015woensdag 9 sep 2015
  • Taal- en Spraaktechnologie voor visueel gehandicapten maandag 6 apr 2015

Samen beter aan tafel

28 juni 2017 was er de Better-Together conferentie in het Haagse Worldforum. De, mede door Dedicon en “the International Daisy Consortium” georganiseerde eendaagse-conferentie bracht experts en bedrijven uit de hele wereld bijeen om tijdens “Vision 2017 (the 12th International Conference by the International Society for Low Vision Research and Rehabilitation) van gedachten te wisselen over uiteenlopende zaken die allemaal betrekking hadden op de hoofdvraag: hoe informatie toegankelijk te maken voor mensen die een visuele beperking hebben.

bettertogether 1

Of, zoals Dedicon het formuleerde:

Toegankelijke informatie is de sleutel. Vooral in een samenleving die steeds meer wordt gedomineerd door een visuele cultuur. Onze ambitie is om deze informatie beschikbaar te maken door iedereen toegang te bieden tot afbeeldingen, tekst en geluid. Omdat toegang tot informatie het paspoort is tot vollediger deelname aan de maatschappij en gelijke kansen.

 

Taal- en Spraaktechnologie is bij uitstek een technologie die hier zinvol bij kan worden ingezet. Met TTS kan bv de beschrijving van een plaatje worden voorgelezen terwijl het navigeren door allerlei menu’s of het browsen op het internet juist spraakherkenning goed zou kunnen worden gedaan. Het was dan ook niet verrassend dat verschillende NOTaS-deelnemers hier van de partij waren: de Radboud Universiteit (CLST)  en de Universiteit Twente en de bedrijven Telecats, ReadSpeaker, Lexima Reinecker Vision, The Innovation Playground (met de Nao-robots die we met NOTaS gebruikt hebben) en natuurlijk Dedicon zelf.

CLST gaf een presentatie over het met spraak bedienen van de Daisy Reader (de speler die visueel gehandicapten kunnen gebruiken om op eenvoudige wijze boeken te laten voorlezen) en deed mee aan de aansluitende paneldiscussie. En ook Mike van Rijswijk die robot Nao binnen NOTaS introduceerde, was aanwezig met de opvolger van Nao, robot Pepper.
Telecats verzorgde een netwerktafel over Spraaktechnologie en Domotica: een onderwerp dat, zoals bleek uit de middag die NOTaS in 2015 in het MuZIEum organiseerde, zeer aanspreekt bij visueel gehandicapten. In een wereld waar apparaten steeds slimmer worden en steeds meer kunnen, verschuift de bediening richting Touch-screens. Mooi, handig, maar ja… als je niet of niet zo goed ziet……….

Uit de gehouden enquête in 2016 was naar voren gekomen dat juist de combinatie van slimmere apparaten met touch-bediening en de steeds betere spraakherkenning (Alexa, Siri, GoogleNow, Cortona) tot frustraties leidde. Als het allemaal zo goed werkt, waarom kan ik dan niet koffiezetten middels een spraakcommando?

Het antwoord hierop is eenvoudig: natuurlijk kan het technisch gesproken, maar er moet een koppeling komen tussen de “virtuele wereld (die van de spraakherkenning en apps) en de echte wereld (de wasmachines, koffiezetapparaten, deuren en gordijnen) en dat is niet iets dat de TST-gemeenschap in z’n eentje kan doen: Better Together!

Om hierover van gedachten te wisselen, had Telecats aangeboden een “netwerktafel” te bemannen waaraan mensen uit binnen- en buitenland over deze onderwerpen met elkaar konden discussiëren en nieuwe initiatieven tot samenwerking konden ontstaan.

De tafel met de titel “Hey Fridge! Voice Control: where is it going?” was zo populair, dat ie 4x volgeboekt was. Dat was dus hard werken maar maakte vooral duidelijk dat het onderwerp bij heel veel mensen en organisaties leeft.

Keynotes

De dag begon met 3 keynotes van bedrijven die zich verbonden hebben (of voelen) aan het thema: informatie voor iedereen toegankelijk maken.

Microsoft

bettertogether 2Hector Minto, Technology Evangelist Accessibility bij Microsoft hield een overtuigend verhaal over de inspanning die Microsoft doet om computers, software en diensten voor mensen die een (niet noodzakelijk visuele) beperking hebben. Zo liet hij zien hoe mensen die tijdelijk dan wel permanent een arm niet kunnen gebruiken toch hun computer kunnen gebruiken. Er zitten allerlei slimme trucjes in bv Office365 die het mogelijk maken ook met een hand een mooi verslag te maken. Hector is deels een ervaringsdeskundige doordat zijn vrouw blind is en hij, beter dan de meeste van ons, weet hoe vervelend het kan zijn om met niet geschikte software te werken.

Nu zijn er natuurlijk meer beperkingen dan visueel en Microsoft doet dan ook erg veel moeite om zoveel mogelijk mensen met een of meerdere (verschillende) beperkingen in dienst te nemen om zoveel mogelijk het gehele spectrum af te dekken. Maar soms is dat lastig zoals Hector in een korte anekdote vertelde.

De HR-afdeling was opzoek naar mensen met een Autisme-storing. Net als naar andere mensen hadden ze een aardige e-mail verstuurd met de opmerking dat ze graag een interview met hem wilden houden en of hij wellicht op die dag en tijd kon. Vlak na het versturen van de mail kwam het antwoord al:
Nee.
Dat moest voortaan dus anders aangepakt worden.

Google

bettertogether 3

Na de enthousiaste lezing van Microsoft was het tijd voor die van Google. Op het programma stond Kiran Kaja. Tot mijn verbazing kwam, samen met een begeleider, een man met een blindenstok voorzichtig het podium opgestapt: “een keynotespeaker die blind is?” Maar Kiran had dit duidelijk vaker gedaan en nadat hij eenmaal plaats genomen had achter de katheder, gaf hij een mooie keynote over hetgeen Google allemaal doet op het gebied van informatieontsluiting voor visueel beperkten. Indrukwekkend omdat hij precies wist wanneer hij welke slide toonde en ook precies wist wat er op iedere slide stond. Als “Technical Program Manger Google Search Accessibility” is hij actief betrokken bij het ontwikkelen van zoek-software voor mensen met een beperking. Geweldig om te zien dat dit allemaal kan!

Volvo

Als laatste was Volvo aan de beurt. Anders dan de eerste twee die duidelijk gingen over het thema, was dit meer een pr-verhaaltje over de geweldige dingen die Volvo allemaal doet op het gebied van zelfrijdende auto’s. Ze hebben in Gotenborg 100 testauto’s aan “gewone” mensen gegeven en verzamelen nu alles wat die mensen in en met hun auto doen. De auto’s zijn al behoorlijk zelfstandig en zolang je op de grotere wegen rijdt, kun je met gemak het rijden aan de auto overlaten en zelf je mail gaan afhandelen. Alleen bij het wegrijden en arriveren op de aankomstplek moet je dan zelf nog wat doen.

bettertogether 4

Als trouwe Volvorijder sprak mij dit wel aan (snel sparen om in 2020 ook zo’n Volvo te kopen) maar met het thema van de dag had het eigenlijk niets te maken. Het zou mooi zijn geweest als Arthur van Es meer was ingegaan op de mogelijkheden die de technologieën die nu voor smart cars worden ontwikkeld bieden voor mensen met een visuele beperking, ook buiten de context van een zelfrijdende auto. Denk aan spraakbesturing, navigatie, beeldherkenning, etc. Nu bleef het net iets te veel een PR-praatje.

De netwerktafel

bettertogether 5Bezetting van de eerste netwerktafel Na de keynotes en koffiepauze begon de eerste netwerktafel. Ik had een "gelikte PPT" voorbereid als introductie voor de discussie maar bij gebrek aan een grote monitor, heb ik dat maar overgeslagen.

8 mensen uit Denemarken, Zweden, Engeland en Nederland begonnen met een korte introductie van zichzelf en gaven aan waarom ze aan deze tafel waren gaan zitten. De helft van de aanwezigen was werkzaam bij organisaties die zich bezighouden met het beschikbaar maken van boeken en kranten voor mensen met een visuele beperking.

Wat opviel was dat Nederland met Engeland vooropliep in het gebruik van TST bij deze vorm van informatieontsluiting. De Zweedse en Deense vertegenwoordigers vertelden dat ze wel op de hoogte waren van de mogelijkheden van TST maar dat er van een concrete samenwerking met bedrijven en universiteit eigenlijk geen sprake was en dat terwijl het KTH uit Stockholm al jaren een prominente rol speelt in de TST-wereld.

De meest opvallende gast aan tafel was de Engelse Laifa. Zij is blind en vertelde de soms sceptische mede-tafelgenoten over hetgeen zij allemaal deed met TST. Ze kreeg iedere ochtend 5 headlines voorgelezen en kon dan zeggen of ze er eentje van wilde horen of vijf anderen wilde horen. Ze sprak in welke Spotify speellijst ze wilde horen en bestelde met spraak boeken die ze via de Daisyspeler kon beluisteren. Ze bestuurde de lichten en de verwarming met haar stem en nog veel meer....
“Is dat allemaal mogelijk en kan dat ook in het Nederlands/Zweeds en Deens? Ja, dat kan.

Wat kwam er nog meer uit?

bettertogether 6Bij de tweede tafel zaten Maaike en Sven: twee mensen van Bartiméus . Zij werken met meervoudige gehandicapten en zeker voor de mensen met spierproblemen is het drukken of swipen (ook als ze kunnen zien) dikwijls “een uitdaging”. Konden we daar nu niet iets voor doen? Waarschijnlijk wel en afgesproken werd om, net als voor het MuZIEum, in het najaar ook voor Bartiméus zo’n NOTaS-bijeenkomst te beleggen.

Hoogbezoek

Op deze manier ging het 4x 45 minuten door en de meeste tafelgenoten vonden het een “inspiring session”: een mooie opsteker!
Wat ook nog erg leuk was, was dat geheel onverwacht ook Hector en Kira (de twee keynote sprekers van Microsoft en Google) aanschoven. Twee vertegenwoordigers van internetgrootmachten naast je aan tafel: da’s niet verkeerd en het maakt duidelijk dat ook zij de verbinding van virtuele wereld met de echte zien als iets dat moet en kan! Hector vertelde dat voor Microsoft het ontwikkelen en toevoegen van een nieuwe taal ongeveer 150 k€ kost. Dat is inderdaad niks, maar de grootste bottleneck ligt in de beschikbaarheid van experts. Die hebben ze nu eenmaal niet in grote hoeveelheden en dus moeten ze talen prioriteren. Maar…. Hij gaat ons in contact brengen met de juiste personen van Microsoft om te zien wat er “geregeld” kan worden. Spannend!

India

bettertogether 7Shilpi Kapoor legt uit wat haar bedrijf zoal doet Bij de laatste tafel was er een dame uit India: Shilpi Kapoor. Ze is een “Accessibility Expert and Social Entrepreneur focusing on technology for inclusion”.
Een hele mond vol, maar ze houdt zich in India met dezelfde zaken bezig als veel West-Europese bezoekers. Als bedrijf voeren ze in India veel onderzoeken en testen op het gebied van toegankelijkheid uit in opdracht van vooral westerse bedrijven.

Taal

In India is de taal een duidelijk issue. Engels is daar de lingua franca maar het wordt wel met een duidelijk accent gesproken waardoor veel standaard (Engelstalige) oplossingen niet direct werken. Daarnaast hebben ze nog 22 andere officiële talen en een veelvoud aan regionale talen, dialecten en accenten.

Conclusie

bettertogether 8Een door SIRI goed herkende ingesproken opdracht om de was te doen. Hoewel vermoeiend, was het een interessante en nuttige serie bijeenkomsten die duidelijk maakten dat de behoeften van visueel beperkten op dit moment vooral ligt in het ontsluiten van informatie en het bedienen van apparaten. bettertogether 9Een door SIRI goed herkende ingesproken opdracht om een boek van een bepaalde schrijver te zoeken. Gesproken commando’s als “zet over een halfuur de wasmachine aan op 600 en voor de witte was” of “Ik wil graag een boek van Tolkien lezen” zijn zeer goed te herkennen: maar wat doe je er dan mee?

Dat is zowel nationaal als internationaal de grote vraag. Zolang bibliotheken geen gesproken interface hebben en apparaten zoals wasmachines niet op het internet zijn aangesloten, blijft het lastig om ze met spraakcommando’s aan te sturen. Dat velen, overal ter wereld, hier wel op zitten te wachten, is nu weer eens duidelijk geworden. Laten we dus hopen dat daar snel verandering in komt.

 

Arjan van Hessen

 

Spraakherkenning van Nederlandse bodem

De “Spraakboys” van NOTaS (UTwente, Radboud Universiteit en Telecats) zijn de laatste tijd zeer actief op het gebied van spraakherkenning: niet alleen met pilots, onderzoek of demo’s maar nu met echte toepassingen. Hieronder een overzicht van de verschillende activiteiten op het gebied van ASR in en buiten Nederland.

 

Natuurlijk: spraakherkenning is er al een tijdje en wordt (bv door Telecats) al jarenlang gebruikt voor “vraag-antwoord-dialogen” in de call centre wereld. Maar met de komst van AI en het gebruik ervan voor spraakherkenning (vanaf ± 2010) is de algemene herkenning zoveel beter geworden, dat grootschalige toepassingen eenvoudig mogelijk worden.

 

KALDIOp de workshop “Low Development Cost, High Quality Speech Recognition for New Languages and Domains” op de Johns Hopkins University in 2009 besloten een groepje enthousiaste ASR-ontwikkelaars de handen in een te slaan en een “Open Source AI ASR-systeem” te ontwikkelen: KALDI. Het duurde nog even voordat dit initiatief bij “iedereen” bekend was maar sinds een aantal jaren wordt er door verschillende ontwikkelaars in verschillende landen hard gewerkt om een “KALDI-herkenner” ook voor hun taal beschikbaar te maken.

In Nederland besloten de Nederlandse Politie, het Instituut voor Beeld en Geluid en de Universiteit Twente “botje-bij-botje” te leggen en Laurens vd Werff (net teruggekeerd van een Postdoc verblijf in Reykjavik) te vragen een Nederlandse KALDI-herkenner te maken. Zo-gezegd-zo-gedaan en sinds een krap jaar is de herkenner beschikbaar.

Narratieven

Zowel binnen als buiten de onderzoekswereld worden er verschrikkelijk veel “gesprekken” opgenomen. Je moet daarbij denken aan alle redevoeringen en interrupties in het Nederlandse Parlement, raadvergaderingen in de gemeente of Provinciale Staten, colleges, verhoren door de Politie of de FIOD, RTV-uitzendingen, verhalen van “gewone” mensen over hun leven of (speciale) gebeurtenissen waar zij bij waren, preken in de kerken en eindeloos veel meer.

Niet alles is natuurlijk even relevant en moet voor de eeuwigheid bewaard worden, maar veel is wel de moeite waard om op z’n minst een tijdje te bewaren. Het nadeel van veel van dit soort “gesprekken” (ofwel narratieven) is dat ze moeilijk vindbaar en ontsluitbaar zijn.

Vaak bestaat er van een opgenomen narratief slechts een summiere hoeveelheid metadata: de titel, datum van opname/uitzending, de sprekers en, als je geluk hebt, een korte samenvatting. Maar wat er daadwerkelijk gezegd werd, is meestal niet bekend en kan alleen gekend worden door de opname af te luisteren.

Het is dan al lang een terugkerende vraag aan spraakherkenningsonderzoekers: “he, wanneer kunnen jullie dit nou eens goed herkennen?”

Nou, met enige mitsen-en-maren: dat kan.

Oral History

Een van de onderzoeksgebieden waar veel gebruik gemaakt wordt van narratieven is Oral History. Mensen worden gevraagd te vertellen over hun leven en/of speciale gebeurtenissen waar ze bij waren. Alles dat ze zeggen wordt opgenomen, volledig uitgeschreven en minutieus geanalyseerd. Daarbij gaat het er niet alleen om wat ze zeggen, maar dikwijls ook om hoe ze het zeggen. Waar aarzelen mensen, waar pauzeren ze, welke niet-afgemaakte woorden gebruiken ze etc. etc.

Transcriberen

Het zo gedetailleerd uitwerken (=verbatim transcriberen) van een interview is echter een monnikenklus: een uur opnamen kost tussen de 6 en de 8 uur uitwerktijd. En doordat er dikwijls niet veel geld beschikbaar is, wordt vaak nagelaten de opnamen volledig uit te schrijven. Hierdoor zijn de interviews weer minder goed vindbaar en kan een andere onderzoeker niet direct zien of zo’n interview wellicht ook voor hem/haar geschikt zou kunnen zijn.

Taalafhankelijk

arezzoWorkshop in Arezzo alwaar de verschillende spraakherkenners met elkaar werden vergeleken en bekeken werd hoe die herkenners voor OH-onderzoekers zinvol zouden kunnen worden ingezet. Een bijkomend probleem is de gesproken taal. Bijna alle onderzoekers beheersen naast hun eigen taal het Engels en vaak nog een derde taal maar (bijna) niemand beheerst alle talen van potentieel interessante narratieven. Het zou geweldig zijn als je (geheel automatisch) van de transcripties een ruwe vertaling (in je eigen taal of het Engels) zou kunnen krijgen om op basis daarvan te besluiten of een echte vertaling de moeite waard zou zijn.

Omdat zowel de automatische spraakherkenning als het automatisch vertalen door de inzet van kunstmatige intelligentie de laatste jaren zo’n enorme performance boost hebben gekregen, werd er in mei 2017 in Arezzo een Oral History and Technology workshop gehouden om de (on)mogelijkheden van de technologie en de eisen en wensen van gebruikers (Oral Historians) in kaart te brengen en op elkaar af te stemmen. Het achterliggende doel van de workshop was om tot een plan-van-aanpak te komen voor een web-portal waarmee onderzoekers hun audiovisuele data snel, goedkoop en makkelijk zouden kunnen transcriberen en (eventueel) vertalen.

Een uitgebreid verslag (door Stef Scagliola) van deze succesvolle workshop is te vinden op de website van CLARIAH.

Terug naar het Nederlands

RUUTWebportal van het CLST voor de Nederlandse spraakherkenning (Algemeen en OH)Om in Arezzo de stand van zaken in Nederland te laten zien, was er door het CLST in de weken voorafgaand aan de workshop, hard gewerkt aan de Nederlandse Portal. Dit resulteerde in een eenvoudige doch bruikbare portal waarmee (geregistreerde) onderzoekers hun audiovisuele opnamen kunnen laten transcriberen.

Gaat dit foutloos? Nee! Maar, mits de sprekers duidelijk en niet door elkaar spreken, er geen of weinig achtergrondlawaai is en de woorden “gewoon” Nederlands zijn (niet veel jargon, eigennamen of afkortingen) werkt het wel heel goed.

Taalmodel

Een van de zaken die voor verbetering vatbaar zijn, is het zgn Taalmodel: een statistisch model dat de woorden bevat die herkend moeten worden en dat de kans berekend op woord-C, gegeven de woorden A en B. Om de herkenning zo goed mogelijk te krijgen, moet zo’n model een afspiegeling zijn van de spraak zoals gesproken binnen een bepaalde context. Hoe beter deze afspiegeling is, hoe meer de woorden en zinsconstructies lijken op hetgeen er gezegd zal worden, hoe beter de herkenning.

OH-taalmodel

Een taalmodel voor interviews met mensen over hun belevenissen tijdens WOII moet bv. woorden als concentratiekamp, Führer, Nazi’s en hongerwinter bevatten, terwijl dat voor een taalmodel om interviews over de staat van het Nederlandse onderwijs te transcriberen, minder nodig is: daar zijn juist andere woorden en afkortingen relevant.
Voor de workshop in Arezzo werd door het CLST en de UTwente met materiaal van het Getuigenverhalenproject (NIOD) een Nederlands OH-model gemaakt mbv grote hoeveelheden teksten over de Tweede Wereldoorlog. Dit taalmodel zorgde direct al voor een flink betere herkenning van met name "oude woorden".

Een goed taalmodel is, naast een goed akoestisch model, beslissend voor de mate waarin spraak herkend kan worden. En voor de hier beschreven Nederlandse KALDI-herkenner ook door niet-ASR-specialisten succesvol gebruikt kan worden, moet er de mogelijkheid geschapen worden om zelf (wellicht met enige steun) een taalmodel te kunnen maken.

Toepassingen

Op dit moment worden de Nederlandse spraakherkenners door verschillende partijen (allemaal NOTaS-deelnemers) gebruikt om te laten zien dat de lang gekoesterde droom van “Goede Spraakherkenning” realiteit wordt.

Hieronder een aantal voorbeelden van verschillende soorten narratieven waarbij ASR werd gebruikt om de transcripties met tijdinformatie (van ieder herkend woord is bekend wanneer het uitgesproken werd) te maken.

+ - NOTaS-MuZIEum video Click to collapse

videoNaar aanleiding van de feestelijke lancering van “Taal- en Spraaktechnologie voor mensen met een visuele handicap” in het MuZIEum in Nijmegen, werd een interview gehouden met MuZIEum-directeur Heleen Vermeulen en NOTaS-voorzitter Staffan Meij. De ondertitels zijn geheel automatisch gegenereerd en niet door mensen gecorrigeerd.

+ - Nachtmispreek Click to collapse

audioOmdat met name ouderen nogal eens moeite hebben me het volgen van de preek tijdens de mis, werd een test gedaan om te zien of spraakherkenning ook zou werken in een galmende omgeving (de kerk) waarbij er veel langzamer dan gebruikelijk wordt gesproken. Hier de preek van Vicaris Woolderink tijdens de kerstnachtmis van 2016.

+ - Spraaktechnologie en Oral History Click to collapse

videoInterview met Henk van den Heuvel tijdens de Arezzo-workshop over zijn beweegredenen om juist als spraaktechnoloog met Oral Historians samen te werken. De enige correctie in de verder automatisch gegenereerde transcriptie is het vervangen van “spraaktechnologie” (werd wel herkend) door “spraaktechnoloog” (werd niet herkend want stond niet in het taalmodel). Het interview met de Nederlandse Henk, de Italiaanse Silvia en de Engelse Louise, werd eerst herkend door de resp. Nederlandse, Italiaanse en Engelse spraakherkenner en vervolgens mbv Google Translate omgezet in de andere twee talen. De vertaling is dus gebaseerd op ongecorrigeerde herkenning!

+ - Wie remt de robot? Click to collapse

audioEen interessant interview in de Nieuwsshow met de Tilburgse hoogleraar Pieter Spronck (Computer Science) nav zijn Oratie over de “Veiligheidsmaatregelen Kunstmatige intelligentie”. Het interview (de geïnterviewde en 2 interviewers) werd door de herkenner gehaald en ongecorrigeerd op de site geplaatst. De presentatie is in de zgn “Karaoke stijl” waarbij de gehele tekst wordt getoond en het uitgesproken woord wordt benadrukt (onderstreept en geel).

+ - Debat Gemist Click to collapse

videoSpraakherkenning wordt ook ingezet voor het oplijnen van audio en tekst. De plenaire debatten van de Tweede Kamer worden op deze manier automatisch ondertiteld. De griffie van de Tweede Kamer levert de officiële teksten aan (de door de griffie uitgeschreven handelingen), de spraakherkenner berekent van ieder woord wanneer het werd uitgesproken en een ondertitelingsalgoritme maakt vervolgens de ondertitels. De geschreven tekst is “grammaticaal correct Nederlands” en komt daarom niet altijd overeen met de daadwerkelijk gesproken tekst.

Conclusie

KALDIMet de komst van AI in het algemeen en de KALDI-toolkit in het bijzonder, zijn er grote stappen gemaakt op het gebied van Automatische Spraakherkenning. ASR werkt ook al geldt dat nog niet voor alle situaties en sprekers. Kinderen en sprekers met een zwaar accent zijn nog steeds moeilijk te herkennen en ook gesprekken waarin mensen door elkaar spreken of waar een sterk afwijkend taalgebruik wordt gebezigd, worden duidelijk suboptimaal herkend.

Deze problemen kunnen deels getackeld worden door betere akoestische modellen, deels door betere taalmodellen die bij voorkeur “on-the-fly” door eindgebruikers kunnen worden aangepast.

Maar dat ASR niet meer weg te denken is uit onze samenleving blijkt wel uit de enorme hoeveelheid toepassingen van ASR in onze moderne wereld. Omdat 85% van de mensen op Facebook de video’s zonder geluid bekijkt, heeft Facebook besloten gewoon alle video’s automatisch te ondertitelen (anders zappen de mensen weg) en ook Google biedt al jarenlang de mogelijkheid om je eigen video’s automatisch te ondertitelen, te corrigeren en opnieuw te uploaden.

Gecombineerd met de steeds betere automatische vertalingen wordt het steeds makkelijker om het enorme potentieel aan AV-content op het net, voor iedereen te ontsluiten.

Samenleven met Alexa: hoe is dat?

Op de vooravond van kerstmis 2016 een leuk stuk in de krant over het samenleven met een persoonlijke (digitale) assistente. Hoe is het om al meer dan een jaar een "doosje" op tafel te hebben dat meeluistert (alles wat je zegt gaat rechtstreeks naar Amerika) en desgewenst interacteert met het gesprek?

Geen geduld

Als een ander iets niet verstaat, heb je er meestal geen moeite mee om het nog eens, nog eens (en wellicht nog eens op een andere manier) te herhalen. Zeker als je weet dat de ander uit een ander taalgebied komt, vind je er niets vreemds aan als hij/zij jou niet direct begrijpt. Maar.... met een computer/robot is dat beslist anders. Word je niet direct begrepen, dan is het al snel "hij doet het niet"!
Uit een Amerikaans onderzoek naar acceptatie van kunstmatige intelligentie blijkt dat een verkeerd advies van een computer snel leidt tot gebrek aan vertrouwen in de software. Dus ook als de herkenning ok is ("Alexa, doe het licht uit") maar om de een-of-andere reden de lampen niet uitgaan, dan is het al gauw: "die spraakherkenner doet het niet!"

 

nrc filmpjeGesprek Marc Hijink en Patrick van Hoof over digitale assistenten in huis

Compaan in huis

Nu wordt de spraakherkenning (snel) veel beter en zul je straks sneller/beter herkend worden. Een en ander leidt er toe dat we steeds vaker een "spraakherkenner in een doosje" als compaan in huis halen. Het begon met Alexa van Amazon en nu is er ook de Google Home, Apple's SIRI, Microsofts Cortana, Facebooks M en Samsungs Viv.

NRC Handelsblad techredacteur Marc Hijink schreef een erg leuk stuk over het samenleven met een digitale assistent: "Hoe intiem kun je werkelijk samenleven met een digitale huisgenoot?"

Alexa trok anderhalf jaar geleden bij de familie Hijink in en kreeg een plekje in de keuken. Vorige maand kwam daar een vriendje bij: Google Home. Ook een smart speaker maar dan eentje met gekleurde lampjes, die gaan knipperen zodra je ‘OK Google’ zegt. Het heeft wel iets weg van een hondje dat kwispelt zodra je z’n naam roept.

In dit artikel en de bijbehorende 6 min durende video wordt een mooi overzicht gegeven van de huidige staat van dit soort assistenten (wat kan wel/niet) en wat er de komende jaren gaat komen (o.a. geschikt maken voor het Nederlands en de Nederlandse context).

Zeer de moeite waard voor bij de kerstboom!

 

 

DRONGO: Liplezen bij computerspraak

Kun jij liplezen?

Wanneer we met elkaar in gesprek zijn (en elkaar kunnen zien) doen we onbewust aan liplezen, en dit helpt bij het verstaan. Maar hoe zit dit bij computerspraak? Helpt het als een spraaksynthesizer via "visemen" een animatie van een gezicht laat zien?

Op de vijfde editie van het DRONGO talenfestival hebben we bezoekers gevraagd om deel te nemen aan een onderzoekje: het geluid stond uit, en de deelnemers moesten op basis van de animatie telkens raden welk van 4 woorden er werd uitgesproken. Het idee was: wie boven kansniveau scoort kan liplezen.

Elke deelnemer kreeg eerst een item om te oefenen met de applicatie. Daarna werden 10 items gepresenteerd die meetelden voor de score. Telkens werden 4 woorden willekeurig gekozen uit een lijst van ruim 3000 woorden van 1 of 2 lettergrepen. Het toeval bepaalde ook welk van de 4 woorden er werd uitgesproken (met het geluid uit!). Als je een keuze had gemaakt, kreeg je te horen of dat goed of fout was.


Het volledige artikel met de uitslagen per dag, is te lezen op de website van Fluency.

NOTaS op het DRONGO-festival

Op vrijdag 30 sept en zaterdag 1 okt was NOTaS met een grote eigen stand aanwezig op het DRONGO talen festival. Een druk bezochte bijeenkomst met heel veel bezoekers van allerlei pluimage.

Het verslag volgt, maar de links naar de presentaties staat alvast in de tab.

Verslag">

Verslag">Verslag

notas drongo 10

 

 

Presentaties">

Presentaties">Presentaties

Spreker Titel Omschrijving
Helmer
Strik
Beter leren spreken met de computer Als je een taal leert of een communicatieve beperking hebt, wil je graag je spraak verbeteren. Alleen is het lang niet altijd mogelijk om intensief te gaan oefenen met een leraar of therapeut. De vraag is dan: is het mogelijk om je spraak te trainen met een computer? De spreker zal antwoord geven aan de hand van demo’s en video’s van apps met spraaktechnologie voor normale en atypische spraak.
Dennis
de Vries
Beter leren schrijven met de computer Veel leerlingen hebben moeite met schrijfopdrachten. De oplossing is om ze hier meer mee te laten oefenen, maar wie kijkt de schrijfsels na? Taaltechnologie kan hier uitkomst bieden: Klinkende Taal ontwikkelt een applicatie die automatisch opstellen nakijkt en vervolgens verbeter­suggesties doet voor spelling, grammatica, woordkeuze en stijl. Dit moeten leerlingen in het basis- en voortgezet onderwijs en immigranten / NT2-ers in staat stellen om zelfstandig hun schrijf­vaardigheid te trainen. De spreker zal de huidige versie demonstreren en uitleggen hoe de computer een Nederlandse tekst analyseert en verbetert.
Arjan
van Hessen
Zoeken in AV-documenten Al een aantal jaren worden we overspoelt met te veel AV-informatie. Een mooi voorbeeld zijn de hoorcolleges zoals opgenomen door de verschillende universiteiten en via SURF voor studenten als “Web Lectures” beschikbaar gesteld. Het idee is dat het efficiënter is om een algemeen hoorcollege op te nemen en de vrijgekomen tijd te besteden aan werkcolleges.  Door het sterk stijgend aantal beschikbare colleges wordt het steeds belangrijker dat je goed kunt zoeken in online-beschikbare opnames van colleges en kunt inzoomen op bepaalde fragmenten. In de presentatie kom je te weten hoe je zo’n systeem kunt maken en hoe goed het al werkt.

  1. NOTaS bij het Nationaal Archief
  2. Waarom we robots overschatten
  3. Uitgevers en TST, een vreemde combinatie?
  4. NOTaS, de Taalunie & het MuZIEum

Pagina 3 van 5

  • 1
  • 2
  • 3
  • 4
  • 5
  • Login