Vandaag, 10-12-2015, bij het MuZIEum in Nijmegen een vergadering gehad over de mogelijkheden om (Nederlandse) Taal- en Spraaktechnologie (TST) binnen het MuZIEum in te zetten.
Er komen, zeker in de vakantieperiode, altijd zo veel mensen naar het museum, dat het onmogelijk is om direct iedereen de Donkerbeleving te laten beleven. Deze Donkerbeleving laat je ervaren wat het is om blind te zijn. Je stapt letterlijk in het leven van een blinde en wordt een uur lang door een ervaringsdeskundige rond door het dagelijks leven en ervaart dan hoe het is om helemaal niets te zien (voor een uitgebreid verslag zie hier).

In de foyerkunnen verder allerlei educatieve activiteiten gedaan wordenrondom zintuigen.  De ambitie is om hier een innovatief programma te ontwikkelen en de bezoekers kennis te laten maken met het dagelijks leven van iemand met een visuele beperking. Het muZIEum wil dit dagelijks leven, waarbij taal en spraak centraal staan, laten ervaren door de bezoekers.

Thema's

We gaan werken aan 4 thema’s: thuis, werk, buitenshuis, vrije tijd).Aan NOTaS en de Nederlandse Taalunie de schone taak het MuZIEum te helpen met de invulling ervan. Het is de bedoeling om in het voorjaar van 2016 de eerste thema’s officieel te presenteren. De komende maanden zullen besteed worden aan het schrijven van het voorstel en (mogelijke) scenario’s om een beter idee te krijgen van hetgeen wij (NOTaS-deelnemers) zouden kunnen doen. Wij gaan nadenken hoe we bestaande taal- en spraaktechnologie erin kunnen verweven en hoe we bezoekers middels extra informatie beter kunnen informeren over:

  1. wat TST nu eigenlijk is
  2. wat je er mee kunt doen.

Ook gaan we kijken welke andere partijen erbij gehaald kunnen worden. Een van de doelen van het geheel is om bezoekers te laten zien dat met hulp van moderne (taal- en spraaktech gebruikende) middelen, mensen met een visuele handicap, toch uitstekend kunnen werken. Een verslag kan worden ingesproken en met spraakherkenning worden omgezet in tekst, op internet kan gezocht worden via gesproken commando's waarna een TTS-engine de gevonden pagina voorleest. TST-enablede domotica kan gebruikt worden om de gordijnen dicht te doen en de verwarming op 200 C te zetten.
Het aantal mogelijkheden is schier oneindig maar wat is nu goed om te laten zien, hoe gaan we het maken en wat mag het kosten? De Nederlandse Taalunie wil hier wel in investeren, maar kan zeker niet het gehele bedrag bijeenbrengen. Wellicht moet Tom Poes dus een list verzinnen. In de komende maanden zullen we hier verslag uitbrengen van de vorderingen, maar iedereen die een mooi idee heeft kan zich bij ons melden.

Jarig

Bij het begin van de vergadering wachtte ons een plezierige verrassing: Taart!!
NOTaS-penningmeester Henk had twee jaar geleden Abraham ontmoet en had besloten gewoon weer overnieuw te beginnen (tweede jeugd?). Hij vierde dat met  het uitblazen van 2 kaarsjes  en het uitdelen van een heerlijk (weliswaar gekregen) appeltaart en koffie.
Namens NOTaS: van harte!!

 

Zowel op deelnemersvergaderingen als tijdens het bestuursoverleg gaat het dikwijls over TST en DE ZORG. Wij kunnen zoveel mooie dingen maar “hullie” van De Zorg willen er niets mee doen. Moeten we niet weer eens een DIXIT, Taal-in-Bedrijf, bijeenkomst of wat dan ook doen om ze te laten zien wat mogelijk is. In een recent verleden heb ik weleens met iemand van Zorg-en-Innovatie gesproken, we hebben dikwijls geprobeerd in gesprek te raken (zowel via Telecats als via de UTwente) met de zorgverleners maar altijd het zelfde verhaal: leuk, fascinerend maar…….. nu even niet voor ons.

Het vermoeden begon te rijzen dat er een fundamenteel verschil zit tussen onze en hun manier van kijken naar innovatie.

Tijdens de voorbereiding van de komende Taal-in-Bedrijf heb ik nog een poging gedaan iemand uit de zorgwereld te strikken die ons kon uitleggen hoe zorgverzekeraars tegen innovatie aankijken, hoe de financiering nu precies loopt en waar onze aanpak nu precies fout loopt. Is niet gelukt ondanks de steun van m’n zusje (doet iets in de zorg). Wel kwam zij aan met een boeiende blog van Mark van Dorresteijn over innovatie in de zorg. Zijn stelling is: “verzekeraar investeert liefst in gevorderde innovatie” Dus geen mooie vergezichten, geen dromen. “In ideeën die nog in de startfase zitten, zullen zij niet investeren” (Matthijs van der Bijl, consultant zorgvernieuwing bij VGZ).

Dat kun je als bevlogen TST-vernieuwer jammer vinden maar het is waarschijnlijk wel de realiteit. Gelukkig is er ook een mooi initiatief waar we wellicht wel iets mee kunnen: een websitevan de hogeschool Windesheim helpt om erachter te komen wat DE zorgverzekeraar nu precies wil. Het is mede een initiatief van de onderzoeksfinancier ZonMwen de zorgverzekeraars VGZen Zilveren Kruis

Hoe overtuigt u de zorgverzekeraar van uw zorgvernieuwingsidee?

Stel, u bent een ondernemer of een zorgaanbieder met een goed idee waarmee de zorg in Nederland kan worden vernieuwd en verbeterd. U bent op zoek naar financiering of bekostiging, of naar ondersteuning bij implementatie en opschaling, en u overweegt om hiervoor contact te zoeken met een zorgverzekeraar. Dan is deze website voor u!

Op de site staan allemaal voorwaarden waaraan een vernieuwend idee moet voldoen om in aanmerking te komen voor mogelijke financiering. En verder is het wellicht een goed idee om, als we weer eens iets voor de zorg willen organiseren, deze Mark uit te nodigen om nog duidelijker te maken hoe wij de zorg kunnen “binnendringen”.

De gehele blog valt hier te lezen.

Met een kleine woordenschat, spreek je al een aardig mondje mee!

Laatst kreeg ik mijn dagelijkse nieuwsbrief “De Bicker” in de mail met daarin een enthousiasmerend stuk over de “Wet van Zipf” en het "Pareto-principe" (u weet wel van die 80-20 regel) en een link naar een 21-minuten durend geweldig boeiend en humoristisch filmpje waarin het wordt uitgelegd en aannemelijk wordt gemaakt waarom het zo is.
En dan niet alleen voor het vóórkomen van woorden maar ook voor andere zaken zoals populariteit, sneeuwballen en rijkdom. Deze door George Kingsley Zipf gevonde wetmatigheid wordt iook wel de "Wet van Zipf" genoemd.

De krant lezen in een jou redelijk onbekende taal

Het zal de meeste mensen wel zijn opgevallen dat, ergens op vakantie in een land waarvan je de taal niet goed spreekt, je met enige oefening en een beetje geduld al snel de krant zo kunt lezen dat je in ieder geval begrijpt waarover men zich die dag druk maakt.

Maar komt dat nu omdat ik zo slim ben of schrijven die buitenlandse kranten voor heeeel eenvoudige mensen?
Dat laatste kan natuurlijk waar zijn (net als het eerste :-)) maar het ligt waarschijnlijk net iets anders.

Experimentje: verdeling woorden in de taal

De verdeling van de woorden in een taal (hoe vaak wordt elk woord gebruikt) volgt een soort wetmatigheid. Het meest voorkomende woord (in het het Nederlands is dat "de") komt heel veel voor.
Om te zien of het allemaal klopt, heb ik een lang artikel uit de Correspondent genomen (50 min leestijd, 2690 unieke woorden en 12775 woorden totaal). De berekening van de woordfrequenties geeft het volgende resultaat.

Als we de tabel met de meest gebruikte woorden bekijken, dan zien we dat de 5 populairste die samen al meer dan 18% van het totaal aantal woorden vormen. In de grafiek zien we dat als we de helft van de woorden willen “kennen”, we slechts 75 woorden hoeven te leren. Als we naar 80% willen gaan, dan volstaan "slechts" 642 woorden.
Dus met een beetje oefenen kent zo’n artikel bijna geen geheimen meer.

 

rangorde woord aantal % gesommeerd %
1 de 914 7,155% 7,155%
2 van 482 3,773% 10,928%
3 het 381 2,982% 13,910%
4 in 312 2,442% 16,352%
5 een 289 2,262% 18,614%
  ...      
75 had 26 0,204% 50,137%
  ...      
642 draadloos 3 0,023% 80,016%

 

Woordfrequentie van een krantenartikel uit de Correspondent. 12775 woorden waarvan 2690 uniek.

Spreken & Schrijven

Maar, hoe zit dat met de spreektaal? De wetmatigheid blijft maar de rangorde verandert een beetje. Voor gesproken taal kan er gekeken worden naar het Corpus Gesproken Nederlands (CGN) waarin zo'n 900 uur spreektaal is opgenomen en elk woord werd uitgeschreven. Voor geschreven taal is er het  PAROLE-corpus: een verzameling van zo'n 20 miljoen woorden uit boeken, kranten en tijdschriften, uit de periode 1982-1998.

CGN ja dat de en uh ik een is die van
PAROLE dat van het een en in is te dat op

 

Voor en Achternamen

Gerrit Bloothooft (UU, Meerten Instituut) heeft in een boeiend artikel laten zien dat de Wet van Zipf ook geldt voor het voorkomen van voor- en achternamen. Door het aantal en de frequentie op een dubbel-logarithmische schaal te plotten, krijg je een keurig rechte lijn: een Zipf-verdeling.

Verdeling van voor en achternamen

Conclusie

Als we de sommatie van de zipf-verdeling nemen, dan zien we direct dat je met kennis van een paar honderd veel voorkomende woorden al heel veel teksten kunt lezen. Natuurlijk zullen er in die tekst ook weinig voorkomende en wellicht belangrijke woorden staan die ervoor zorgen dat je net niet begrijpt wat er precies staat. Maar de algemene betekenis haal je meestal wel uit de context. Het verklaart in ieder geval wel waarom je, met slechts een geringe woordenschat, toch die krant of dat boek kunt lezen. En de "Wet van Zipf" geldt voor veel meer zaken, zoals in het filmpje wordt duidelijk gemaakt.

Om de twee jaar komt de grote spraaktechnologieconferentie InterSpeech naar Europa en dit jaar was Dresden in Duitsland aan de beurt. Een goede gelegenheid voor zowel traditionele academische onderzoekers als, in toenemende mate, de TST-ontwikkelaars van grote en kleinere bedrijven. Nederlandse bedrijven waaronder NOTaS-deelnemers, waren goed aanwezig: Telecats (2x), SpeechLab, NovoLanguage en ReadSpeaker.
Samen met nog 1000 anderen liepen wij gedurende 4 dagen van 9 uur ’s morgens tot 19:00 ’s avonds van Oral Session -> Poster -> Show&Tell -> KeyNote. En niet alleen overdag, want ook ’s avonds ging het netwerken, uitwisselen van ideeën en ordinair roddelen gewoon door. Met als resultaat dat ongeveer iedereen opgelucht ademhaalde toen het einde nabij was: doodvermoeiend maar bereninteressant.

Waar ging het over?

4 jaar geleden kwam de onderzoeksgroep van Microsoft in Firenze naar buiten met het gebruik van Deep Neural Networking (DNN) voor spraakherkenning.

Een diep neuraal netwerk (DNN) is een kunstmatig neuraal netwerk met meerdere verborgen lagen tussen de ingang- en uitgangslaag. Een DNN genereert modellen waarbij de extra lagen het samenstellen features van onderliggende lagen mogelijk maken. Hierdoor wordt een enorm leervermogen gecreëerd die ingezet kan worden voor het modelleren van de complexe spraakpatronen. DNN’s zijn de meest populaire vormen van de “diep leren architectuur” en wordt sinds 2010 met veel succes gebruikt voor spraakherkenning sinds 2010.

De resultaten in 2011 waren zo spectaculaire dat ongeveer de hele TST-onderzoekswereld zich vervolgens op dit fenomeen heeft geworpen: en dat is nog steeds te merken. Het leek er soms op dat ongeveer de helft van spraakherkenningspresentaties en posters op de een of andere manier over Deep-Deep-Deep Neural networking en allerlei nieuwe varianten ervan ging. En als zo’n DNN zoals bij mij, al op het randje van je kennis ligt, dan is ’n sessie van 2 uur met 6 DNN-presentaties beslist afzien. Nog erger wordt het wanneer een jonge Japanse of Chinese PhD-student het verhaal gaat vertellen. Hun Engels is voor ons (in ieder geval voor mij) soms moeilijk te volgen en dat in combinatie met de pittige wiskunde……..

Maar wel petje af voor deze onderzoekers, want sommigen leren het verhaal helemaal uit hun hoofd (wat dan wel weer lastig is als je hen na afloop iets wilt vragen). Ik moet er trouwens niet aan denken dat ik zoiets in het Chinees zou moeten doen.

Hoogtepunten

Wat waren in mijn ogen de hoogte punten van InterSpeech? De Show&Tellsessies (2 jaar geleden voor het eerst op InterSpeech) waren zeker de moeite waard (zie hieronder), maar de 3 hoogtepunten waren voor mij de 3 keynotes op dinsdag, woensdag en donderdag (die van maandag van Mary E. Beckman was een beetje warrig).

Keynotes

Het verhaal van Ruhi Sarikaya (dinsdag) sprak mij het meest aan. Zijn basisgedachte is dat de spraakgestuurde assistenten zo goed gaan worden (of al zijn) dat ze de meeste apps van je mobiele telefoon gaan overnemen. Nu heb je gemiddeld nog 30 apps op je telefoon waarvan je er maar 4 a 5 echt gebruikt. Straks heb je eigenlijk alleen maar Cortana (SIRI, GoogleNow) en daarmee bedien je de apps op je telefoon.

En ik denk eigenlijk dat ie gelijk heeft. Voor de straight-forward opdrachten kun je net zo goed spraak gebruiken, zeker als je visuele feedback krijgt zodat je altijd ziet of het ok is. Het daadwerkelijke gebruik van visuele apps op je mobiel wordt dan teruggebracht tot het browsen en inspiratie opdoen. Een kleine test op mijn iPad liet zien dat dat nu al aardig gaat. “Hoe maak ik een lamsschotel” leidt tot een groot aantal recepten die ik vervolgens kan aanklikken.  Maar het antwoord op de vraag “wat zal ik nu weer eens eten” is minder duidelijk: hier leent een visuele app met foto’s van smakelijke schotels zich beter voor.


Ook de tweede keynote van Katrin Amunts op woensdag over de Human Brain Project Atlas was fascinerend. Zij houdt zich bezig met het maken van een atlas van onze hersenen. Dat gebeurt o.a. door hersenen van overleden mensen in heel dunne laagjes te snijden, die plakjes te fotograferen/scannen en met die scans en geavanceerde image-software een 3D-model van onze hersenen te maken. Fascinerend! Je kon met een muis gewoon door onze hersenen “lopen”.

Door een MRI-scan van mensen te maken terwijl ze in de scanner naar “zinvolle of juist onzin spraak”, “muziek of kabaal”, “boze spraak of juist rustige spraak” luisteren krijg je te zien welke delen van de hersen betrokken zijn bij het processen van deze geluiden (uiteraard kun je dat ook met beelden of bewegingen (“til je linker hand op”) doen). Door dit te combineren met het 3D-model van de hersenen wordt duidelijk waar in de hersenen wat geprocessed wordt. Dat leidt tot betere inzicht, maakt duidelijk waar je af moet blijven bij operaties en geeft aan hoe onze hersenen spraak en beeld verwerken hetgeen dan weer door onderzoekers gebruikt kan worden om nog betere beeld en spraakprocessing te maken.


De laatste keynote op donderdag door Klaus Scherer ging over de evolutionaire ontwikkeling van spraak. Hoe zijn wij van een klanken uitstotende veredelde aap tot sprekende mensen geworden? Aan de hand van allerlei voorbeelden van geluidmakende dieren (antilopen, verschillende soorten apen) liet hij zien hoe die ontwikkeling mogelijkerwijs verlopen is. Zo kunnen apen bij een “alarmmelding” aangeven of het een roofvogel, een leeuw of een slang is waarvoor opgepast moet worden.


Wat viel op?

Wat verder erg leuk was, waren de Show&Tell sessies. De moderne tijd is ook bij InterSpeech doorgedrongen en naast de traditionele postersessies zijn er nu sessies die ergens tussen een statische verhaal op papier en een demonstratie op de computer in liggen. Zo liet men zien dat de spraakherkenning behoorlijk goed werkt bij het annoteren van vergaderingen (Intel), dat je heel snel via een Virtual Machine een eigen spraakherkenner kunt opzetten zodat je bijvoorbeeld  tijdens een werkcollege de studenten met echte ASR kunt laten werken (SpeechLitchen), en dat je een systeem kunt maken dat sprekers herkent die al eerder een 112-noodnummer hebben gebeld (“Hallo, u belde net ook al!”).

Kortom, de Show&Tell sessies zijn volgens mij de manier om de resultaten van TST-onderzoek te presenteren. Het is toch eigenlijk vreemd dat we nog steeds een groot vel met dikwijls kleine lettertjes en plaatjes aan de muur hangen en dan gaan uitleggen wat we allemaal gedaan hebben als je het ook gewoon kunt laten zien en horen. Enige reden die ik nu kan bedenken dat het nog niet op grote schaal gedaan wordt, zijn de kosten: papier is goedkoop en het inrichten van een zaal met 60 grote monitors kost nu nog te veel. Bij de volgende NOTaS-show maar eens proberen?

Het publiek

De bezoekers van InterSpeech hebben traditioneel een hoog nerd gehalte. De merendeels mannelijke deelnemers bekommeren zich in de regel niet echt om uiterlijk vertoon al doet een aantal “paradijsvogels” soms anders vermoeden. Een aantal Nederlandse nieuwkomers vroeg de avond voor de conferentie nog of er een dresscode was: ze hadden tenslotte een jasje en zo meegenomen. Mwah, verspilde moeite. Loop rond waar je je prettig in voelt en stel vooral slimme vragen. Dat eerste was eenvoudig, dat tweede iets lastiger omdat je diep van binnen toch bang bent een hele stomme vraag te stellen tussen al dit mathematische geweld.

Conclusie

InterSpeech laat zien dat TST zich langzaam losmaakt van “alleen maar onderzoek”. Doordat met name de spraakherkenning zo goed geworden is, dat je het echt kunt gebruiken, wordt de technologie voor allerlei bedrijven bruikbaar. Dat verklaart waarschijnlijk ook het grote aantal medewerkers van IBM, Apple (30!), Microsoft, Google, Amazon, FaceBook en NOTaS J. De eerste horde, het daadwerkelijk herkennen van wat er gezegd wordt, lijkt in ieder geval voor de grote talen (Engels, Chinees, Japans, Spaans, Duits, Frans en Italiaans) genomen waardoor men zich nu kan richten op het interpreteren van de spraak (Speech Understanding). Ook hiervoor was erg veel belangstelling en het is te verwachten dat tijdens InterSpeech2016 (San Francisco) en InterSpeech2017 (Stockholm) er enorm veel toepassingsgerichte ontwikkelingen zullen zijn.
Voor NOTaS een goede ontwikkeling!

 

Een deelnemersbijeenkomst van NOTaS die samen met de Taalunie was georganiseerd bij het MuZIEum in Nijmegen in november 2014 wekte bij alle betrokkenen (de NOTaS-deelnemers en de aanwezige vertegenwoordigers van het MuZIEum en de Oogvereniging) zoveel enthousiasme op dat werd besloten op korte termijn een  meer verdiepende bijeenkomst te houden met een groter aantal ervaringsdeskundige leden van de Oogvereniging.

Henk van den Heuvel en Arjan van Hessen (bestuursleden van NOTaS) namen het op zich een presentatie te verzorgen over de taal- en spraaktechnologie, de stand van zaken qua bruikbaarheid en de toekomstige ontwikkelingen. Jeroen van Dijk en Ronald Willering (Oogvereniging) organiseerden de bijeenkomst die gehouden werd op zaterdagmiddag 28 maart in het MuZIEum.  Catia Cucchiarini (Taalunie) trad op als algemeen inleider en dagvoorzitter. Het thema van de bijeenkomst was “Spraaktechnologie  voor blinden en slechtzienden”.

Tijdens de NOTaS-bijeenkomst was al van gedachte gewisseld over de wensen en verlangens van de VH, maar dat beperkte zich tot een aantal individuen. Om een beter beeld te krijgen heeft de Oogvereniging haar leden een mail gestuurd met daarin een oproep deze wensen en verlangens op papier te zetten. Velen deden dat en deze input vormde de uitgangspositie van de presentaties op 28 maart. De rol van de spraaktechnologie betrof vooral automatische spraakherkenning en spraaksynthese (TTS).