robot

In de Volkskrant van 6-6-2016 een leuk stukje van Toine Heijmans over een experiment met autistische jongeren die gecoached zouden moeten worden door een robot (en ja, dat was onze eigen NAO). Het stuk geeft een aardig inzicht in de verwachtingen aangaande een robot en laat ook zien wat er vervolgens mis kan gaan.

Onderzoekster Bibi Huskens wordt aangehaald met:
"Haar team was weken bezig om scenario's te schrijven en die in Robia te programmeren. Met als gevolg dat drie mensen een werkdag nodig hadden om een therapiesessie van twintig minuten mogelijk te maken - aardappelen kweken in een woestijn is efficiënter."

Ongetwijfeld is dat waar, maar stel dat het wel lukt, dan is de uiteindelijke tijdwinst enorm, dus eigenlijk een beetje een kul-redenatie. Onderzoek bijna altijd zeer tijdrovend en je kunt niet verwachten dat je al tijdwinst boekt tijdens het onderzoek. Maar goed, leuk en leerzaam om te lezen.


logo volkskrant

Mensen houden van robots, letterlijk. Robots zijn dode stof, en toch is er de sensatie van een ontmoeting met leven. Twee Hampshire-hotels hebben sinds kort Hugo 'in dienst', de 'charmante en sympathieke humanoĂŻde' (persberichtwoorden) die negentien talen spreekt, gezichten zes maanden onthoudt en weet welke tram naar het museum gaat.

Dat Hugo in de war raakt als een toerist vraagt of hij ook met de bus naar het museum kan, neemt iedereen voor lief: van een robot accepteren we meer dan van een receptionist.

De 'schattigheidswaarde', noemt Bibi Huskens dat, en ze schiet in de lach, alweer, 'sorry'. Bibi had een tijdlang een robot in dienst, Robia, en is blij dat-ie weer weg is. Toen ze met robots begon, als onderzoeker en therapeut bij autismecentrum het dr. Leo Kannerhuis, waren de journalisten niet weg te slaan: dit móést gefilmd en verteld: een robot die kinderen sociale vaardigheden leert. Maar dat het mislukte 'had geen nieuwswaarde, zeiden ze'.

Voor het volledige artikel, zie hier.

Zwijsen

24-maart-2016 was het weer zover: een NOTaS-deelnemersbijeenkomst, en bovendien een zeer drukke, goedbezochte sessie met een levendig mee-discussiërend publiek.

In eerste instantie zou je denken dat een uitgever juist ver van TST (Taal- en Spraak Technologie) wil blijven: immers een uitgever maakt een papieren boek dat op traditionele wijze verkocht wordt. TST richt zich juist op "talige" toepassingen van beschikbare (open en gesloten) digitale informatie: niet iets dat je direct assioceert met een uitgever die al sinds 1846 bestaat.

zwijsen 2Toch ligt dat anders. Sinds de oprichting focust Zwijsen zich duidelijk op het ontwikkelen van lesmethoden voor het (lager) onderwijs en ze zien in de zich sterk ontwikkelende TST een duidelijk hulpmiddel om nog betere methodes te ontwikkelen. TST wordt door Zwijsen gezien als een “assistance technology” waarmee de leraar niet vervangen maar juist ondersteund wordt in het lesgeven. Het was daarom dat ze uitkeken naar hetgeen wij, de TST-gemeenschap, allemaal te bieden hadden.

Maar voordat er dieper werd ingegaan op de "zegeningen" van TST, werd NAO, de robot die de komende maanden bij verschillende NOTaS-deelnemers een logeeradres heeft, officieel overgedragen. Na 6 weken bij het CLST van de Radboud Universiteit is het nu tijd om in Enschede een ware "wijze uit het Oosten" te worden. Henk van den Heuvel liet in een korte presentatie zien wat NAO allemaal beleefd heeft. Kijk voor het uitgebreide verslag (incl filmpje), op onze robot-blog.

  Programma & Presentaties TST en Zwijsen

Zwijsen en TST (Taal- en Spraak Technologie) Sjors Heezemans (Zwijsen)
  Beter leren schrijven met Klinkende Taal Educatief Dennis de Vries  (GridLine)
  Oplijnen van spraak t.b.v. het taalonderwijs Arjan van Hessen (Telecats)
  TextAid: hulp-tool voor leerlingen/studenten met dyslexie Maarten vd Koevering (ReadSpeaker)
Koffiepauze  
  Onderwijstoepassingen van Basilex en Basiscript Nelleke Oostdijk (RU)
  DigLin en DISCO: ASR t.b.v. spreekvaardigheid Helmer Strik (RU)
Vertalen en hertalen met Eurglot Leo Konst (Linguistic Systems)
  Stemmen voor spraaksynthese Arthur Dirksen (Fluency)
Interactieve discussie en conclusie(s) Arjan van Hessen

  Verslag TST en Zwijsen

zwijsen

Verslag

Deel I

Na de gebruikelijke koffie begon de bijeenkomst onder leiding van Henk van den Heuvel (voorzitter Staffan was helaas verhinderd). De aftrap werd gegeven door Sjors Heezemans van Zwijsen die liet zien dat ze wel degelijk nu al gebruik maken van TST. In een goed en duidelijk verhaal werd getoond hoe bv. kinderen m.b.v. spraakherkenning en TTS zelfstandig kunnen leren lezen. In een leuk filmpje zag je kinderen met een headset op die “moeilijke woorden” vanaf het scherm van een PC voorlazen en door de computer beloond en gecorrigeerd werden. Inspirerend!
Daarna was het woord aan NOTaS. Dennis de Vries van GridLine toonde hun nieuwste initiatief: "Klinkende Taal Educatief". Dit is een op het onderwijs gerichte versie van Klinkende Taal die kinderen helpt hun opstellen te verbeteren door automatisch schrijffouten aan te wijzen. Daarna liet Arjan van Hessen van Telecats zien wat ze met spraaktechnologie zouden kunnen doen voor het onderwijs: het doorzoekbaar maken van opgenomen lessen (weblectures) en het aanbieden van automatisch ondertitelde audio zodat kinderen gelijktijdig èn spraak èn tekst krijgen aangeboden. De laatste presentatie voor de koffie kwam van ReadSpeaker. Maarten vd Koevering liet zien hoe hun voorleesknop kan bijdragen aan een betere toegankelijkheid van websites en digitale publicaties, welke talen hiermee ondersteund worden en hoe ze hun TTS-oplossing inzetten voor het bijzondere onderwijs

Koffie

Door de grote opkomst was het zaaltje bomvol en eigenlijk iets te warm en de koffie kwam dan ook precies op tijd: vocht en frisse lucht.

Deel II

zwijsen 1Na de koffie liet de Radboud Universiteit zien wat het BasiLex en BasiScript eigenlijk was en wat je er allemaal mee zou kunnen doen. Voor dataonderzoekers een handen-jeukend iets: veel en goed gemetadateerde informatie waar van alles uit te halen is. De door Nelleke Oostdijk kort voor de presentatie geuite zorg (ik heb een hele saaie presentatie met alleen maar letters en geen een plaatje) bleek dan ook geheel onterecht. Daarna door Helmer Strik (ook van de Radboud, maar ook van de startup NovoLanguage) weer spraaktoepassingen: DigLin en DISCO. Dit zijn twee applicaties die bedoeld zijn om leerlingen te helpen bij spreekvaardigheid (uitspraak en grammatica) in een tweede taal. Zowel taalstudenten als professionele vertalers kunnen baat hebben bij geavanceerde vertaalsoftware zoals EuroGlot van Linguistic Systems. Ontwikkelaar Leo Konst demonstreerde enthousiast de oplijn- en filtermogelijkheden van dit zestalige vertaalsysteem. Altijd goed om dit soort vurige pleidooien te horen: mensen met het TST-hart op de goede plek.

Als laatste kwam Arthur Dirksen van Fluency aan het woord: ook TTS, maar dan meer gefocust op individuen. Een mooi pleidooi om de keuze tussen verschillende voorleesstemmen aan de leerling te laten omdat dit de motivatie aanzienlijk kan verhogen. Helaas konden we ter plaatse niet horen hoe Fluency nu klonk (maar gelukkig kan het wel via de website).

Discussie

vragenGebrek aan zuurstof en de hitte in het zaaltje begonnen nu hun tol te eisen, maar er moest nog afgesloten worden. De vraag aan Zwijsen was: gehoord hebben wat er allemaal kan en niet beperkt door “het kan nog niet” of “het is te duur”: wat zouden jullie graag willen, wat zijn jullie TST-dromen?

Het antwoord was duidelijk: TST-toepassingen die de docenten in de klas de gelegenheid bieden om leerlingen zelfstandig te laten oefenen. Dus niet de leraar eruit en de computer erin, maar juist een symbiotische relatie. De leraar legt uit en leerlingen kunnen mbv de computer en software zelfstandig oefenen. Een inspirerend antwoord dat duidelijk maakt dat er gezamenlijk veel te winnen valt.

Netwerk-Lunch

Bij de lunch na afloop bleef het druk en werd er veel gediscussieerd over mogelijke vervolgstappen. Het ligt voor de hand dat we gezamenlijk gaan kijken hoe we een aantal pilots kunnen opzetten waarin we zo’n combi (leraar EN TST-software) gaan uitproberen om te zien of en in welke mate leerlingen baat hebben bij gebruik van taal- en spraaktechnologie.

Om 14:00 kwamen de schoonmakers binnen en werden we er echt uitgegooid: een teken dat de bijeenkomst als geslaagd kon worden beschouwd zoals ook de mail na afloop laat zien.

martin de jongBeste Henk,

Ik dank jou ook namens Zwijsen voor jouw dagvoorzitterschap.
We hebben het als een boeiende en zinvolle bijeenkomst ervaren.
Er zijn leuke contacten gelegd en we hopen dat dit zijn vruchten zal afwerpen.

Met vriendelijke groet,

Martin de Jong

ICT concept developer Zwijsen

Vandaag, 10-12-2015, bij het MuZIEum in Nijmegen een vergadering gehad over de mogelijkheden om (Nederlandse) Taal- en Spraaktechnologie (TST) binnen het MuZIEum in te zetten.
Er komen, zeker in de vakantieperiode, altijd zo veel mensen naar het museum, dat het onmogelijk is om direct iedereen de Donkerbeleving te laten beleven. Deze Donkerbeleving laat je ervaren wat het is om blind te zijn. Je stapt letterlijk in het leven van een blinde en wordt een uur lang door een ervaringsdeskundige rond door het dagelijks leven en ervaart dan hoe het is om helemaal niets te zien (voor een uitgebreid verslag zie hier).

In de foyerkunnen verder allerlei educatieve activiteiten gedaan wordenrondom zintuigen.  De ambitie is om hier een innovatief programma te ontwikkelen en de bezoekers kennis te laten maken met het dagelijks leven van iemand met een visuele beperking. Het muZIEum wil dit dagelijks leven, waarbij taal en spraak centraal staan, laten ervaren door de bezoekers.

Thema's

We gaan werken aan 4 thema’s: thuis, werk, buitenshuis, vrije tijd).Aan NOTaS en de Nederlandse Taalunie de schone taak het MuZIEum te helpen met de invulling ervan. Het is de bedoeling om in het voorjaar van 2016 de eerste thema’s officieel te presenteren. De komende maanden zullen besteed worden aan het schrijven van het voorstel en (mogelijke) scenario’s om een beter idee te krijgen van hetgeen wij (NOTaS-deelnemers) zouden kunnen doen. Wij gaan nadenken hoe we bestaande taal- en spraaktechnologie erin kunnen verweven en hoe we bezoekers middels extra informatie beter kunnen informeren over:

  1. wat TST nu eigenlijk is
  2. wat je er mee kunt doen.

Ook gaan we kijken welke andere partijen erbij gehaald kunnen worden. Een van de doelen van het geheel is om bezoekers te laten zien dat met hulp van moderne (taal- en spraaktech gebruikende) middelen, mensen met een visuele handicap, toch uitstekend kunnen werken. Een verslag kan worden ingesproken en met spraakherkenning worden omgezet in tekst, op internet kan gezocht worden via gesproken commando's waarna een TTS-engine de gevonden pagina voorleest. TST-enablede domotica kan gebruikt worden om de gordijnen dicht te doen en de verwarming op 200 C te zetten.
Het aantal mogelijkheden is schier oneindig maar wat is nu goed om te laten zien, hoe gaan we het maken en wat mag het kosten? De Nederlandse Taalunie wil hier wel in investeren, maar kan zeker niet het gehele bedrag bijeenbrengen. Wellicht moet Tom Poes dus een list verzinnen. In de komende maanden zullen we hier verslag uitbrengen van de vorderingen, maar iedereen die een mooi idee heeft kan zich bij ons melden.

Jarig

Bij het begin van de vergadering wachtte ons een plezierige verrassing: Taart!!
NOTaS-penningmeester Henk had twee jaar geleden Abraham ontmoet en had besloten gewoon weer overnieuw te beginnen (tweede jeugd?). Hij vierde dat met  het uitblazen van 2 kaarsjes  en het uitdelen van een heerlijk (weliswaar gekregen) appeltaart en koffie.
Namens NOTaS: van harte!!

 

Zowel op deelnemersvergaderingen als tijdens het bestuursoverleg gaat het dikwijls over TST en DE ZORG. Wij kunnen zoveel mooie dingen maar “hullie” van De Zorg willen er niets mee doen. Moeten we niet weer eens een DIXIT, Taal-in-Bedrijf, bijeenkomst of wat dan ook doen om ze te laten zien wat mogelijk is. In een recent verleden heb ik weleens met iemand van Zorg-en-Innovatie gesproken, we hebben dikwijls geprobeerd in gesprek te raken (zowel via Telecats als via de UTwente) met de zorgverleners maar altijd het zelfde verhaal: leuk, fascinerend maar…….. nu even niet voor ons.

Het vermoeden begon te rijzen dat er een fundamenteel verschil zit tussen onze en hun manier van kijken naar innovatie.

Tijdens de voorbereiding van de komende Taal-in-Bedrijf heb ik nog een poging gedaan iemand uit de zorgwereld te strikken die ons kon uitleggen hoe zorgverzekeraars tegen innovatie aankijken, hoe de financiering nu precies loopt en waar onze aanpak nu precies fout loopt. Is niet gelukt ondanks de steun van m’n zusje (doet iets in de zorg). Wel kwam zij aan met een boeiende blog van Mark van Dorresteijn over innovatie in de zorg. Zijn stelling is: “verzekeraar investeert liefst in gevorderde innovatie” Dus geen mooie vergezichten, geen dromen. “In ideeën die nog in de startfase zitten, zullen zij niet investeren” (Matthijs van der Bijl, consultant zorgvernieuwing bij VGZ).

Dat kun je als bevlogen TST-vernieuwer jammer vinden maar het is waarschijnlijk wel de realiteit. Gelukkig is er ook een mooi initiatief waar we wellicht wel iets mee kunnen: een websitevan de hogeschool Windesheim helpt om erachter te komen wat DE zorgverzekeraar nu precies wil. Het is mede een initiatief van de onderzoeksfinancier ZonMwen de zorgverzekeraars VGZen Zilveren Kruis

Hoe overtuigt u de zorgverzekeraar van uw zorgvernieuwingsidee?

Stel, u bent een ondernemer of een zorgaanbieder met een goed idee waarmee de zorg in Nederland kan worden vernieuwd en verbeterd. U bent op zoek naar financiering of bekostiging, of naar ondersteuning bij implementatie en opschaling, en u overweegt om hiervoor contact te zoeken met een zorgverzekeraar. Dan is deze website voor u!

Op de site staan allemaal voorwaarden waaraan een vernieuwend idee moet voldoen om in aanmerking te komen voor mogelijke financiering. En verder is het wellicht een goed idee om, als we weer eens iets voor de zorg willen organiseren, deze Mark uit te nodigen om nog duidelijker te maken hoe wij de zorg kunnen “binnendringen”.

De gehele blog valt hier te lezen.

Met een kleine woordenschat, spreek je al een aardig mondje mee!

Laatst kreeg ik mijn dagelijkse nieuwsbrief “De Bicker” in de mail met daarin een enthousiasmerend stuk over de “Wet van Zipf” en het "Pareto-principe" (u weet wel van die 80-20 regel) en een link naar een 21-minuten durend geweldig boeiend en humoristisch filmpje waarin het wordt uitgelegd en aannemelijk wordt gemaakt waarom het zo is.
En dan niet alleen voor het vóórkomen van woorden maar ook voor andere zaken zoals populariteit, sneeuwballen en rijkdom. Deze door George Kingsley Zipf gevonde wetmatigheid wordt iook wel de "Wet van Zipf" genoemd.

De krant lezen in een jou redelijk onbekende taal

Het zal de meeste mensen wel zijn opgevallen dat, ergens op vakantie in een land waarvan je de taal niet goed spreekt, je met enige oefening en een beetje geduld al snel de krant zo kunt lezen dat je in ieder geval begrijpt waarover men zich die dag druk maakt.

Maar komt dat nu omdat ik zo slim ben of schrijven die buitenlandse kranten voor heeeel eenvoudige mensen?
Dat laatste kan natuurlijk waar zijn (net als het eerste :-)) maar het ligt waarschijnlijk net iets anders.

Experimentje: verdeling woorden in de taal

De verdeling van de woorden in een taal (hoe vaak wordt elk woord gebruikt) volgt een soort wetmatigheid. Het meest voorkomende woord (in het het Nederlands is dat "de") komt heel veel voor.
Om te zien of het allemaal klopt, heb ik een lang artikel uit de Correspondent genomen (50 min leestijd, 2690 unieke woorden en 12775 woorden totaal). De berekening van de woordfrequenties geeft het volgende resultaat.

Als we de tabel met de meest gebruikte woorden bekijken, dan zien we dat de 5 populairste die samen al meer dan 18% van het totaal aantal woorden vormen. In de grafiek zien we dat als we de helft van de woorden willen “kennen”, we slechts 75 woorden hoeven te leren. Als we naar 80% willen gaan, dan volstaan "slechts" 642 woorden.
Dus met een beetje oefenen kent zo’n artikel bijna geen geheimen meer.

 

rangorde woord aantal % gesommeerd %
1 de 914 7,155% 7,155%
2 van 482 3,773% 10,928%
3 het 381 2,982% 13,910%
4 in 312 2,442% 16,352%
5 een 289 2,262% 18,614%
  ...      
75 had 26 0,204% 50,137%
  ...      
642 draadloos 3 0,023% 80,016%

 

Woordfrequentie van een krantenartikel uit de Correspondent. 12775 woorden waarvan 2690 uniek.

Spreken & Schrijven

Maar, hoe zit dat met de spreektaal? De wetmatigheid blijft maar de rangorde verandert een beetje. Voor gesproken taal kan er gekeken worden naar het Corpus Gesproken Nederlands (CGN) waarin zo'n 900 uur spreektaal is opgenomen en elk woord werd uitgeschreven. Voor geschreven taal is er het  PAROLE-corpus: een verzameling van zo'n 20 miljoen woorden uit boeken, kranten en tijdschriften, uit de periode 1982-1998.

CGN ja dat de en uh ik een is die van
PAROLE dat van het een en in is te dat op

 

Voor en Achternamen

Gerrit Bloothooft (UU, Meerten Instituut) heeft in een boeiend artikel laten zien dat de Wet van Zipf ook geldt voor het voorkomen van voor- en achternamen. Door het aantal en de frequentie op een dubbel-logarithmische schaal te plotten, krijg je een keurig rechte lijn: een Zipf-verdeling.

Verdeling van voor en achternamen

Conclusie

Als we de sommatie van de zipf-verdeling nemen, dan zien we direct dat je met kennis van een paar honderd veel voorkomende woorden al heel veel teksten kunt lezen. Natuurlijk zullen er in die tekst ook weinig voorkomende en wellicht belangrijke woorden staan die ervoor zorgen dat je net niet begrijpt wat er precies staat. Maar de algemene betekenis haal je meestal wel uit de context. Het verklaart in ieder geval wel waarom je, met slechts een geringe woordenschat, toch die krant of dat boek kunt lezen. En de "Wet van Zipf" geldt voor veel meer zaken, zoals in het filmpje wordt duidelijk gemaakt.