Selecteer de taal

  • English (United Kingdom)
  •  
    • Over
    • Login
    • Agenda
  • Organisatie
    • Missie
    • Bestuur
    • Deelnemers
    • Partners
    • Deelnemers van Verdienste
    • Deelnemer worden
    • Informatiepakket
    • Enquête
    • Support letters
  • Nieuws
  • DIXIT
  • Blogs
  • Activiteiten
    • Inschrijven
    • Bijeenkomsten
    • NOTaS & TST
  • Video
  • Contact
  • Downloads
  • Foto's
Lunchbijeenkomst Nijmegen (maart 2023)

Lunchbijeenkomst Nijmegen (maart 2023)

zondag 19 mrt 2023

Op donderdag 16 maart 2023 was er weer een erg boeiende NOTaS bijeenkomst over Taaltechnologie: Big Models. De hoofdredacteur van de laatste Dixit, Suzan Verberne, hield in Nijmegen een boeiende...

Geslaagde NOTaS bijeenkomst bij het LIACS

Geslaagde NOTaS bijeenkomst bij het LIACS

dinsdag 27 aug 2019

Op vrijdagochtend 13 september was er een zeer geslaagde, Engelstalige, NOTaS-deelnemers bijeenkomst bij het prestigieuze LIACS in het Sylviusgebouw in Leiden. Het Leiden Institute of Advanced...

NOTaS in Tilburg

NOTaS in Tilburg

donderdag 7 feb 2019

Ik weet niet waar u Tilburg van kent maar vanaf 15 februari 2019 zal de stad voor NOTaS de boeken ingaan als de plek waar we een zeer succesvolle themabijeenkomst rond het thema “TST en kunstmatige...

Groot Dictee der Nederlandse Taal 2018

Groot Dictee der Nederlandse Taal 2018

zondag 16 dec 2018

Het is weer half december en dat houdt al jaren in: Het Groot Dictee der Nederlandse Taal. Tot een paar jaar geleden was dat een nationale TV-gebeurtenis in de voormalige Tweede Kamer. Maar om de...

Evaluatie van de OH-portal

Evaluatie van de OH-portal

donderdag 4 okt 2018

Tijdens de succesvolle en plezierige workshop in Arezzo (2017) werd duidelijk dat, mits goed en eenvoudig uitgevoerd, het automatisch transcriberen van interviews nuttig kan zijn om sneller een goed...

Vlaanderen – Nederland

Vlaanderen – Nederland

dinsdag 8 mei 2018

Anders dan de titel wellicht doet vermoeden, ging het hier niet om een wedstrijd tussen twee Nederlandssprekende gebieden, maar juist om een samenwerking: is het mogelijk om met vereende kracht...

Gesproken en geschreven chatbots

Gesproken en geschreven chatbots

donderdag 3 mei 2018

Al sinds de eerste jaren van het internet, bestond er de behoefte om te kunnen zoeken in de content die datzelfde internet ontsloot. Ging het in eerste instantie nog met specifieke zoektechnieken...

Beleefd zijn tegen je spraak-assistent

Beleefd zijn tegen je spraak-assistent

dinsdag 19 dec 2017

Een Kerstgedachte (sort-of) Het is bijna weer Kerstmis: een periode voor bezinning, gezellig met z’n allen voor de openhaard met warme wijn en veel zoetigheid. En als het goed is, is iedereen...

Verslag NOTaS-deelnemersbijeenkomst bij DANS

Verslag NOTaS-deelnemersbijeenkomst bij DANS

maandag 18 dec 2017

NOTaS-deelnemers aan tafel bij de directeur van DANS Peter Doorn (rechts). Op 15 december 2017 was NOTaS op bezoek bij DANS. Heel NOTaS? Nee, een kleine delegatie van drie personen hield moedig...

Verslag NOTaS-bijeenkomst bij het INT

Verslag NOTaS-bijeenkomst bij het INT

maandag 16 okt 2017

Vrijdag de 13de: je zou denken dat er wellicht een andere datum gekozen had kunnen worden voor de deelnemersbijeenkomst in Leiden bij het Instituut voor de Nederlandse Taal (INT). Maar…..het bleek...

More Articles
  • NOTaS op InterSteno 2017maandag 31 jul 2017
  • Samen beter aan tafelvrijdag 30 jun 2017
  • Spraakherkenning van Nederlandse bodemzondag 11 jun 2017
  • Samenleven met Alexa: hoe is dat?zaterdag 24 dec 2016
  • DRONGO: Liplezen bij computerspraakwoensdag 5 okt 2016
  • NOTaS op het DRONGO-festivalzondag 2 okt 2016
  • NOTaS bij het Nationaal Archiefdonderdag 22 sep 2016
  • Waarom we robots overschattenmaandag 6 jun 2016
  • Uitgevers en TST, een vreemde combinatie?vrijdag 25 mrt 2016
  • NOTaS, de Taalunie & het MuZIEumdonderdag 10 dec 2015
  • Zorgverzekeraar investeert liefst in gevorderde innovatievrijdag 9 okt 2015
  • De wet van Zipfzondag 27 sep 2015
  • DeepDeepDeep: InterSpeech2015woensdag 9 sep 2015
  • Taal- en Spraaktechnologie voor visueel gehandicapten maandag 6 apr 2015

De wet van Zipf

Met een kleine woordenschat, spreek je al een aardig mondje mee!

Laatst kreeg ik mijn dagelijkse nieuwsbrief “De Bicker” in de mail met daarin een enthousiasmerend stuk over de “Wet van Zipf” en het "Pareto-principe" (u weet wel van die 80-20 regel) en een link naar een 21-minuten durend geweldig boeiend en humoristisch filmpje waarin het wordt uitgelegd en aannemelijk wordt gemaakt waarom het zo is.
En dan niet alleen voor het vóórkomen van woorden maar ook voor andere zaken zoals populariteit, sneeuwballen en rijkdom. Deze door George Kingsley Zipf gevonde wetmatigheid wordt iook wel de "Wet van Zipf" genoemd.

De krant lezen in een jou redelijk onbekende taal

Het zal de meeste mensen wel zijn opgevallen dat, ergens op vakantie in een land waarvan je de taal niet goed spreekt, je met enige oefening en een beetje geduld al snel de krant zo kunt lezen dat je in ieder geval begrijpt waarover men zich die dag druk maakt.

Maar komt dat nu omdat ik zo slim ben of schrijven die buitenlandse kranten voor heeeel eenvoudige mensen?
Dat laatste kan natuurlijk waar zijn (net als het eerste :-)) maar het ligt waarschijnlijk net iets anders.

Experimentje: verdeling woorden in de taal

De verdeling van de woorden in een taal (hoe vaak wordt elk woord gebruikt) volgt een soort wetmatigheid. Het meest voorkomende woord (in het het Nederlands is dat "de") komt heel veel voor.
Om te zien of het allemaal klopt, heb ik een lang artikel uit de Correspondent genomen (50 min leestijd, 2690 unieke woorden en 12775 woorden totaal). De berekening van de woordfrequenties geeft het volgende resultaat.

Als we de tabel met de meest gebruikte woorden bekijken, dan zien we dat de 5 populairste die samen al meer dan 18% van het totaal aantal woorden vormen. In de grafiek zien we dat als we de helft van de woorden willen “kennen”, we slechts 75 woorden hoeven te leren. Als we naar 80% willen gaan, dan volstaan "slechts" 642 woorden.
Dus met een beetje oefenen kent zo’n artikel bijna geen geheimen meer.

 

rangorde woord aantal % gesommeerd %
1 de 914 7,155% 7,155%
2 van 482 3,773% 10,928%
3 het 381 2,982% 13,910%
4 in 312 2,442% 16,352%
5 een 289 2,262% 18,614%
  ...      
75 had 26 0,204% 50,137%
  ...      
642 draadloos 3 0,023% 80,016%

 

Woordfrequentie van een krantenartikel uit de Correspondent. 12775 woorden waarvan 2690 uniek.

Spreken & Schrijven

Maar, hoe zit dat met de spreektaal? De wetmatigheid blijft maar de rangorde verandert een beetje. Voor gesproken taal kan er gekeken worden naar het Corpus Gesproken Nederlands (CGN) waarin zo'n 900 uur spreektaal is opgenomen en elk woord werd uitgeschreven. Voor geschreven taal is er het  PAROLE-corpus: een verzameling van zo'n 20 miljoen woorden uit boeken, kranten en tijdschriften, uit de periode 1982-1998.

CGN ja dat de en uh ik een is die van
PAROLE dat van het een en in is te dat op

 

Voor en Achternamen

Gerrit Bloothooft (UU, Meerten Instituut) heeft in een boeiend artikel laten zien dat de Wet van Zipf ook geldt voor het voorkomen van voor- en achternamen. Door het aantal en de frequentie op een dubbel-logarithmische schaal te plotten, krijg je een keurig rechte lijn: een Zipf-verdeling.

Verdeling van voor en achternamen

Conclusie

Als we de sommatie van de zipf-verdeling nemen, dan zien we direct dat je met kennis van een paar honderd veel voorkomende woorden al heel veel teksten kunt lezen. Natuurlijk zullen er in die tekst ook weinig voorkomende en wellicht belangrijke woorden staan die ervoor zorgen dat je net niet begrijpt wat er precies staat. Maar de algemene betekenis haal je meestal wel uit de context. Het verklaart in ieder geval wel waarom je, met slechts een geringe woordenschat, toch die krant of dat boek kunt lezen. En de "Wet van Zipf" geldt voor veel meer zaken, zoals in het filmpje wordt duidelijk gemaakt.

DeepDeepDeep: InterSpeech2015

Om de twee jaar komt de grote spraaktechnologieconferentie InterSpeech naar Europa en dit jaar was Dresden in Duitsland aan de beurt. Een goede gelegenheid voor zowel traditionele academische onderzoekers als, in toenemende mate, de TST-ontwikkelaars van grote en kleinere bedrijven. Nederlandse bedrijven waaronder NOTaS-deelnemers, waren goed aanwezig: Telecats (2x), SpeechLab, NovoLanguage en ReadSpeaker.
Samen met nog 1000 anderen liepen wij gedurende 4 dagen van 9 uur ’s morgens tot 19:00 ’s avonds van Oral Session -> Poster -> Show&Tell -> KeyNote. En niet alleen overdag, want ook ’s avonds ging het netwerken, uitwisselen van ideeën en ordinair roddelen gewoon door. Met als resultaat dat ongeveer iedereen opgelucht ademhaalde toen het einde nabij was: doodvermoeiend maar bereninteressant.

Waar ging het over?

4 jaar geleden kwam de onderzoeksgroep van Microsoft in Firenze naar buiten met het gebruik van Deep Neural Networking (DNN) voor spraakherkenning.

Een diep neuraal netwerk (DNN) is een kunstmatig neuraal netwerk met meerdere verborgen lagen tussen de ingang- en uitgangslaag. Een DNN genereert modellen waarbij de extra lagen het samenstellen features van onderliggende lagen mogelijk maken. Hierdoor wordt een enorm leervermogen gecreëerd die ingezet kan worden voor het modelleren van de complexe spraakpatronen. DNN’s zijn de meest populaire vormen van de “diep leren architectuur” en wordt sinds 2010 met veel succes gebruikt voor spraakherkenning sinds 2010.

De resultaten in 2011 waren zo spectaculaire dat ongeveer de hele TST-onderzoekswereld zich vervolgens op dit fenomeen heeft geworpen: en dat is nog steeds te merken. Het leek er soms op dat ongeveer de helft van spraakherkenningspresentaties en posters op de een of andere manier over Deep-Deep-Deep Neural networking en allerlei nieuwe varianten ervan ging. En als zo’n DNN zoals bij mij, al op het randje van je kennis ligt, dan is ’n sessie van 2 uur met 6 DNN-presentaties beslist afzien. Nog erger wordt het wanneer een jonge Japanse of Chinese PhD-student het verhaal gaat vertellen. Hun Engels is voor ons (in ieder geval voor mij) soms moeilijk te volgen en dat in combinatie met de pittige wiskunde……..

Maar wel petje af voor deze onderzoekers, want sommigen leren het verhaal helemaal uit hun hoofd (wat dan wel weer lastig is als je hen na afloop iets wilt vragen). Ik moet er trouwens niet aan denken dat ik zoiets in het Chinees zou moeten doen.

Hoogtepunten

Wat waren in mijn ogen de hoogte punten van InterSpeech? De Show&Tellsessies (2 jaar geleden voor het eerst op InterSpeech) waren zeker de moeite waard (zie hieronder), maar de 3 hoogtepunten waren voor mij de 3 keynotes op dinsdag, woensdag en donderdag (die van maandag van Mary E. Beckman was een beetje warrig).

Keynotes

Het verhaal van Ruhi Sarikaya (dinsdag) sprak mij het meest aan. Zijn basisgedachte is dat de spraakgestuurde assistenten zo goed gaan worden (of al zijn) dat ze de meeste apps van je mobiele telefoon gaan overnemen. Nu heb je gemiddeld nog 30 apps op je telefoon waarvan je er maar 4 a 5 echt gebruikt. Straks heb je eigenlijk alleen maar Cortana (SIRI, GoogleNow) en daarmee bedien je de apps op je telefoon.

En ik denk eigenlijk dat ie gelijk heeft. Voor de straight-forward opdrachten kun je net zo goed spraak gebruiken, zeker als je visuele feedback krijgt zodat je altijd ziet of het ok is. Het daadwerkelijke gebruik van visuele apps op je mobiel wordt dan teruggebracht tot het browsen en inspiratie opdoen. Een kleine test op mijn iPad liet zien dat dat nu al aardig gaat. “Hoe maak ik een lamsschotel” leidt tot een groot aantal recepten die ik vervolgens kan aanklikken.  Maar het antwoord op de vraag “wat zal ik nu weer eens eten” is minder duidelijk: hier leent een visuele app met foto’s van smakelijke schotels zich beter voor.


Ook de tweede keynote van Katrin Amunts op woensdag over de Human Brain Project Atlas was fascinerend. Zij houdt zich bezig met het maken van een atlas van onze hersenen. Dat gebeurt o.a. door hersenen van overleden mensen in heel dunne laagjes te snijden, die plakjes te fotograferen/scannen en met die scans en geavanceerde image-software een 3D-model van onze hersenen te maken. Fascinerend! Je kon met een muis gewoon door onze hersenen “lopen”.

Door een MRI-scan van mensen te maken terwijl ze in de scanner naar “zinvolle of juist onzin spraak”, “muziek of kabaal”, “boze spraak of juist rustige spraak” luisteren krijg je te zien welke delen van de hersen betrokken zijn bij het processen van deze geluiden (uiteraard kun je dat ook met beelden of bewegingen (“til je linker hand op”) doen). Door dit te combineren met het 3D-model van de hersenen wordt duidelijk waar in de hersenen wat geprocessed wordt. Dat leidt tot betere inzicht, maakt duidelijk waar je af moet blijven bij operaties en geeft aan hoe onze hersenen spraak en beeld verwerken hetgeen dan weer door onderzoekers gebruikt kan worden om nog betere beeld en spraakprocessing te maken.


De laatste keynote op donderdag door Klaus Scherer ging over de evolutionaire ontwikkeling van spraak. Hoe zijn wij van een klanken uitstotende veredelde aap tot sprekende mensen geworden? Aan de hand van allerlei voorbeelden van geluidmakende dieren (antilopen, verschillende soorten apen) liet hij zien hoe die ontwikkeling mogelijkerwijs verlopen is. Zo kunnen apen bij een “alarmmelding” aangeven of het een roofvogel, een leeuw of een slang is waarvoor opgepast moet worden.


Wat viel op?

Wat verder erg leuk was, waren de Show&Tell sessies. De moderne tijd is ook bij InterSpeech doorgedrongen en naast de traditionele postersessies zijn er nu sessies die ergens tussen een statische verhaal op papier en een demonstratie op de computer in liggen. Zo liet men zien dat de spraakherkenning behoorlijk goed werkt bij het annoteren van vergaderingen (Intel), dat je heel snel via een Virtual Machine een eigen spraakherkenner kunt opzetten zodat je bijvoorbeeld  tijdens een werkcollege de studenten met echte ASR kunt laten werken (SpeechLitchen), en dat je een systeem kunt maken dat sprekers herkent die al eerder een 112-noodnummer hebben gebeld (“Hallo, u belde net ook al!”).

Kortom, de Show&Tell sessies zijn volgens mij de manier om de resultaten van TST-onderzoek te presenteren. Het is toch eigenlijk vreemd dat we nog steeds een groot vel met dikwijls kleine lettertjes en plaatjes aan de muur hangen en dan gaan uitleggen wat we allemaal gedaan hebben als je het ook gewoon kunt laten zien en horen. Enige reden die ik nu kan bedenken dat het nog niet op grote schaal gedaan wordt, zijn de kosten: papier is goedkoop en het inrichten van een zaal met 60 grote monitors kost nu nog te veel. Bij de volgende NOTaS-show maar eens proberen?

Het publiek

De bezoekers van InterSpeech hebben traditioneel een hoog nerd gehalte. De merendeels mannelijke deelnemers bekommeren zich in de regel niet echt om uiterlijk vertoon al doet een aantal “paradijsvogels” soms anders vermoeden. Een aantal Nederlandse nieuwkomers vroeg de avond voor de conferentie nog of er een dresscode was: ze hadden tenslotte een jasje en zo meegenomen. Mwah, verspilde moeite. Loop rond waar je je prettig in voelt en stel vooral slimme vragen. Dat eerste was eenvoudig, dat tweede iets lastiger omdat je diep van binnen toch bang bent een hele stomme vraag te stellen tussen al dit mathematische geweld.

Conclusie

InterSpeech laat zien dat TST zich langzaam losmaakt van “alleen maar onderzoek”. Doordat met name de spraakherkenning zo goed geworden is, dat je het echt kunt gebruiken, wordt de technologie voor allerlei bedrijven bruikbaar. Dat verklaart waarschijnlijk ook het grote aantal medewerkers van IBM, Apple (30!), Microsoft, Google, Amazon, FaceBook en NOTaS J. De eerste horde, het daadwerkelijk herkennen van wat er gezegd wordt, lijkt in ieder geval voor de grote talen (Engels, Chinees, Japans, Spaans, Duits, Frans en Italiaans) genomen waardoor men zich nu kan richten op het interpreteren van de spraak (Speech Understanding). Ook hiervoor was erg veel belangstelling en het is te verwachten dat tijdens InterSpeech2016 (San Francisco) en InterSpeech2017 (Stockholm) er enorm veel toepassingsgerichte ontwikkelingen zullen zijn.
Voor NOTaS een goede ontwikkeling!

 

Taal- en Spraaktechnologie voor visueel gehandicapten

Een deelnemersbijeenkomst van NOTaS die samen met de Taalunie was georganiseerd bij het MuZIEum in Nijmegen in november 2014 wekte bij alle betrokkenen (de NOTaS-deelnemers en de aanwezige vertegenwoordigers van het MuZIEum en de Oogvereniging) zoveel enthousiasme op dat werd besloten op korte termijn een  meer verdiepende bijeenkomst te houden met een groter aantal ervaringsdeskundige leden van de Oogvereniging.

Henk van den Heuvel en Arjan van Hessen (bestuursleden van NOTaS) namen het op zich een presentatie te verzorgen over de taal- en spraaktechnologie, de stand van zaken qua bruikbaarheid en de toekomstige ontwikkelingen. Jeroen van Dijk en Ronald Willering (Oogvereniging) organiseerden de bijeenkomst die gehouden werd op zaterdagmiddag 28 maart in het MuZIEum.  Catia Cucchiarini (Taalunie) trad op als algemeen inleider en dagvoorzitter. Het thema van de bijeenkomst was “Spraaktechnologie  voor blinden en slechtzienden”.

Tijdens de NOTaS-bijeenkomst was al van gedachte gewisseld over de wensen en verlangens van de VH, maar dat beperkte zich tot een aantal individuen. Om een beter beeld te krijgen heeft de Oogvereniging haar leden een mail gestuurd met daarin een oproep deze wensen en verlangens op papier te zetten. Velen deden dat en deze input vormde de uitgangspositie van de presentaties op 28 maart. De rol van de spraaktechnologie betrof vooral automatische spraakherkenning en spraaksynthese (TTS).

Geslaagde NOTaS bijeenkomst bij het LIACS

liacsOp vrijdagochtend 13 september was er een zeer geslaagde, Engelstalige, NOTaS-deelnemers bijeenkomst bij het prestigieuze LIACS in het Sylviusgebouw in Leiden.

Het Leiden Institute of Advanced Computer Science (LIACS) is een kenniscentrum voor multidisciplinair onderzoek en onderwijs op het gebied van informatica en kunstmatige intelligentie (waaronder Taal en AI). Suzan Verberne had in samenwerking met NOTaS een mooi programma gemaakt: twee academische projecten en twee meer toepassingsgerichte projecten op het terrein van text mining (automatische tekstanalyse door middel van voorbeeldgestuurde patroonherkenning). De resultaten waren behoorlijk indrukwekkend (in termen van precisie en recall). Zie onderstaand programma voor de besproken onderwerpen en de bij behorende dia's.

Wat ook opviel was de kwaliteit van de sprekers: alle vier erg goed en dat maakt zo'n ochtend met vier toch best taaie onderwerpen, enorm plezierig. De sprekers wisten niet alleen waar ze het over hadden (daar ga je ook vanuit), maar brachten het ook op aantrekkelijke wijze. Elke lezing leidde dan ook tot een levendige discussie met het publiek, dat ruim 20 personen telde en voor de helft uit Leidse onderzoekers bestond. Na afloop van de lezingen werd nog enthousiast nagepraat tijdens de informele netwerklunch. Opnieuw bleek dat NOTaS-deelnemers zich graag door de wetenschap laten informeren en inspireren!

Programma

Tijd Item & link naar de presentatie Spreker(s)
09:30 Welcome with coffee NOTaS-board
10.00 Brief introduction Suzan Verberne (TMR-LIACS)
10:05 Using Text Mining and Information Retrieval Techniques in the Archaeology Domain; Creating a Search System for Excavation Reports Alex Brandsen (Faculty of Archaeology, Leiden University) 
10:35 Using word embeddings and semi-structured data to parse resumes Natalia Bukarina (YoungCapital & Leiden University)
11:00 Coffee Break  
11:30: Predicting undiagnosed ADHD from Electronic Health Record with NLP Roel van Est (Antes)
12:00 Knowledge Discovery from Patient Forums Anne Dirkson (LIACS)
12:30 Lunch  

Pagina 5 van 5

  • 1
  • 2
  • 3
  • 4
  • 5
  • Login