Selecteer de taal

  • English (United Kingdom)
  •  
    • Over
    • Login
    • Agenda
    • Privacybeleid NOTaS
  • Organisatie
    • Missie
    • Bestuur
    • Deelnemers
    • Partners
    • Deelnemers van Verdienste
    • Deelnemer worden
    • Informatiepakket
    • Enquête
    • Support letters
  • Nieuws
  • DIXIT
  • Blogs
  • Activiteiten
    • Inschrijven
    • Bijeenkomsten
    • NOTaS & TST
  • Video
  • Contact
  • Downloads
  • Foto's
Spraakherkenning uit een doosje

Spraakherkenning uit een doosje

maandag 21 aug 2023

Vandaag tijdens onze twee wekelijkse OH-meeting een interessant nieuwtje gehoord van de groep van Christoph Draxler. Ze hebben in München een eenvoudige Raspberry Pi gekocht en draaien daar gewoon...

Oproep: deelname aan onderzoek Taalvariatie en Afasie

Oproep: deelname aan onderzoek Taalvariatie en Afasie

maandag 14 aug 2023

Dr. Vitória Piai en dr. Marina Ruiter, onderzoekers aan de Radboud Universiteit Nijmegen, zijn op zoek naar deelnemers voor hun onderzoek naar taalvariatie en afasie. {tab...

GPT-5 komt eraan!

GPT-5 komt eraan!

donderdag 3 aug 2023

De aanvraag hint naar baanbrekende nieuwe functies. Volgens verschillende tweets en online berichten heeft OpenAI onlangs een trademark (handelsmerkaanvraag) ingediend bij het US Patent and...

Meedoen met het SignON-project

Meedoen met het SignON-project

donderdag 13 jul 2023

Dag collega’s We zijn voor het SignON-project (zie hier: https://signon-project.eu/) een spraakopnamecampagne gestart waarvoor we redelijk veel deelnemers nodig hebben. Het gaat vooral om dove en...

GPT-NL

GPT-NL

vrijdag 30 jun 2023

TNO heeft net een (voorlopig) plan gepresenteerd om een "groot taalmodel voor het Nederlands" te maken en dat aan "Nederland"aan te bieden. Als NOTaS zijn we het hier natuurlijk hartelijk mee eens....

Expert in Artificial Intelligence / Natural Language Processing / Machine Learning at the European Commission's eTranslation NLP Project

Expert in Artificial Intelligence / Natural Language Processing / Machine Learning at the European Commission's eTranslation NLP Project

donderdag 22 jun 2023

Ben je enthousiast over de enorme nieuwe mogelijkheden bij het toepassen van AI op natuurlijke taalverwerking? Wil je voor de Europese Unie werken en ons helpen taalbarrières voor miljoenen...

Hoe komen chatbots als ChatGPT tot hun antwoorden?

Hoe komen chatbots als ChatGPT tot hun antwoorden?

vrijdag 16 jun 2023

De chatbots veroveren de wereld. Ze maken indruk door hun veelzijdigheid en goed geformuleerde zinnen, maar verbazen ook door hun rare fouten. Hoe komen ChatGPT, Google Bard en consorten eigenlijk...

Dragoș uit Roemenië verstaat geen woord Fries

Dragoș uit Roemenië verstaat geen woord Fries

donderdag 1 jun 2023

maar zijn computer straks wel. 'Ik wil iets goeds doen voor de Friese taal'   Masterstudent Dragoș naast een pompeblêd op de trap van Campus Fryslân in Leeuwarden. Foto: Niels Westra...

Open faculteitspositie aan de KU Leuven, België

Open faculteitspositie aan de KU Leuven, België

donderdag 1 jun 2023

Junior professor in Synergistic Processing of Multisensory Data for Audio-Visual UnderstandingDe Faculteit Ingenieurswetenschappen van de KU Leuven heeft een open positie voor een junior professor...

Spraakherkenning heeft enorme stappen gemaakt, maar...

Spraakherkenning heeft enorme stappen gemaakt, maar...

vrijdag 21 okt 2022

We weten steeds meer van taal en spraak af en maken naarstig gebruik van NLP, ASR en andere AI-technieken om ervoor te zorgen dat spraakherkenning zo goed mogelijk gaat. En het gaat ook steeds...

More Articles
  • Duizend ai-onderzoekers doorbreken de taalbarrièrezaterdag 9 jul 2022
  • DRONGO talenfestival: Lezen verliest zijn dominantie, maar niet zijn belang.zaterdag 14 mei 2022
  • Linguistische vingerafdrukvrijdag 22 apr 2022
  • Spraak technologie en video samenwerking naar de maandonderdag 3 feb 2022
  • Liplezen levert verbetering van spraakherkenningvrijdag 14 jan 2022

Expert in Artificial Intelligence / Natural Language Processing / Machine Learning at the European Commission's eTranslation NLP Project

eu

Ben je enthousiast over de enorme nieuwe mogelijkheden bij het toepassen van AI op natuurlijke taalverwerking?

Wil je voor de Europese Unie werken en ons helpen taalbarrières voor miljoenen mensen te slechten?

Heb je al relevante expertise op het gebied van AI / NLP / ML?

Het eTranslation NLP-project van de Europese Commissie (https://language-tools.ec.europa.eu/) biedt je momenteel een opwindende kans met impact en doelgerichtheid. Meer details vind je in de functieomschrijving.

Let op: De functie staat open voor elke nationaliteit en elk ervaringsniveau (met minimaal vijf jaar relevante universitaire studie). Het salaris is in overeenstemming met de ervaring. De functie wordt vervuld door een IT-bedrijf en niet rechtstreeks door de Europese Commissie. Werken op afstand is mogelijk binnen het wettelijke kader (details moeten met de werkgever worden overeengekomen). De functie staat open tot ze vervuld is.

Contactpersonen:

Michael Jellinghaus ( Dit e-mailadres wordt beveiligd tegen spambots. JavaScript dient ingeschakeld te zijn om het te bekijken.)

Andreas Eisele ( Dit e-mailadres wordt beveiligd tegen spambots. JavaScript dient ingeschakeld te zijn om het te bekijken.)

HET TEAM

Wij zijn de sector die zich bezighoudt met automatische vertaling en andere vormen van natuurlijke taalverwerking (NLP), binnen de eenheid Informatietechnologie van het directoraat-generaal Vertaling (DGT) van de Europese Commissie, 's werelds grootste vertaaldienst. Wij bouwen en beheren de automatische vertaaldienst eTranslation, een vlaggenschipproject op het gebied van kunstmatige intelligentie voor de Europese instellingen dat ook beschikbaar is voor een breed scala aan externe gebruikers overal in Europa. eTranslation speelt een belangrijke rol als facilitator van meertaligheid in Europa, als een openbare dienst die meertalige communicatie in veel verschillende contexten mogelijk maakt, onder andere op online platforms zoals de website van de Conferentie over de toekomst van Europa of in moeilijke situaties zoals de toestroom van vluchtelingen in de context van de Oekraïense crisis.

Naast machinevertaling leveren we ook diensten voor andere vormen van natuurlijke taalverwerking, waaronder spraaktranscriptie, documentclassificatie, named entity recognition en anonimisering, en we blijven nieuwe NLP-diensten toevoegen. We gebruiken AI-technieken met deep learning-benaderingen en -tools om onze eigen modellen te trainen, met grote hoeveelheden interne en externe gegevens, of om open-source voorgetrainde modellen in te zetten. We werken in een cloudomgeving, in Azure, en gebruiken infrastructure-as-a-service (IaaS) en platform-as-a-service (PaaS) cloudservices om onze diensten te ontwikkelen en te leveren aan onze interne en externe gebruikers. We voeren ook speciale projecten uit waarbij supercomputers/HPC-resources worden gebruikt voor onderzoek en ontwikkeling met betrekking tot onze diensten.

DE JOB

  • Verkenning van manieren om grote taalmodellen (LLM's) en andere soorten kunstmatige intelligentie (AI)-technologie te gebruiken om toepassingen voor natuurlijke taalverwerking (NLP) te bouwen;
  • Ontwerp, implementatie en evaluatie van AI-gebaseerde NLP-toepassingen, met inbegrip van maar niet beperkt tot automatische vertaling (MT) engines;
  • Definitie van criteria voor kwaliteitsevaluatie die van toepassing zijn op de datasets die worden gebruikt om NLP-toepassingen te bouwen, met betrekking tot zowel de opleidings- als de testdatasets.
  • Toepassing van geavanceerde technieken voor gegevensanalyse en machinaal leren, met inbegrip van "deep learning" op basis van neurale modellen, op MT-gerelateerde taken, met inbegrip van maar niet beperkt tot domeinaanpassing;
  • Ontwikkeling en onderhoud van methoden en software om bruikbare subsets van bestaande corpora te identificeren, waarbij de ongewenste delen worden uitgefilterd, met behulp van combinaties van machinaal leren met expliciete (symbolische) regels.
  • Verwerving en beheer van gegevensbronnen die nuttig zijn om de prestaties en kwaliteit van MT's te verbeteren, zoals parallelle, vergelijkbare en eentalige corpora (inclusief gegevens die van het web worden gehaald of kunstmatige parallelle corpora via terugvertaling);
  • Verwerving en beheer van gegevensbronnen voor de ontwikkeling van verbeterde pre- en post-processing tools (bijv. morfologische en syntactische analyse, herordening, herbeoordeling, kwaliteitsschatting);
  • Verwerving en beheer van gegevensbronnen voor het bouwen of verbeteren van andere AI-gebaseerde NLP-toepassingen dan MT-engines;
  • Adviseren van het ontwikkelteam over het integreren van deze aanvullende gegevensbronnen in een werkende oplossing op softwareniveau;
  • Adviseren over kwaliteitsverbeteringen; beoordelen van de impact van wijzigingen aan de NLP-toepassingen op de uitvoerkwaliteit en andere prestatiecriteria;
  • Deelname aan functionele werkgroepen en voortgangsvergaderingen;
  • Deelname aan wetenschappelijke conferenties en workshops met betrekking tot Artificial Intelligence, Natural Language Processing, Machine Translation en onderliggende technologieën;
  • Bijdragen aan en analyse van implementaties die zijn gemaakt om aan specifieke behoeften van klanten te voldoen, bijvoorbeeld door het creëren van domeinspecifieke MT-engines of specifieke algoritmen;
  • Analyse van de voordelen en risico's van dergelijke veranderingen met betrekking tot de algemene kwaliteit van de eTranslation-dienst.
  • Interactie met bedrijfsanalisten, klanten, gebruikers, projectleiders en ontwikkelaars.

DE VEREISTEN

  • Een gevorderd universitair diploma in data-gedreven computationele linguïstiek, machinaal leren, kunstmatige intelligentie, datamining of statistische datamodellering, inclusief vertrouwdheid met data-gedreven technieken voor natuurlijke taalverwerking, zoals statistische / neurale MT, of gelijkwaardige ervaring
  • Zeer goede kennis en werkervaring op het gebied van kunstmatige intelligentie of natuurlijke taalverwerking, grondige kennis van het opzetten en evalueren van NLP-software, met inbegrip van testmethodologieën en -instrumenten, zoals automatische kwaliteitsmetrieken (bv. BLEU-scores en soortgelijke voor MT) en menselijke evaluatie van de uitvoerkwaliteit
  • Diepgaande kennis van en ervaring met programmeertalen die worden gebruikt voor tekstverwerking (bijv. Python)
  • In staat zijn om prototypische oplossingen efficiënt en snel te implementeren en deze te evalueren op zeer grote hoeveelheden tekstgegevens
  • In staat zijn om zakelijke en technische presentaties te geven
  • Vermogen om hoge kwaliteitsnormen toe te passen
  • Kunnen omgaan met snel veranderende technologieën die worden gebruikt in NLP, MT en machine learning
  • Zeer goede communicatievaardigheden met technisch en niet-technisch publiek
  • Vaardigheden op het gebied van analyse en probleemoplossing
  • In staat zijn om duidelijke en gestructureerde technische documenten te schrijven
  • Vermogen om deel te nemen aan technische vergaderingen en goede communicatieve vaardigheden

Vanwege het bijzondere karakter van een grote internationale organisatie als de Europese Commissie moeten kandidaten ook over de volgende niet-technische vaardigheden beschikken:

  • Vermogen tot integratie in een internationale/multiculturele omgeving, snel zelf kunnen starten en ervaring met werken in teamverband;
  • Vermogen om deel te nemen aan meertalige vergaderingen;
  • Het vermogen om in een multiculturele omgeving te werken aan meerdere grote projecten;
  • Uitstekende teamspeler
  • Het vermogen om andere EU-talen dan Engels te begrijpen, spreken en schrijven is een voordeel;
  • Een hoge mate van discretie en integriteit is vereist, aangezien de applicaties die in DGT R.3 worden beheerd en onderhouden persoonlijke en vertrouwelijke gegevens bevatten.

 

Hoe komen chatbots als ChatGPT tot hun antwoorden?

chatGPT VKDe chatbots veroveren de wereld. Ze maken indruk door hun veelzijdigheid en goed geformuleerde zinnen, maar verbazen ook door hun rare fouten. Hoe komen ChatGPT, Google Bard en consorten eigenlijk tot hun antwoorden?

In een interessant artikel in de Volkskrant van 16 juni 2023 schrijft Laurens Verhagen over de drie populairste chatbots en legt hij een (beetje) uit hoe ze werken. Dwz. hij omschrijft een beetje wat er gebeurt als je de bots een vraag stelt en heel vaag, hoe de training precies tot stand gekomen is. Ik had eerlijk gezegd gehoopt dat hij iets dieper op de precies training in zou gaan, want nu blijft het een beetje vaag.

Toch is het wel een interessant stuk en ik heb de vrijheid genomen om, met verwijzing naar de originele content, het stuk op de site te zetten.

Arjan van Hessen


 

Auteur: Laurens Verhagen
Illustraties: Sophia Twigt
Tijd-Datum: 16 juni 2023, 11:30
Copyright:
Volkskrant
Origineel: https://www.volkskrant.nl/kijkverder/v/2023/hoe-werkt-chatgpt-nu-eigenlijk-onder-de-motorkap~v750606/

Volkskrant 2

Het lijkt achteloos te gebeuren. Slechts een paar seconden na de (best complexe) vraag geven programma’s als Bing Chat (van Microsoft), Bard (van Google) en ChatGPT (van OpenAI) hun antwoorden. De vraag: ‘Schrijf een korte (zeven vragen, zeven antwoorden) dialoog in de stijl van Plato over de vraag of AI bewustzijn kan hebben.’ De Griekse wijsgeer (427 - 347 vChr) onderscheidde zich stilistisch van zijn voorgangers door het schrijven van dialogen waarin hij een filosofisch gesprek voert met een opponent. Plato neemt hierin de rol aan van zijn leermeester Socrates.

Alle chatbots brengen hun taak inhoudelijk tot een goed einde en weten zowel het wezen van de Socratische dialoog als het hedendaagse debat over AI en bewustzijn in leesbare en prikkelende zinnen over het voetlicht te brengen.

Fragment van dialoog via Google Bard:

Schrijf een korte dialoog in de stijl van Plato over de vraag of AI bewustzijn kan hebben.

Socrates Wat is er voor nodig om te bewijzen dat AI bewustzijn kan hebben?
Glaucon Ik weet het niet zeker. Misschien als ze slaagt voor de Turing Test?
Socrates De Turing Test is geen perfecte meting voor bewustzijn. Ze kan voor de gek worden gehouden door machines die niet echt bewust zijn.
Glaucon Dat weet ik, maar het is het beste wat we hebben
Socrates Misschien, maar ik denk dat we voorzichtig moeten zijn met antropomorfiseren. Als AI iets kan wat mensen ook kunnen, wil nog niet zeggen dat AI op dezelfde manier bewust zijn als wij dat zijn.

Tegelijkertijd maken ze vreemde fouten, fouten die een basisscholier niet zou maken. Zeven vragen en antwoorden, was de opdracht. Dat lukt niet altijd. Bard smokkelt er flink wat bij, terwijl Bing het na vijf keer kort gepingpong wel mooi vindt geweest. De dialoog die daarop volgt, is nog vreemder. Bing maakt excuses, probeert het nog een paar keer, maar komt er niet uit.

De excuses van Bing:

Dit zijn geen zeven vragen en geen zeven antwoorden.|

Je hebt gelijk. Het spijt me dat ik dat niet goed heb gedaan. Hier is een nieuwe dialoog die wel voldoet aan de eisen...

Het is een beeld dat ze vaker laten zien: indrukwekkende prestaties gaan samen met lastig te vatten blunders. In dit verband valt vaak de ontnuchterende term stochastische papegaai: de zogenoemde grote taalmodellen die bovengenoemde chatbots aansturen hebben geen begrip van de wereld, maar doen niets anders dan woorden voorspellen en de ontelbare teksten waarmee ze zijn getraind napapegaaien.

Anders dan zoekmachines zijn ChatGPT en consorten niet ontworpen om correcte antwoorden te geven, maar om natuurlijke taal te produceren via het herkennen van tekstpatronen. Als de inhoud toch correct is, wat gelukkig meestal het geval is, is dat een mooie bijvangst. Dit leidt tot ware huzarenstukjes: de laatste generatie chatbots verbeteren computercode, kunnen samenvattingen maken van ingewikkelde wetenschappelijke studies en over elk denkbaar onderwerp meepraten. En het gaat steeds beter. De vorige versie van ChatGPT zakte nog voor het Amerikaanse juristenexamen, de opvolger (voor de liefhebber: GPT-4) scoort al bovengemiddeld.

De snelle progressie brengt de AI-wereld in verwarring. Zijn de chatbots dan misschien toch meer dan die stochastische papegaaien die ze volgens sommige experts zijn? Jelle Zuidema, universitair hoofddocent natuurlijke taalverwerking aan de Universiteit van Amsterdam, vindt de papegaaimetafoor niet zo gelukkig: ‘Ze suggereert dat die modellen voornamelijk kopiëren en plakken, terwijl we ook in kleinere modellen zien dat ze wel degelijk nieuwe, creatieve combinaties van bestaande elementen kunnen maken.’

Volgens Zuidema zijn de aanwijzingen ‘overweldigend’ dat GPT3 (het taalmodel achter ChatGPT) en andere LLM’s (Large Language Models, grote taalmodellen) ook veel abstracte patronen over verhaal- en dialoogstructuur hebben geleerd. Met andere woorden: de papegaaimetafoor is een grove onderschatting van de capaciteiten van de moderne taalmodellen.

In één adem door waarschuwt Zuidema voor overschatting op basis van de huidige vaardigheden: ‘Je moet voorzichtig zijn met claims over menselijke cognitieve vaardigheden.’ De mens is vrij snel geneigd het etiket ‘intelligent’ op computers te plakken, maar dit soort AI-systemen werken fundamenteel anders dan ons biologische brein. ChatGPT komt tot zijn vaak indrukwekkende prestaties via statistische associaties, met als gevolg dat ook GPT-4 nog steeds prachtig verwoorde onzin kan uitkramen.

Hoe kan dat? Hoe komen de moderne chatbots aan hun zinnen? In de basis is het GPT-model (Generative Pretrained Transformer) achter ChatGPT een getraind model om patronen in taal te herkennen en zo voorspellingen te kunnen doen. Denk aan de voorspellende tekstinvoer die bijvoorbeeld op het toetsenbord van mobieltjes zit. Op basis van eerdere berichten voorspelt die software het volgende woord. Na ‘ik’ volgt ‘heb’ en daarna ‘een’ en ‘vraag’. Maar wie telkens het voorgestelde woord aanklikt, creëert uiteindelijk bijzonder vreemde zinnen.

ChatGPT zit veel slimmer in elkaar en maakt niet alleen grammaticaal correcte zinnen en paragrafen, maar ook nog eens teksten die rekening houden met de context en de gegeven tekstinvoer. Met als gevolg dat ze lezen alsof ze door een mens zijn geschreven.

Een kijkje onder de motorkap, in vijf stappen.

   

Verzamelen

ChatGPT is getraind op een grote hoeveelheid digitale tekst. Denk aan de artikelen van grote nieuwswebsites, elektronische boeken, wetteksten, fora of Wikipedia. Zo leert het onderliggend model de structuur en het gebruik van taal. Helaas zijn bedrijven als OpenAI niet erg open over de gebruikte trainingsdata voor de taalmodellen. Ook GPT-4 is een zwarte doos. Bedrijfsgeheim, zegt zijn maker OpenAI, tot frustratie van academici.

   

Verwerken

Volgende stap: al die teksten omzetten in zogeheten ‘tokens’, kleine bouwsteentjes. Dit kunnen woorden zijn, maar ook leestekens of achtervoegsels als ‘-aar’ van ‘wandelaar’. Ieder token krijgt een unieke rij van getallen mee waarmee het neurale netwerk verder kan werken.

Zo’n rijtje getallen kun je zien als de coördinaten in een multidimensionale ruimte: ieder token heeft daar z’n eigen plekje, in de buurt van de tokens die wat betreft betekenis dicht bij elkaar liggen, de zogenoemde word embeddings. Groot (of eigenlijk het rijtje getallen dat hieraan is gekoppeld) zit bijvoorbeeld in de buurt van gigantisch, omvangrijk en massief. En Biden bij president, politicus en Trump.

Woorden die we vaak in vergelijkbare contexten gebruiken, krijgen dus embeddings die dicht bij elkaar liggen. Dit betekent dat het model leert dat bepaalde woorden vergelijkbare betekenissen hebben, puur op basis van hoe wij ze gebruiken. Maar ook wat andersoortige relaties tussen woorden zijn. Bijvoorbeeld dat de relatie tussen ‘koning’ en ‘koningin’ vergelijkbaar is met die tussen ‘man’ en ‘vrouw.

   

Trainen

Nu begint het taalmodel als het ware een quiz met zichzelf, door een stuk tekst te pakken en daaruit woorden weg te halen. Dan voorspelt het welke woorden logischerwijs zouden moeten volgen, waarna deze prognose wordt vergeleken met de oorspronkelijke tekst. Afhankelijk van hoe goed of slecht de prognose was, past het algoritme de gewichtjes (hoe hoger de kans dat een woord volgt, hoe zwaarder het gewicht) in het taalmodel aan. Op deze manier leert het systeem.

GPT3 heeft 175 miljard van zulke gewichtjes, en heeft daarom ook honderden miljarden woorden nodig om van te leren, en een supercomputer om honderden miljarden keren dezelfde ‘quiz’ met zichzelf uit te voeren. Die 175 miljard gewichten zijn georganiseerd volgens een structuur die het transformermodel heet (de T van GPT). Transformers blijken, als ze groot genoeg zijn en genoeg data hebben gezien, enorm goed de belangrijkste delen van een zin te kunnen identificeren om de betekenis te ‘begrijpen’.

Tot slot voegt OpenAI nog een extra trainingslaag aan het hele proces toe, door ook mensen te laten meekijken. Dit is het moderne lopende bandwerk: is een antwoord correct, onduidelijk of slaat het misschien wel helemaal nergens op? Menselijke feedback verfijnt het systeem verder.

   

Voorspellen

Tijdens de training leert het model patronen herkennen in de taal en gebruikt het deze patronen om te voorspellen wat er waarschijnlijk volgt op een gegeven stuk tekst. Er bestaat geen grote database aan de hand waarvan het systeem elk woord leert te begrijpen. Nee, het taalmodel functioneert feitelijk als een supertelraam door woorden wiskundig te benaderen.

Antwoorden

Als een gebruiker gedachteloos een vraag stelt of een instructie geeft, gebruikt ChatGPT al zijn training om een zo goed mogelijk antwoord te genereren. Het model voorspelt welke woorden of zinnen het meest waarschijnlijk volgen op de gegeven instructie en genereert op basis daarvan een reactie. Dit is niet simpelweg een kwestie van de hoogst mogelijke waarschijnlijkheidsscore. Wie bijvoorbeeld aan zijn instructie meegeeft dat ChatGPT wat creatiever in zijn antwoord mag zijn, of moet rijmen, of in de stijl van een specifieke denker moet schrijven, dwingt het model tot een andere woordvoorspelling. Zo kan het gebeuren dat na ‘Het huiveringwekkende’ de ene keer ‘scenario’ volgt, en een andere keer ‘spiegelpaleis’. Maar een woord als ‘printers’ zal niet volgen.

Dit proces gaat razendsnel, maar wel woord voor woord, door het systeem iedere keer weer het nieuwe woord te voeden en daarop te laten reageren. Het resultaat is een tekst die nog niet eerder is geschreven en waarvan ook niet precies is aan te wijzen waar hij vandaan komt. Vaak gaat het goed, soms slaat het model inhoudelijk de plank mis. Maar over één ding zijn alle experts het wel eens: de chatbots zullen steeds overtuigender worden.

Over de auteur

Laurens Verhagen schrijft voor de Volkskrant over technologie, internet en kunstmatige intelligentie. Daarvoor was hij onder andere hoofdredacteur van nu.nl.

Dragoș uit Roemenië verstaat geen woord Fries

maar zijn computer straks wel. 'Ik wil iets goeds doen voor de Friese taal'

 

dragosMasterstudent Dragoș naast een pompeblêd op de trap van Campus Fryslân in Leeuwarden. Foto: Niels Westra
 
Zelf verstaat de masterstudent aan Campus Fryslân geen woord Fries. Toch traint Dragoș Alexandru Bălan (22) uit Roemenië een computermodel in het herkennen van onze spraak.

„ Goeiedei! ”, zegt de toekomstig onderzoeker in het Friese faculteitsgebouw van de RUG. „ Myn namme is Dragoș. En ik weet ook dat cheers tsjoch is.” Maar daar blijft het bij, want verder spreekt hij alleen Engels en zijn moedertaal Roemeens. Niet gek, want Dragoș, die geboren is in Boekarest, woont nog geen vier jaar in Nederland. Aan de TU Delft studeerde hij eerst informatica en technologie, in Friesland volgt hij nu een Engelstalige vervolgopleiding spraaktechnologie.

‘Ik weet nu dat het nauw verwant is aan Oudengels’

Die is volgens de brochure van Campus Fryslân enig in zijn soort. Op heel het Europese vasteland bestaat de master namelijk alleen in Leeuwarden, waar de Friese taalorganisaties om de hoek liggen. Vandaar dat veel studenten hier hun masterscriptie schrijven over het Fries, een taal waar Dragoș tot voor kort amper wat van wist. „Ik weet nu dat het nauw verwant is aan Oudengels.” Dat het Fries niet overal herkend wordt, is niet alleen voorbehouden aan mensen. Ook computers hebben er last van. Waar gesproken Engels of Nederlands steeds beter automatisch kan worden omgezet naar tekst, ligt dat voor de Friese taal lastiger.

Kunstmatige intelligentie

Dit moet anders, vinden ze bij Campus Fryslân. De kunstmatige intelligentie is immers al zover en daarnaast bestaan er kant-en-klare databases met duizenden uren aan gesproken Fries dankzij het zogeheten FAME!-corpus en het Mozilla Common Voice-project. Aan Dragoș nu de taak om het zelflerende model hiermee te trainen. Dat is een kwestie van draaien aan de virtuele knoppen, prompts invoeren, voorbeeldaudio door het systeem jassen en kijken of de omzetting van het model overeenkomt met de echte tekst. Belangrijk is daarbij de zogeheten word error rate (WER), oftewel het percentage verkeerd begrepen woorden. Het doel is om die ver beneden de 20 te brengen, een cijfer waar bestaande modellen nu nog rond blijven hangen. Hoe hij is terechtgekomen in de wereld van de spraakherkenning? „Op school was ik best goed in wiskunde. Maar al snel ontdekte ik dat ik vooral geïnteresseerd ben in de praktische kant ervan. Daar liggen ook veel carrièrekansen.” Dragoș ziet grote toekomst in de spraaktechnologie. „Het kan worden toegepast om kinderen op school te leren hoe ze Fries moeten schrijven en uitspreken, maar ook om robots te ontwikkelen die ouderen helpen in verzorgingstehuizen.”

‘Ik hou van de fietscultuur in Nederland’

Zijn master loopt tot het einde van dit studiejaar. Of zijn toekomst daarna in Friesland ligt, weet hij niet, maar in Nederland wil hij best nog wel even blijven. „Ik hou van de fietscultuur hier.” Voor nu wil hij vooral iets goeds doen voor de Friese taal. „In deze provincie hebben de mensen hun eigen taal hoog zitten en dat moedigt me heel erg aan. Ik hoop dat mijn werk ertoe bij kan dragen om het Fries te behouden.”

Open faculteitspositie aan de KU Leuven, België

KU Leuven logoJunior professor in Synergistic Processing of Multisensory Data for Audio-Visual Understanding

De Faculteit Ingenieurswetenschappen van de KU Leuven heeft een open positie voor een junior professor (tenure track) op het gebied van audiovisueel begrip. De succesvolle kandidaat zal onderzoek doen naar synergetische verwerking van multisensorische data voor audiovisueel begrip, cursussen geven in de Master Engineering Science en studenten begeleiden in de master- en doctoraatsprogramma's. De kandidaat zal worden ingebed in de onderzoeksafdeling PSI van het departement Elektrotechniek. Meer informatie is beschikbaar op de website van de KU Leuven.

De deadline voor sollicitaties is 29 september 2023.

De KU Leuven streeft naar een diverse omgeving. Ze moedigt kandidaten uit groepen die momenteel ondervertegenwoordigd zijn aan de universiteit uitdrukkelijk aan om te solliciteren.


 

Taal en spraaktechnologie voor het IJslands 2018-2022

ijslandRikiskau - het Center for Language Technology, is van plan om vier Taal- en Spraaktech-tools te gaan ontwikkelen voor het IJslands:

  1. spraakherkenning,
  2. spraaksynthese
  3. automatische vertaalsysteem 
  4. spelling- en grammaticacontrole

plus de taalhulpmiddelen en de ondersteunende tools die nodig zijn voor het maken van die tools.
Hiervoor wil Rikiskaup informatie opvragen bij organisaties die in staat zijn om dergelijke oplossingen (mede) te ontwikkelen.

Hier twee documenten met alle eisen en de te volgen procedure.

iconpdf Projectplan

iconpdf Tender Document


De officiele tekst in het Engels luidt:


40406 – RFI Language Technology for Icelandic

Númer: 40406
Útboðsaðili: Ríkiskaup
Tegund: RFI
Auglýst: 08.03.2019 kl. 00:00
Skilafrestur 22.03.2019 kl. 21:00

Rikiskaup, on behalf of Almannarómur – Center for Language Technology, intends to put up for tender four core-solutions that need to be created; speech recogniser, speech synthesiser, machine translation system and spell and grammar checker, plus the language resources and support tools that are the prerequisite to building those core solutions. To this end, Rikiskaup would like to request information from organisations that have the capability to develop such solutions.

 For further details please refer to http://tendsign.is – https://opic.com/id/afotrkpmxe

 Directions for retreiving tender documents: https://youtu.be/NqraplLEbvU

  1. Beweeglijk Nederlands
  2. NOTaS bijeenkomst bij het LIACS
  3. European Language Grid (ELG) gelanceerd
  4. META-FORUM 2019: Introducing the European Language Grid

Pagina 2 van 5

  • 1
  • 2
  • 3
  • 4
  • 5
Copyright © 2023 NOTaS. Alle rechten voorbehouden.
Joomla! is vrije software uitgegeven onder de GNU/GPL licentie.
  • Login