Linguistische vingerafdruk

Benieuwd naar wie Q is? 
Linguïsten hebben wel een idee.

(21 april 2022)

shutterstock 2059201925Toen de volkomen onbekende schrijver Robert Galbraith een prachtige novelle schreef, vroeg een krant zich af hoe zo'n debutant met een achtergrond in het leger en de beveiliging toch zo mooi en goed kon schrijven. Met de hulp van linguïstische wetenschappers die zogenaamde forensische stylometry gebruikten, kon de auteurs ware identiteit snel worden achterhaald. Het bleek om de wereldberoemde J.K. Rowling te gaan.

Wat velen niet weten, is dat taalgebruik onderhevig is aan allerlei gewoontes. Zo kun je veelal vaststellen of een stuk tekst native is of niet. Aan bepaalde dingen kun je vaak ook zien uit welk land men dan wel afkomstig is. Sterker, je kunt vaak achterhalen of de auteur een man of vrouw is, en ook in dit geval bleek dat het mannelijk pseudoniem Robert Galbraith te goed bleek te zijn in het beschrijven van vrouwenkleding.

Wat helpt is het hebben van een zogeheten corpus waarvan je ook echt iets weet. Dus bijvoorbeeld boeken van Rowling voor het vergelijken. Of boeken in het Nederlands om te kijken of een andere tekst ook in het Nederlands is gemaakt. De technieken daarvoor zijn velerlei. Woordlengte, woordfrequentie, woordstammen, specifieke woorden of constructies, et cetera. 

Maar het kan nog verfijnder. In sommige talen bestaan bijvoorbeeld geen mannelijke of vrouwelijke voornaamwoorden. Dus een typische fout van iemand met zo'n taalachtergrond zijn opvallend veel fouten op juist dat gebied. Of talen waarin geen lidwoorden bestaan. Als je dan schrijft in een taal die wel lidwoorden bevat, zal de foutfrequentie voor lidwoorden hoger zijn en dat duidt op mensen uit zo'n taalgebied.

Voor het automatisch detecteren van taal is een algemene techniek het gebruik van het zip-programma. Bijvoorbeeld, je wilt van honderdduizenden bestanden weten welke in het Nederlands en welke in het Engels zijn geschreven. Ze allemaal lezen is natuurlijk geen optie. Je neemt dan twee grote teksten waarvan je al weet dat ze in het Engels het Nederlands zijn. Die zip je en je kijkt hoe veel bytes je dan over hebt. Zip werkt onder andere met duplicate string elimination. Dus bij herhalende data wordt een referentie naar het eerste voorkomen gegeven, en zo wordt een tekst korter. Als je nu een onbekende tekst zipt met zowel de Engelse als Nederlandse tekst, en je kijkt naar de nieuwe gecomprimeerde omvang, dan zal als de tekst Nederlands is, de omvang van de gecombineerde zip veel kleiner zijn dan de omvang in combinatie met de Engelse tekst. Immers bij het combineren van Engels en Nederlands is veel minder herhaling, dus zal de compressie minder effectief zijn hetgeen zich uit in minder compressie. En bij het comprimeren van Nederlands en Nederlands, is de herhaling groter, dus zal die zip kleiner zijn.

Meer en meer stemmen gaan op om anoniem nepnieuws tegen te gaan. En met behulp van linguïstische wetenschap kunnen we mogelijk de identiteit van auteurs achterhalen. Benieuwd wie Q bijvoorbeeld is? Linguïsten uit Frankrijk en Zwitserland hebben wel een idee

Dit artikel verscheen oorspronkelijk hier.

 

Arjan

Spraak technologie en video samenwerking naar de maan

door: Witold Kepinski 

callisto orion 1920

Lockheed Martin, Amazon en Cisco werken samen om unieke mens-machine-interfacetechnologieën te integreren in NASA's Orion - ruimtevaartuig, wat een kans biedt om te leren hoe toekomstige astronauten kunnen profiteren van far-field spraaktechnologie, AI en op tablets gebaseerde videosamenwerking.

De Callisto-technologiedemonstratie zal worden geïntegreerd in NASA's Orion-ruimtevaartuig voor de onbemande Artemis I-missie van het bureau rond de maan en terug naar de aarde. Callisto gebruikt Amazon Alexa en Webex van Cisco om commerciële technologie voor spraak-, video- en whiteboardcommunicatie in de ruimte te testen en te demonstreren. Lockheed Martin, die het Orion-ruimtevaartuig voor NASA heeft ontworpen en gebouwd, leidt de ontwikkeling en integratie van de payload.

"Callisto zal een unieke technologie demonstreren die in de toekomst zou kunnen worden gebruikt om astronauten in staat te stellen zelfredzamer te zijn terwijl ze de verre ruimte verkennen", zegt Lisa Callahan, vice-president en algemeen directeur van Commercial Civil Space voor Lockheed Martin. "Callisto is een lichtend voorbeeld van hoe nieuwe partnerschappen met commerciële technologieën op Orion kunnen worden gevlogen om toekomstige menselijke diepe ruimtemissies ten goede te komen."

260px Jupiter and Kallisto by Francois BoucherCallisto en haar zoon Arcas Callisto is vernoemd naar een favoriete metgezel van de Griekse godin Artemis.
De payload bevat een aangepaste hardware- en software-integratie ontwikkeld door ingenieurs van Lockheed Martin, Amazon en Cisco, en omvat innovatieve technologie waarmee Alexa kan werken zonder internetverbinding, en Webex om op een tablet te draaien met behulp van NASA's Deep Space Network.

"De Star Trek-computer maakte deel uit van onze oorspronkelijke inspiratie voor Alexa, dus het is opwindend en nederig om onze visie voor ambient intelligence tot leven te zien komen aan boord van de Orion", zegt Aaron Rubenson, vice-president van Amazon Alexa. "We zijn er trots op samen te werken met Lockheed Martin om de grenzen van spraaktechnologie en AI te verleggen, en we hopen dat Alexa's rol in de missie toekomstige wetenschappers, astronauten en ingenieurs zal inspireren die dit volgende tijdperk van ruimteverkenning zullen bepalen."

Omdat Artemis I een onbemande missie is, hebben Callisto-partners met NASA samengewerkt om een virtuele bemanningservaring op te bouwen in NASA's Johnson Space Center in Houston, waardoor operators met Callisto kunnen communiceren vanuit het Mission Control Center. Deze interacties op afstand zullen testen en demonstreren hoe spraak- en videosamenwerkingstechnologieën astronauten kunnen helpen de efficiëntie en situationeel bewustzijn tijdens hun missie te verbeteren, door toegang te bieden tot vluchtstatus en telemetrie, en de mogelijkheid om verbonden apparaten aan boord van de Orion te bedienen. Video en audio van de interacties zullen tijdens de Artemis I-missie vele malen naar de aarde worden teruggestuurd, waardoor ingenieurs de prestaties van de systemen aan boord kunnen analyseren en tegelijkertijd interacties met het publiek kunnen delen.

"De toekomst van technologie gaat over het ontsteken van menselijk potentieel, waar en wanneer dat ook mag zijn - en dat zal binnenkort tot in de diepten van de ruimte worden uitgebreid", zegt Jeetu Patel, executive vice president en general manager van Security and Collaboration bij Cisco. “Via Callisto maakt Webex grenzeloze videocommunicatie en samenwerking in de verre ruimte mogelijk en helpt het de volgende generatie te voorzien van inclusieve en meeslepende technologie. Deze eerste-van-zijn-soort oplossing zou ooit toekomstige bemande missies kunnen ondersteunen, door face-to-face interactie te bieden tussen bemanning, commandocentrum en dierbaren.”

De technologiedemonstratie van Callisto zal studenten, gezinnen, ruimteliefhebbers en het grote publiek ook in staat stellen deel te nemen aan en virtueel "mee te rijden" met de Artemis I-missie. Ze kunnen de missie volgen op Alexa-compatibele apparaten door te zeggen "Alexa, breng me naar de maan", en de Webex-mogelijkheden voor videosamenwerking zullen kansen bieden voor STEM-onderwijs en onderwijsevenementen op afstand.

Artemis I is momenteel gepland voor begin 2022 vanuit NASA's Kennedy Space Center in Cape Canaveral, Florida, voor een reis van meerdere weken rond de maan en terug. Artemis I zal de basis vormen voor toekomstige bemande missies naar de maan en de verre ruimte en maakt deel uit van NASA's doel om de eerste vrouw en eerste persoon van kleur op het maanoppervlak te laten landen.

Bezoek http://www.lockheedmartin.com/callisto voor meer informatie over de Callisto-technologiedemonstratie.

Dit artikel verscheen oorspronkelijk op Dutch IT channel

Liplezen levert verbetering van spraakherkenning

plaatjeDe huidige systemen om gesproken teksten om te zetten in uitgeschreven teksten, maken doorgaans alleen gebruik van audio-opnames. Eigenlijk is dat gek want mensen gebruiken vaak de bewegingen van de mond van een gesprekspartner om te begrijpen wat iemand zegt.

Dat laatste gegeven heeft Meta - het moederbedrijf van Facebook - als uitgangspunt genomen voor het systeem Audio-Visual Hidden Unit BERT (AV-HuBERT). Het bedrijf claimt door het systeem te laten liplezen tot wel 75% betere transcripties te komen. Vooral in situaties waar achtergrondgeluiden een rol spelen, zoals op een feestje of buiten op een markt, bewijst de gecombineerde aanpak zijn voordelen.

Het voordeel van AV-HuBERT is bovendien dat het maar een tiende van de gelabelde data nodig heeft om te trainen ten opzichte van eerdere AV-spraakherkenningssystemen. Dat biedt veel kansen voor het gebruik bij talen waarvan niet zoveel gelabelde audiofragmenten beschikbaar zijn, meldt Venturebeat.

 

Het gehele artikel staat hier.

 

Whatsapp gaat goed, Instagram is lastiger

Dixit 2018Nu de wereld digitaliseert, zijn er ook steeds meer bedrijven die de technieken toegankelijk maken voor blinden en slechtzienden. Al is het nog best lastig geld verdienen met zo’n kleine doelgroep.
Op 7 oktober jl. stond er een artikel in NRC Handelsblad over technieken voor blinden en slechtzienden, met een interview met Jesse Wienholts. Jesse vertelde al eerder over zijn ervaringen in de DIXIT van 2018 (blz. 9).

 

 

DRONGO talenfestival: Lezen verliest zijn dominantie, maar niet zijn belang.

impact lezen¿LEZEN! is het thema van het DRONGO talenfestival op 2 en 3 oktober. Met een uitroepteken én een vraagteken. Want wie het veld van ontlezing, laaggeletterdheid en leesonderwijs overziet, ontkomt niet aan de vraag waaróm het zo slecht gaat met lezen in Nederland. Tientallen organisaties en duizenden mensen zetten zich vol passie in om dat tij te keren. Ís boeken lezen wel zo belangrijk voor nieuwe generaties, nu er zoveel andere kanalen beschikbaar zijn om verhalen en informatie te delen? Is de crisis in het boekenvak grotendeels aan de boekenwereld zelf te danken?

dc Het festival laat zien dat de oplossingen voor de leescrisis voor het oprapen liggen. In tientallen online presentaties en webinars kan de bezoeker kennis maken met recent onderzoek, nieuwe initiatieven en leermethoden. De Britse taalkundige David Crystal bespreekt met de bezoekers hoe leesontwikkeling samenhangt met de taalontwikkeling van jonge kinderen. Ook de wereldberoemde taalpsycholoog en schrijver Steven Pinker maakt zijn opwachting met een interactieve sessie over wat de cognitieve wetenschap ons leert over goed schrijven. Verder bevat het programma diverse presentaties over hoe kinderen aan het lezen te krijgen, is er aandacht voor laaggeletterdheid, technologie en taal, de breedte van het taal- en leesspectrum en biedt het een overzicht van de vele taal- en leesactiviteiten die worden ingezet door de verschillende organisaties. sp
hdb In vier live talkshows bespreekt Hadassah de Boer de ontwikkelingen met een reeks aansprekende gasten. Moeten we misschien de nadruk op lezen loslaten, om het lezen te laten overleven?  
PC  Paulien Cornelisse vertelt over haar dagelijkse worstelingen met het Japanse schrift, waarin zij zich een laaggeletterde voelt. Laaggeletterdheidsprofessor Maurice de Greef presenteert de bevindingen van nieuw Europees onderzoek naar de beste manier om laaggeletterden te bereiken. Mohammed Benzakour belicht de kloof tussen de hoog- en de laaggeletterde.  Lidewijde Paris (De Leesambassade), Lev Avitan (Mensen Zeggen Dingen) Gerlien van Dalen (directeur van Stichting Lezen) en Ruth de Jager (Storytel) gaan met elkaar in gesprek over hoe de ontlezing tegen te gaan. Is het luisterboek een impuls voor de literatuur, voor het lezen? Over het lees- en literatuuronderwijs spreken onder andere Bas Steman (‘Lekker Boekie’), Matijs Lips (leraar Nederlands van het jaar 2019), Thoni Houtveen (leesexpert), en Maud Vanhauwaert (voormalig stadsdichter van Antwerpen).  
avd Adriaan van Dis en Özcan Akyol bevragen elkaar in de slotsessie openhartig. Waar vroeger generaties zichzelf door boeken konden ontdekken en herkennen, is volgens van Dis die rol tegenwoordig niet meer uitsluitend het domein van de literatuur. Akyol vindt dat de literatuur en de elitaire bubbel dringend toe is aan vernieuwing. Er wordt volgens de heren over lezen net zoveel gelogen als over seks. Lezen verliest dus misschien zijn dominantie, maar niet zijn belang. ÖA

Het festival wordt dit jaar voor de 9e keer georganiseerd, en wordt vanwege Covid-19 geheel online gehouden op www.drongotalenfestival.nl. Een deel van het programma wordt op 2 en 3 oktober gelivestreamd, er worden live webinars gehouden, en verder bied het festival een keur aan van tevoren opgenomen programmaonderdelen. Deelname aan het festival is gratis, registeren kan op www.drongotalenfestval.nl