NOTaS in Leiden

Vrijdag de 13de: je zou denken dat er wellicht een andere datum gekozen had kunnen worden voor de deelnemersbijeenkomst in Leiden bij het Instituut voor de Nederlandse Taal (INT). Maar…..het bleek allemaal mee te vallen. Enige “ongeluk” bleek de afwezigheid door ziekte van een van de beoogde sprekers: Dirk De Hertog van KU Leuven, Edulab.

Ondanks het labyrintische gebouw bleek iedereen toch de juiste zaal te kunnen vinden alwaar NOTaS-voorzitter Staffan om 10:15 de bijeenkomst opende.

INT

frieda

Daarna hield de directeur van het INT Frieda Steurs een indrukwekkend verhaal over alle data die het INT heeft en beschikbaar stelt. Dat het INT veel heeft was wel bekend maar toch werd ik aangenaam verrast. Niet alleen bleek dat heel veel gewoon online beschikbaar is, maar ook dat het INT ernaar streeft om zoveel mogelijk ook via API’s toegankelijk te maken. Het INT is tegenwoordig ook een CLARIN-B-center hetgeen inhoudt dat veel materiaal op een min-of-meer gestandaardiseerde wijze beschikbaar is voor onderzoekers en andere geïnteresseerden.

Dat houdt in dat binnen afzienbare tijd we bv. woordenlijsten, werkwoordsvormen en andere zaken gewoon via onze eigen software kunnen benaderen.

ANWEen mooi voorbeeld is het ANW: het grootste woordenboek ter wereld. Nu kun je daar een woord per keer opzoeken, maar straks kun je vanuit je eigen software ieder woord direct opzoeken. Ook woordenlijst.org mag genoemd worden als de plaats waar de correcte spelling van het Nederlands wordt aangeboden en waarvan het Groene Boekje een uittreksel bevat. En er was nog veel meer. De PowerPoint van Frieda’s verhaal kan hier bekeken worden.

CLARIN/CLARIAH

jan notas

Daarna was Jan Odijk, directeur CLARIAH-NL, aan de beurt om een overzicht te geven van al het materiaal dat via de verschillende CLARIN-centers in binnen en buitenland beschikbaar is. Ook hier weer een enorme hoeveelheid data en tools die niet alleen voor onderzoekers, maar ook voor TST-bedrijven beschikbaar zijn. Met name de NER-tool die Jan liet zien, maakte mij nieuwsgierig: zou het lukken om die vanuit onze (Telecats) software rechtstreeks aan te spreken?
De presentatie van Jan Odijk, inclusief allerlei links, staat hier.

Koffie

Na de koffie was eigenlijk de beurt aan Dirk De Hertog, maar die was er dus niet. Frieda nam het op zich om zijn verhaal te vertellen: powerpoint-karaoke :-). Een mooi overzicht van de mogelijkheden in Vlaanderen (en vooral in en rondom Kortrijk en Leuven) voor startups om iets te doen met Taal- en Spraaktechnologie. Veel van de aanwezigen waren hier zo enthousiast over dat besloten werd te onderzoeken of we een volgende bijeenkomst misschien daar in Leuven zouden kunnen houden. De door Frieda gegeven presentatie van Dirk staat hier.
Wordt vervolgd.

Discussie

Het laatste deel van de bijeenkomst was bedoeld voor discussie over het aanbod van data en tools. De openingszet kwam van Inge de Mönnink van Dedicon. Zij merkte het volgende op:

  • Data is niet of lastig te vinden, niet te bereiken, dikwijls niet goed genoeg voor de toepassing (slechts bruikbaar als startpunt) of domweg te duur om mee aan de slag te gaan als bedrijf.
  • Voor de tools geldt hetzelfde, maar die zijn bovendien onvoldoende gestandaardiseerd en gedocumenteerd voor gebruik door derden. Die derden zijn niet alleen bedrijven, maar ook andere onderzoekers.

Dit is doodzonde, gezien de rijke variatie aan materialen en tools die beschikbaar zijn. Dus áls het een doel is van de instellingen en projecten zoals het INT, CLARIAH en CLARIN-EU om materialen en tools ruim beschikbaar te stellen, expliciet ook aan bedrijven, dan moet komende jaren vooral aandacht zijn voor het verbeteren van deze genoemde punten.

Veel van de aanwezigen hadden een gelijksoortige ervaring (o.a. Telecats met SPRAAK, de KU Leuven spraakherkenner). Anderen betoogden dat het ook niet de taak van het INT/CLARIAH is om “kant-en-klare” software aan te bieden. Het zijn tenslotte geen softwareontwikkelaars!

Maar….. er was toch wel de wens van veel aanwezigen dat de software en data die beschikbaar zijn, door anderen gebruikt kunnen/gaan worden. Voor de bedrijven is het gaaf om de geavanceerde spullen te gebruiken, en voor de “leveranciers” is het goed als zij hun financiers kunnen laten zien dat het gebruikt wordt. Om een en ander te stimuleren zal er onder leiding van Catia Cucchiarini met een ter plekke geformeerde werkgroep een vervolgbijeenkomst georganiseerd worden waarin experts informatie geven over het gebruik van de verschillende data en tools en waarbij de aanwezigen concreet aan de slag gaan met beschikbare resources: een hands-on workshop!
Zo kan men ervaring opdoen met de mogelijkheden en onmogelijkheden. Ter voorbereiding zal aan bedrijven en kennisinstellingen gevraagd worden welke waar zij precies behoefte aan hebben
.

Conclusie

Het onderwerp van de NOTaS bijeenkomst “Data en Tools bij het INT en CLARIAH” was wellicht niet de meest aansprekende, maar het was wel een zeer interessante bijeenkomst. Er werd veel nieuws gebracht en het onderwerp leefde bij veel van de aanwezigen zoals de verhitte discussie duidelijk maakte. Als instellingen als het INT en programma’s als CLARIAH er in zouden slagen de documentatie van hun resources/tools sterk te verbeteren en aansprekende demonstraties zouden maken om te laten zien hoe men bv de software zou kunnen gebruiken, dan zou het gebruik ervan beslist gaan stijgen.