(Only available in Dutch.)

Een warme CLIN op het koudste plekje op aarde

Wie zich bezighoudt met computerlinguïstiek kon zijn hart ophalen tijdens de 24e bijeenkomst van 'Computational Linguistics in the Netherlands' (CLIN) in Leiden. In het Kamerlingh Onnes Gebouw (KOG) konden de meer dan 170 deelnemers – een record – kiezen uit 60 presentaties verdeeld over 15 sessies. Er waren 30 posterpresentaties tijdens de lunchpauze. Speciaal voor de geïnteresseerden in (computationele) lexicologie stonden twee hoofdsprekers en een lexicologiesessie op het programma. Patrick Hanks (University of Wolverhampton en University of the West of England) sprak over 'a corpus-driven approach to Lexis and Meaning' en Dirk Geeraerts (KU Leuven) over 'big data and the dictionary'. Het bedrijfsleven en praktische toepassingen van computerlinguïstiek kregen aandacht via twee industriesessies en stands tijdens de lunchpauze.

De dag startte met volle zalen en dus ruime belangstelling voor de sprekers. Een uitgevallen presentatie en een laat arriverende spreker droegen bij aan deze gezellige drukte. De eerste sessies verliepen volgens de sessievoorzitters vlotjes. Er ontstonden interessante discussies, zoals over hoe moeilijk het kan zijn andermans onderzoeksresultaten te reproduceren. Meteen bleek ook dat CLIN internationale allure heeft, gezien de grote variatie in onderzochte talen (zoals Nederlands, Engels, Spaans en Hebreeuws) en nationaliteiten van sprekers (uit bijvoorbeeld Nederland, België, Griekenland en Iran) in deze sessies.

Martin Everaert (INL) en Geert Joris (Nederlandse Taalunie) openden de dag officieel, waarbij Everaert onder andere stilstond bij de rijke historie van het KOG – een tijdlang 'het koudste plekje op aarde' – en de beroemde onderzoekers die er werkten, zoals Einstein, Kamerlingh Onnes en Bohr. Joris nodigde de aanwezigen uit de kansen te grijpen die het nieuwe beleid van de Taalunie biedt: 'taal schept kansen'.

Op hoofdspreker Hanks volgde een verrassing: de lancering van het Corpus Hedendaags Nederlands van het INL (chn.inl.nl). In de zoekomgeving kan gezocht worden in meer dan 800.000 teksten uit kranten, tijdschriften, journaaluitzendingen en juridisch materiaal, vanaf 1814 tot 2013. De toegang tot dit corpus verloopt via de Europese CLARIN-infrastructuur.

Over de lunch waren ook de Vlaamse deelnemers goed te spreken: geen Hollandse broodjes kaas met karnemelk. De lunchpauze met postersessie en het bezoeken van de stands vond plaats in een door posterborden afgeschermd gedeelte van het bedrijfsrestaurant van het KOG, wat bijdroeg aan de gezellige sfeer.

De sessievoorzitters van de tweede serie sessies rapporteerden aangenaam gevulde zalen en voldoende interactie tussen sprekers en publiek. In de sessie 'Machine Translation I' ontstond een discussie tussen mensen uit het publiek over hoe de evaluatiemethodiek uit het eerste praatje gebruikt kon worden in de systemen uit de volgende praatjes en enige discussie over toepassingen voor de techniek uit het derde praatje.

In de tweede plenaire sessie werd bekend gemaakt dat de prijs van de Stichting Toegepaste Inductieve Leertechnieken (STIL) voor de beste masterscriptie op het gebied van computerlinguïstiek was gewonnen door Greet Olaerts van de KU Leuven. Ze won de STIL-prijs met haar scriptie 'My Text Meets Wikipedia'. Een presentatie over haar werk volgde even later, in de sessie 'Machine Translation II & NER'. Deze presentatie werd door haar begeleider Yvan Vulic verzorgd.

Hoe interessant de bijdrage van de tweede hoofdspreker Dirk Geeraerts ook was, van zijn lezing zal bij menigeen vooral het woord 'frietkot' zijn blijven hangen. Het Belgische frietkot werd in de weken voor CLIN erkend als cultureel erfgoed en door Geeraerts als voorbeeld gebruikt.

De derde serie sessies leerde ons hoeveel computers eigenlijk al weten over (het gedrag van) mensen en hoe nuttig dat kan zijn als je bijvoorbeeld sneller wilt tweeten zoals je gebekt bent of als je op zoek bent naar een leuk evenement. De analyse van tweets bevestigt ook rolpatronen: mannen hebben het over voetbal en vrouwen over make-up. Dat CLIN een intensieve dag was, bevestigde ook het stukgaan van de beamer in de sessie 'Industry Track II'. Hierdoor moest worden uitgeweken naar een zaal dieper in het KOG. De wandeling daarnaartoe werd gebruikt voor het stellen van vragen aan Rouven Röhrig, die zich ondanks dat het zijn eerste conferentie was knap herstelde van het stukgaan van de beamer. Tijdens de wandeling terug konden de deelnemers aan de sessie letterlijk en figuurlijk stilstaan bij plaquettes die bevestigen wat Everaert eerder over de historie van het KOG had verteld.

De presentatie over 'Named Entity Recognition and Resolution for Literary Studies' in de sessie 'Machine Translation II & NER' kreeg zo veel reacties en vragen, dat er nog tijdens de afsluitende borrel over werd gepraat. Tijdens die borrel kondigde Walter Daelemans aan dat de 25e CLIN in Antwerpen zal plaatsvinden en dat we daar onder andere kunnen rekenen op feestelijke chocoladefonteinen.

CLIN werd georganiseerd door het Instituut voor Nederlandse Lexicologie (INL) en de Centrale voor Taal- en Spraaktechnologie (TST-Centrale). Het INL is de plek voor iedereen die iets wil weten over woorden, hun spelling, vorm, betekenis of gebruik door de eeuwen heen. De TST-Centrale is het kennis- en distributiecentrum voor Nederlandstalige tekstverzamelingen, woordenlijsten, wetenschappelijke woordenboeken, spraakcorpora en taal- en spraaktechnologische software.

CLIN werd mede mogelijk gemaakt door gouden sponsor Nederlandse Taalunie, zilveren sponsor CLARIN-NL en de bronzen sponsoren Appen, Centric, DANS, GridLine, NOTaS, Telecats en Textkernel.