Instituut voor Nederlandse Lexicologie

Het INL staat voor Instituut voor Nederlandse Lexicologie. Het is de plek voor iedereen die iets wil weten over woorden, hun spelling, vorm, betekenis of gebruik door de eeuwen heen.

Het INL verzamelt en beschrijft de Nederlandse taal- en woordenschat van de 6de eeuw tot het heden. Daartoe horen ook alle nieuwe woorden van de Nederlandse taal: van 06-dealer tot weeralarm en van deeltijd-WW tot triobaan.

Het INL biedt toegang tot een grote kennisbank van de Nederlandse taal: de Taalbank Nederlands. Deze kennisbank geeft een uitvoerige beschrijving  van 15 eeuwen woordenschat. 

Hierbij zal Katrien ook aandacht besteden aan het IMPACT-project (IMProving ACcess to Text) en de open source software BlackLab en MBMP (Memory Based Morphological Parser) welke het INL beschikbaar maakt en wat de ontwikkelingen hier in zijn?

IMPACT is een Europees project dat online historische teksten toegankelijker maakt. Daarvoor optimaliseren we de kwaliteit van het digitaliseren en de zoekmethodes in historische teksten.

De resultaten

De projectresultaten kunt u in verschillende vormen op de website bekijken van het IMPACT Centre of Competence. Hieronder vindt u een aantal interessante links naar o.a. de tools, lexica en de kennisbank. Deze zijn gericht op zowel projectleiders als wetenschappers.

Open Source

Het INL stelt haar ontwikkelde software en computerlinguïstische tools als open source beschikbaar.

BlackLab

BlackLab is een corpuszoeksysteem op basis van Apache Lucene. Deze technologie maakt snelle, complexe zoekacties mogelijk binnen omvangrijke, geannoteerde tekstverzamelingen in onze historische en hedendaagse tekstcorpora. De zoekresultaten in de tekst worden gemarkeerd weergegeven. Onze corpora zullen we met behulp van dit zoeksysteem ontsluiten. Het Corpus Gysseling kunt u hier al in bètaversie bekijken.

MBMP (Memory Based Morphological Parser)

MBMP is een geheugengebaseerde morfologische parser voor de programmeertaal Python. Met deze parser worden woorden voorzien van een morfologische analyse. Zoals de onderverdeling van een woord in morfemen, de toekenning van PoS-tags aan de morfemen van een woord of een complete hiërarchische analyse. Daarnaast biedt het pakket de functionaliteit van een generieke geheugengebaseerde classificeerder. Deze tool ontwikkelden we ten behoeve van de morfologische component van GiGaNT.

Katrien Depuydt is Hoofd Taalbank Nederlands bij het Instituut voor Nederlandse Lexicologie