Limburgs Corpus: databank van Limburgse dialecten

Het Limburgs Corpus

Help mee
... aan onderzoek naar de Limburgse taal en al haar dialecten
... om digitale toepassingen en taaltechnologieën voor het Limburgs te ontwikkelen
... om Limburgs dialectmateriaal duurzaam te bewaren voor de volgende generatie

Wat is een corpus? 

Een corpus is eigenlijk gewoon een verzameling teksten en geluidsopnames in een bepaalde taal, waarin zoveel mogelijk soorten bronnen, genres, en auteurs in opgenomen zijn. In de moderne taalkunde zijn corpora essentieel om taalkundig onderzoek te doen; corpora vormen namelijk een "laboratorium" om een taal te bestuderen.

Zonder een corpus kunnen studenten, onderzoekers, vrijwilligers, beleidsmakers, of bedrijven zo goed als onmogelijk onderzoek doen naar een taal. Ook voor taaltechnologieën en artificiële intelligentie is een corpus nodig om toepassingen voor een taal te ontwikkelen, zoals spraakherkenning, chatbots, of schrijfassistenten.

Voor het Limburgs Corpus streven we ernaar alle Limburgse dialecten, van alle soorten sprekers en schrijvers te verzamelen.

Waarom een corpus voor het Limburgs?

Onderzoek

Er zijn geen degelijke, toegankelijke corpora voor het Limburgs. Verschillende onderzoekers en studenten worden hierdoor gehinderd in hun onderzoek naar de Limburgse dialecten.

Onderwijs

In recente jaren staan cursussen Limburgs in de lift, lesgevers en studenten hebben echter moeite om bronmateriaal te vinden omdat het nergens centraal wordt opgeslagen.

Industrie

Taaltechnologieën ontbreken volledig voor het Limburgs. Spraakherkenning, Google, ChatGPT, etc. kunnen niet omgaan met de Limburgse dialecten. Zelfs een Limburgs accent in het Nederlands verstoort huidige technologieën.

Erfgoed

Er bestaat een overvloed aan dialectwoordenboeken, literatuur, poëzie, privécollecties... maar er lopen geen initiatieven om ze langdurig en duurzaam te bewaren voor de volgende generatie.

Taalbeleid

Nederlands Limburg heeft de ambitie om het Limburgs sterker te beschermen onder deel III van het Europees Handvest voor regionale talen of talen van minderheden. Ook in de Franstalige gemeenschap in België is er een erkenning als minderheidstaal. Om beleidsmakers te informeren, moet het Limburgs breed gedocumenteerd worden.

... en ons onderzoek

Wij willen de komende jaren Artificiële Intelligentie inzetten om het Limburgs digitaal te ondersteunen: denk aan spellingscorrectie en schrijfhulp voor alle dialecten, machinevertaling om Limburgse content te generen, en integratie van Limburgse taaltechnologieën in het onderwijs.

Hoe kan ik bijdragen aan het corpus?

Via het online formulier kan u zelf bestanden toevoegen aan het Limburgs Corpus. U kan volledig automatisch en op uw eigen gemak bestanden uploaden, kiezen waarvoor ze gebruikt mogen worden, en de nodige bijkomende informatie invullen.

Als u veel bestanden in één keer wilt uploaden, of als u liever persoonlijk contact opneemt, kan dat via
andreas.simons@maastrichtuniversity.nl

We zoeken alle soorten materiaal voor het corpus: literatuur, winkelbriefjes in het dialect, woordenboeken, postkaarten, gedichten, geluidsopnames, carnavalsmuziek, etc. Om de taal zo goed en breed mogelijk te documenteren, is het belangrijk dat we alle vormen en gebruik ervan verzamelen.

Veelgestelde vragen

Als u bestanden toevoegt aan het corpus behoudt u in principe alle rechten over uw intellectueel eigendom. Wel kan u ervoor kiezen of u een auteursrechtenlicentie aan ons verleent, hiermee bepaalt u waarvoor uw bestanden gebruikt kunnen worden. Er zijn de volgende opties:

- Geen licentie. Uw gegevens worden intern opgeslagen en worden alleen gedeeld met onderzoekers voor onderzoeksdoeleinden.

- Wetenschappelijk onderzoek en niet-commerciële doeleinden via een Creative Commons Naamsvermelding-NietCommercieel licentie (CC BY-NC 4.0). Het dialectmateriaal, zonder enige identificerende persoonlijke informatie (maar met vermelding van uw naam of een pseudoniem als u dat wenst), mag door ons alleen worden verwerkt en gedeeld voor niet-commerciële activiteiten.

- Wetenschappelijk onderzoek en commerciële doeleinden via een Creative Commons Naamsvermelding licentie (CC BY 4.0). Het dialectmateriaal, zonder enige identificerende persoonlijke informatie (maar met vermelding van uw naam of een pseudoniem als u dat wenst), kan door ons worden verwerkt en gedeeld voor zowel commerciële als niet-commerciële activiteiten.

- Overdragen aan het publieke domein via een CC0 licentie. Het dialectmateriaal, zonder enige identificerende persoonlijke informatie, kan worden verwerkt, gedeeld en gebruikt voor alle activiteiten als u het auteursrecht overdraagt aan het publieke domein, omdat u afstand doet van alle rechten die zijn verbonden aan het materiaal dat u uploadt.

Voorbeelden:
Heeft u een dichtbundel professioneel uitgegeven en u wilt niet dat deze commercieel gebruikt wordt door andere partijen? Dan kiest u best voor Wetenschappelijk onderzoek en niet-commerciële doeleinden (CC BY-NC 4.0). De bundel mag hierdoor gebruikt worden voor wetenschappelijk onderzoek en niet-commerciële doeleinden, inclusief openbaar gereproduceerd, maar steeds met naamvermelding.

Uw heemkundige kring heeft een woordenboek uitgegeven en u wilt deze maximaal verspreiden voor gebruik in onderzoek en onderwijs, maar ook voor taaltechnologieën van commerciële bedrijven? Dan kiest u best voor Wetenschappelijk onderzoek en commerciële doeleinden (CC BY 4.0). Via deze licentie is vermelding van uw naam of pseudoniem steeds verplicht bij gebruik of reproductie.

U heeft enkele uren aan dialectopnames en wilt dat deze gebruikt worden voor onderzoek, maar niet openbaar gedeeld worden. U kiest dan best voor geen licentie. U kan er nog steeds voor kiezen om bedankt te worden voor uw bijdrage via een naam of pseudoniem.


U heeft een doos gevonden van Limburgstalige muziek uit 1750 (waarvan de auteur dus al erg lang dood is) en wilt dat deze zo maximaal mogelijk verspreid wordt. U kiest voor een overdacht aan het publieke domein via een CC0 licentie. U kan er nog steeds voor kiezen om door ons bedankt te worden voor uw bijdrage, maar dit is niet verplicht voor ons en andere partijen en u houdt geen auteursrechten op het werk.

We maken het corpus toegankelijk voor verschillende doelen:

Wetenschappelijk onderzoek:
We verwerken de bestanden van het corpus zodat ze bruikbaar zijn voor taalkundig en computationeel onderzoek (zoals AI). Hiervoor zullen we delen van het corpus, waarvoor we de nodige toestemming hebben, deponeren op websites zoals GitHub/Huggingface en op termijn ook toegankelijk maken via een CLARIN B-center. Ook vormen we een aanspreekpunt voor onderzoekers die aan de slag willen met het Limburgs, en verzorgen we toegang tot de bestanden van het corpus die afgeschermd zijn voor gebruik buiten wetenschappelijk onderzoek. Tenslotte promoten we het gebruik van het Limburgs Corpus door middel van academische publicaties.

Industriële toepassingen:
We onderhouden contacten met lokale en internationale bedrijven die interesse hebben om taaltechnologieën toe te passen op het Limburgs, naast het feit dat de groeiende gemeenschap aan AI- en NLP-developers toegang zullen hebben tot gedeponeerde versies van het corpus op websites zoals GitHub en Huggingface. Momenteel klagen veel developers over de digitale afwezigheid van het Limburgs op zulke platforms.

De gemeenschap:
We engageren ons via enkele geplande projecten om het corpus te integreren in onderwijs en de erfgoedsector. Meer informatie hierover volgt. Op termijn willen we ook het corpus digitaal gemakkelijk aanbieden voor alle geïnteresseerden en vrijwilligers, zodat zij het gemakkelijk digitaal kunnen inkijken als encyclopedie van Limburgs dialectmateriaal.

Dit project is een initiatief van Andreas Simons, onderzoeker aan de Universiteit van Maastricht, onder begeleiding van Leonie Cornips, hoogleraar Taalcultuur in Limburg aan de Universiteit van Maastricht. De start van dit project is mogelijk gemaakt door een subsidie van het Hoes veur 't Limburgs, een kennis- en expertisecentrum voor de Limburgse taal. We werken ook samen met de Limbörgse Academie, die zich al jaren inzet om een corpus voor het Limburgs te verzamelen.

Verschillende vrijwilligers, onderzoekers, en organisaties hebben onschatbare bijdragen geleverd aan dit project en de inhoud van het corpus, om hen te bedanken bouwen we aan een toegewijde pagina op deze website.

Dat klopt, er bestaat niet één Standaardlimburgs, maar een heel landschap aan dialecten. Het doel van dit corpus is om al deze dialecten te documenteren, elk met o.a. hun eigen spelling, klanken, en woordenschat. Het is onze insteek om deze variatie aan dialecten te behouden, en ons eigen onderzoek bestaat eruit om deze variatie te ondersteunen vanuit Artificiële Intelligentie, zonder terug te grijpen naar één standaardtaal.

We kiezen voor de naam Limburgs Corpus omdat "Limburgs" het meest gangbare begrip is, maar beseffen dat deze term niet overal in gebruik is. In Belgisch Limburg is de term "plat" veelvoorkomender dan "Limburgs", en in het aangrenzende deel in Duitsland wordt dit "Platt", vandaar de verschillende benamingen in ons logo. Taalkundig gezien behoren al deze dialecten wel duidelijk tot hetzelfde geheel, omwille van hun gemeenschappelijke basis in woordenschat, klankleer, grammatica, en historische ontwikkeling. Daarom betrekken we alle dialecten gesproken in Belgisch en Nederlands Limburg, de Germaanse dialecten in Luik, en het aangrenzende Rijnland. (Voor dialectologen: eigenlijk het hele gebied tussen de Uerdinger- en Benratherlinies.) Ook dialecten uit naburige gebieden zijn welkom, want taal volgt zelden politieke grenzen. Zo valt bijvoorbeeld het dialect van Tienen niet stereotypisch onder het Limburgs, maar taalkundig gezien is het een twijfelgeval.

Als u iets toevoegt aan het corpus heeft u de mogelijkheid om aan te duiden of we u onder uw echte naam (of een pseudoniem) mogen bedanken, elke keer dat we uw bijdrage reproduceren, gebruiken, of publicaties uitbrengen. Als u kiest voor een CC BY-NC 4.0 of CC BY 4.0 auteursrechtenlicentie, is dit zelfs voor ons en voor iedereen die het corpus gebruikt of reproduceert verplicht.

Wij beseffen dat het Limburgs al decennia wordt gedragen door vrijwilligers die er onschatbare tijd, energie, en middelen hebben ingestoken. We streven er dan ook naar om zo transparent mogelijk u de attributie te geven die u verdient, zelfs als u geen auteursrechtenlicenties verleent. We werken aan een toegewijde pagina op deze website met dankwoord aan iedereen die heeft bijgedragen aan dit corpus. Ook kan u er voor kiezen om op de hoogte gehouden te worden van de vorderingen in dit onderzoek, zo kan u (indien u wenst) in contact blijven.

We kunnen financieel niet tegemoetkomen voor een bijdrage aan het corpus. De financiering van dit onderzoek is moeizaam en we opereren op een erg klein budget. 

Als u niet-digitaal materiaal heeft dat u wilt toevoegen aan het corpus (bv. papieren materiaal zoals dialectwoordenboeken, geschreven brieven, of zelfs LP's) gelieve dan contact met ons op te nemen om uw gegevens achter te laten. Momenteel hebben we namelijk niet de capaciteit om materiaal in te scannen en te digitaliseren, maar we zijn volop bezig om dit wel te voorzien. We nemen spoedig contact met u op zodra we de nodige faciliteiten hebben. In uitzonderlijke of dringende omstandigheden kunnen we wel sommige werken zelf digitaliseren, dit bekijken we samen met u.

Contact | Project gesubsidieerd door het Hoes veur 't Limburgs