Limburgs Corpus: databank van Limburgse dialecten

Hoe zit het met auteursrechten als ik iets toevoeg aan het corpus?

Als u bestanden toevoegt aan het corpus behoudt u in principe alle rechten over uw intellectueel eigendom. Wel kan u ervoor kiezen of u een auteursrechtenlicentie aan ons verleent, hiermee bepaalt u waarvoor uw bestanden gebruikt kunnen worden. Er zijn de volgende opties:

- Geen licentie. Uw gegevens worden intern opgeslagen en worden alleen gedeeld met onderzoekers voor onderzoeksdoeleinden.

- Wetenschappelijk onderzoek en niet-commerciële doeleinden via een Creative Commons Naamsvermelding-NietCommercieel licentie (CC BY-NC 4.0). Het dialectmateriaal, zonder enige identificerende persoonlijke informatie (maar met vermelding van uw naam of een pseudoniem als u dat wenst), mag door ons alleen worden verwerkt en gedeeld voor niet-commerciële activiteiten.

- Wetenschappelijk onderzoek en commerciële doeleinden via een Creative Commons Naamsvermelding licentie (CC BY 4.0). Het dialectmateriaal, zonder enige identificerende persoonlijke informatie (maar met vermelding van uw naam of een pseudoniem als u dat wenst), kan door ons worden verwerkt en gedeeld voor zowel commerciële als niet-commerciële activiteiten.

- Overdragen aan het publieke domein via een CC0 licentie. Het dialectmateriaal, zonder enige identificerende persoonlijke informatie, kan worden verwerkt, gedeeld en gebruikt voor alle activiteiten als u het auteursrecht overdraagt aan het publieke domein, omdat u afstand doet van alle rechten die zijn verbonden aan het materiaal dat u uploadt.

Voorbeelden:
Heeft u een dichtbundel professioneel uitgegeven en u wilt niet dat deze commercieel gebruikt wordt door andere partijen? Dan kiest u best voor Wetenschappelijk onderzoek en niet-commerciële doeleinden (CC BY-NC 4.0). De bundel mag hierdoor gebruikt worden voor wetenschappelijk onderzoek en niet-commerciële doeleinden, inclusief openbaar gereproduceerd, maar steeds met naamvermelding.

Uw heemkundige kring heeft een woordenboek uitgegeven en u wilt deze maximaal verspreiden voor gebruik in onderzoek en onderwijs, maar ook voor taaltechnologieën van commerciële bedrijven? Dan kiest u best voor Wetenschappelijk onderzoek en commerciële doeleinden (CC BY 4.0). Via deze licentie is vermelding van uw naam of pseudoniem steeds verplicht bij gebruik of reproductie.

U heeft enkele uren aan dialectopnames en wilt dat deze gebruikt worden voor onderzoek, maar niet openbaar gedeeld worden. U kiest dan best voor geen licentie. U kan er nog steeds voor kiezen om bedankt te worden voor uw bijdrage via een naam of pseudoniem.

U heeft een doos gevonden van Limburgstalige muziek uit 1750 (waarvan de auteur dus al erg lang dood is) en wilt dat deze zo maximaal mogelijk verspreid wordt. U kiest voor een overdacht aan het publieke domein via een CC0 licentie. U kan er nog steeds voor kiezen om door ons bedankt te worden voor uw bijdrage, maar dit is niet verplicht voor ons en andere partijen en u houdt geen auteursrechten op het werk.

Hoe gaan jullie het corpus toegankelijk maken?

We maken het corpus toegankelijk voor verschillende doelen:

Wetenschappelijk onderzoek:
We verwerken de bestanden van het corpus zodat ze bruikbaar zijn voor taalkundig en computationeel onderzoek (zoals AI). Hiervoor zullen we delen van het corpus, waarvoor we de nodige toestemming hebben, deponeren op websites zoals GitHub/Huggingface en op termijn ook toegankelijk maken via een CLARIN B-center. Ook vormen we een aanspreekpunt voor onderzoekers die aan de slag willen met het Limburgs, en verzorgen we toegang tot de bestanden van het corpus die afgeschermd zijn voor gebruik buiten wetenschappelijk onderzoek. Tenslotte promoten we het gebruik van het Limburgs Corpus door middel van academische publicaties.

Industriële toepassingen:
We onderhouden contacten met lokale en internationale bedrijven die interesse hebben om taaltechnologieën toe te passen op het Limburgs, naast het feit dat de groeiende gemeenschap aan AI- en NLP-developers toegang zullen hebben tot gedeponeerde versies van het corpus op websites zoals GitHub en Huggingface. Momenteel klagen veel developers over de digitale afwezigheid van het Limburgs op zulke platforms.

De gemeenschap:
We engageren ons via enkele geplande projecten om het corpus te integreren in onderwijs en de erfgoedsector. Meer informatie hierover volgt. Op termijn willen we ook het corpus digitaal gemakkelijk aanbieden voor alle geïnteresseerden en vrijwilligers, zodat zij het gemakkelijk digitaal kunnen inkijken als encyclopedie van Limburgs dialectmateriaal.

Wie zit er achter dit project?

Dit project is een initiatief van Andreas Simons, onderzoeker aan de Universiteit van Maastricht, onder begeleiding van Leonie Cornips, hoogleraar Taalcultuur in Limburg aan de Universiteit van Maastricht. De start van dit project is mogelijk gemaakt door een subsidie van het Hoes veur 't Limburgs, een kennis- en expertisecentrum voor de Limburgse taal.

Verschillende vrijwilligers, onderzoekers, en organisaties hebben onschatbare bijdragen geleverd aan dit project en de inhoud van het corpus, om hen te bedanken bouwen we aan een toegewijde pagina op deze website.

"Limburgs" corpus? Er bestaat toch niet één Limburgs?

Dat klopt, er bestaat niet één Standaardlimburgs, maar een heel landschap aan dialecten. Het doel van dit corpus is om al deze dialecten te documenteren, elk met o.a. hun eigen spelling, klanken, en woordenschat. Het is onze insteek om deze variatie aan dialecten te behouden, en ons eigen onderzoek bestaat eruit om deze variatie te ondersteunen vanuit Artificiële Intelligentie, zonder terug te grijpen naar één standaardtaal.

We kiezen voor de naam Limburgs Corpus omdat "Limburgs" het meest gangbare begrip is, maar beseffen dat deze term niet overal in gebruik is. In Belgisch Limburg is de term "plat" veelvoorkomender dan "Limburgs", en in het aangrenzende deel in Duitsland wordt dit "Platt", vandaar de verschillende benamingen in ons logo. Taalkundig gezien behoren al deze dialecten wel duidelijk tot hetzelfde geheel, omwille van hun gemeenschappelijke basis in woordenschat, klankleer, grammatica, en historische ontwikkeling. Daarom betrekken we alle dialecten gesproken in Belgisch en Nederlands Limburg, de Germaanse dialecten in Luik, en het aangrenzende Rijnland. (Voor dialectologen: eigenlijk het hele gebied tussen de Uerdinger- en Benratherlinies.) Ook dialecten uit naburige gebieden zijn welkom, want taal volgt zelden politieke grenzen. Zo valt bijvoorbeeld het dialect van Tienen niet stereotypisch onder het Limburgs, maar taalkundig gezien is het een twijfelgeval.

Word ik beloond of bedankt als ik iets toevoeg aan het corpus?

Als u iets toevoegt aan het corpus heeft u de mogelijkheid om aan te duiden of we u onder uw echte naam (of een pseudoniem) mogen bedanken, elke keer dat we uw bijdrage reproduceren, gebruiken, of publicaties uitbrengen. Als u kiest voor een CC BY-NC 4.0 of CC BY 4.0 auteursrechtenlicentie, is dit zelfs voor ons en voor iedereen die het corpus gebruikt of reproduceert verplicht.

Wij beseffen dat het Limburgs al decennia wordt gedragen door vrijwilligers die er onschatbare tijd, energie, en middelen hebben ingestoken. We streven er dan ook naar om zo transparent mogelijk u de attributie te geven die u verdient, zelfs als u geen auteursrechtenlicenties verleent. We werken aan een toegewijde pagina op deze website met dankwoord aan iedereen die heeft bijgedragen aan dit corpus. Ook kan u er voor kiezen om op de hoogte gehouden te worden van de vorderingen in dit onderzoek, zo kan u (indien u wenst) in contact blijven.

We kunnen financieel niet tegemoetkomen voor een bijdrage aan het corpus. De financiering van dit onderzoek is moeizaam en we opereren op een erg klein budget.

Hoe voeg ik iets toe dat niet digitaal beschikbaar is?

Als u niet-digitaal materiaal heeft dat u wilt toevoegen aan het corpus (bv. papieren materiaal zoals dialectwoordenboeken, geschreven brieven, of zelfs LP's) gelieve dan contact met ons op te nemen om uw gegevens achter te laten. Momenteel hebben we namelijk niet de capaciteit om materiaal in te scannen en te digitaliseren, maar we zijn volop bezig om dit wel te voorzien. We nemen spoedig contact met u op zodra we de nodige faciliteiten hebben. In uitzonderlijke of dringende omstandigheden kunnen we wel sommige werken zelf digitaliseren, dit bekijken we samen met u.

Het Limburgs Corpus

Wat is een corpus?

Waarom een corpus voor het Limburgs?

Onderzoek

Onderwijs

Industrie

Erfgoed

Taalbeleid

... en ons onderzoek

Hoe kan ik bijdragen aan het corpus?

Veelgestelde vragen