Statistieken over het corpus

Versie 1.0 (31/12/2025) van het corpus bevat 6,2 miljoen tokens (woorden) en 176 uur aan (onbewerkte) audiofragmenten, verspreid over honderden dialecten in het Limburgse taalgebied. De documentatie van de metadata vindt u terug op GitHub voor het openbaar gedeelte en in het toegangsportaal voor het volledige corpus.

Verdeling van tokens (woorden) per dialect in het Limburgs Corpus

Tokens (woorden) in het corpus (in miljoen)

Verdeling van audio per dialect in het Limburgs Corpus

Audiofragmenten in het corpus (in uur)

Hoe citeren?

Simons, A. & Cornips, L. (2025). Het Limburgs Corpus: databank van Limburgse dialecten. Online beschikbaar op https://www.limburgscorpus.com/corpus.html.

Corpustoegang

Het Limburgs Corpus is toegankelijk gemaakt voor verschillende doeleinden. Het openbaar gedeelte van het corpus kan u vrij inkijken en gebruiken, u dient wel rekening te houden met de nodige auteursrechtenlicenties.

De overgrote meerderheid van het corpus is momenteel enkel toegankelijk voor wetenschappelijke doeleinden en kan u enkel inkijken en gebruiken als u een onderzoeker bent verbonden aan een academische instelling. We werken er hard aan om het "wetenschappelijk" gedeelte zo snel mogelijk voor iedereen te ontsluiten.


Openbaar deel

U kan het corpus inkijken als encyclopedie of rechtstreeks downloaden via GitHub.  

Opgelet: Aan ieder bestand is een licentie verbonden, deze bepaalt hoe u de bestanden mag gebruiken en wie u moet citeren als u ze gebruikt of reproduceert. Alle licenties zijn Creative Commons licenties.

Wetenschappelijk deel

Als u een geldige affiliatie aan een academische instelling heeft, kan u het wetenschappelijk gedeelte raadplegen of gebruiken voor uw onderzoek

Gelieve strikt de voorwaarden voor wetenschappelijk gebruik omtrent autersrechten en Artificiële Intelligentie te respecteren (Engels).

Contact | Project gesubsidieerd door het Hoes veur 't Limburgs