Förderung

Ein FlippedClassroom für das Net-Mining unterrepräsentierter Sprachen

Ziel des Projektes ist es, für Sprachwissenschaftler unabhängig von den Sprachen mit denen sie sich beschäftigen, besonders für kleine und digital unterrepräsentierte Sprachen (LRL),[1] einen primär digitalen Kurs zu konzipieren, der die Grundlagen zur Erstellung eigener Korpora aus Internetressourcen vermittelt.

Digital unterrepräsentierte Sprachen werden für den Kurs anhand der Sprecherzahl differenziert in solche, die nur wenige Sprecher haben (>1 Million) und alle anderen. Der Kurs möchte besonders auf Sprachen des zweiten Typs abzielen.

Die Teilnehmer (TN) sollen verschiedene Internetsegmente kennenlernen und passende auf diese Segmente zugeschnittene Suchstrategien für kleinere Sprachen entwickeln. Segmente definieren sich im aktuellen Kontext durch gemeinsame Eigenschaften und können überlappen. Segmenteigenschaften sind u.a.:

  • Suchergebnistypen: Verlinkung, plain-text, pdf, doc, xml
  • Inhalte, die (aus einer Datenbank) dynamisch beim Ansehen der Webseite aufgebaut werden gegenüber statischen und somit immer gleichen z.B. als plain-text codierten Inhalten, sowie
  • relevante Webgenres und Textsorten: Blogs, Folklore Repositorien, Web-Enzyklopädien.

Für jede Präsenzstunde im Flipped Classroom, in dem die Ergebnisse besprochen werden, wird vorab eine Videolerneinheit besucht, an deren Ende eine Suchaufgabe definiert und den TN zugestellt wird (OLAT). Zur Auffindung der entsprechenden Texte werden vor allem die Abfragesprachen der Suchmaschinen Google, Bing, Yahoo, Yandex, Baidu und DuckDuckGo vermittelt, ebenso die Nutzung bekannter Korpussammlungen wie der Leipzig Corpora Collection[2] oder des OPUS Archivs[3] und von Tools wie BootCat (Baroni et al. 2004).

Suchergebnisse und Suchstrategien der TN werden im Nachgang des Kurses analysiert und unter CC Lizensierung verfügbar gemacht.

[1]In Anlehnung an die englische Forschungsliteratur wird im Folgenden von Low Resource Languages gesprochen.

[2]http://corpora.uni-leipzig.de/de?corpusId=deu_newscrawl_2011

[3]http://opus.nlpl.eu/