CALLISTO: The basics of corpora and NLP for low-resource languages.
Kursstart: 30. September 2024
CALLISTO: The basics of corpora and NLP for low-resource languages.
Eva Vetter, Universität Wien
Wissenschaftliche Einordnung:
Kursstart: 30. September 2024
CALLISTO: The basics of corpora and NLP for low-resource languages.
Eva Vetter, Universität Wien
-
Umfang: 4 Lektionen
-
Aufwand: 1 Stunde/Woche
-
Teilnehmende aktuell: 308
-
Lizenz: CC BY-NC-ND 4.0
-
Kursstart: 30. September 2024
-
Kursende: -
-
Status aktuell: Laufender Kurs
-
Verfügbare Sprachen:
Details zum Kurs
Allgemeine Informationen zum Kurs
Willkommen zu diesem Kurs für Interessierte aus den Geistes- bzw. Sozialwissenschaften und der Linguistik, die etwas über die Arbeit mit Korpora von minorisierten Sprachen lernen möchten! Entdecke und verstehe, wie diese Art von Korpora erstellt werden kann und lerne wichtige Rahmenbedingungen kennen, um an bzw. mit ihnen arbeiten zu können.
Dieser kurze Einführungskurs bietet einen Einblick darin, wie Sprachenkorpora die Weiterentwicklung von Forschung und Gesellschaft unterstützen und wie sie zum digitalen Überleben von Sprachen mit eingeschränktem Korpus beitragen.
„Im Bereich der Informatik verfügt jede Sprachgemeinschaft über Informatik-Technik und Informatik-Produkte in der eigenen Sprache - um vollständig zu den Vorteilen Zugang zu haben, die diese Technologien der Selbstmitteilung, der Erziehung, der Kommunikation, der Herausgabe, Übersetzung und allgemein der Bearbeitung der Information und der kulturellen Verbreitung bringen.“
UNESCO – United Nations Educational, Scientific and Cultural Organisation, Allgemeine Erklärung der Sprachenrechte (Barcelona, 1996). [Abgerufen am 29.12.2023 unter https://www.gfbv.it/3dossier/barcelona96-dt.html]
Kursinhalt
Dieser Kurs besteht aus 4 Lektionen und ist so konzipiert, dass er linear und schrittweise durchgeführt werden kann! Dabei werden die folgenden inhaltlichen Schwerpunkte abgedeckt:
Lektion 1: Die Verarbeitung von natürlicher Sprache (= Natural Language Processing, NLP) und die Zukunft von Sprachen
Lektion 2: Geeignete Korpora für NLP
Lektion 3: Korpusaustausch und die FAIR-Grundsätze
Lektion 4: Der achtsame Umgang mit rechtlichen und ethischen Fragestellungen
Lernziele
- Das Erkennen der Herausforderungen, die mit der gemeinsamen Nutzung von Korpora für minorisierte Sprachen verbunden sind
- Das Verstehen der Entwicklungskette für NLP-Anwendungen
- Die Unterscheidung zwischen den verschiedenen Korpustypen, die für die NLP-Entwicklung verwendet werden können
- Die Identifizierung der Merkmale eines guten Korpus für NLP
- Die Integration der FAIR-Prinzipien in Praktiken zur gemeinsamen Nutzung von Korpora
- Die Prüfung des rechtlichen Rahmens, der für ein Korpus gilt
Vorkenntnisse
Da es sich um eine Einführung in das Thema der Arbeit mit Korpora von minorisierten Sprachen handelt, sind keine bestimmten Vorkenntnisse notwendig, um diesem Kurs folgen zu können.
Kursablauf
Der Kurs besteht aus den genannten vier kurzen Lektionen, die jeweils schriftliche Inhalte, interaktive Elemente und ein Abschlussquiz beinhalten. Die einzelnen Lektionen werden leistungsbasiert freigeschalten: Wenn eine Lektion inklusive Quiz erfolgreich abgeschlossen wurde, erhält die Person sofort Zugriff auf die nächste.
Zertifikat
Lizenz
Zusätzliche Inhalte
Kursübersicht
- Lektion 1: NLP und die Zukunft von Sprachen
- Lektion 2: Welcher Korpus für NLP
- Lektion 3: Für einen Korpusaustausch mit den FAIR-Grundsätzen
- Lektion 4: Rechtliche und ethische Vorsichtsmaßnahmen
- Questions juridiques linguistique
Kursleitung
Eva Vetter, Universität Wien
Kursentwicklerinnen

Mélanie Jouitteau, IKER (CNRS)
Mélanie Jouitteau ist Sprachwissenschaftlerin am CNRS und hat sich auf Bretonisch, Minderheitensprachen und partizipative Forschung spezialisiert. Sie ist sich der fragilen Zukunft der sprachlichen Vielfalt der Menschen im Kontext der Technologisierung der menschlichen Beziehungen bewusst und engagiert sich in ihrer Forschung für die Entwicklung von Datenerfassungslösungen, die die NLP-Entwicklung von Sprachen mit begrenztem Korpus unterstützen.

Lynda Kehli, Inist – DoRANum (CNRS)
Lynda Kehli ist am Inist-CNRS für die pädagogische Planung und Durchführung von Schulungen im Bereich WTI (wissenschaftliche und technische Information) zuständig. Mit dem Team Formation-DoRANum entwickelt sie eine neue Generation von Blended-Learning-Angeboten, die digitales Lernen, Webinare und andere Modalitäten wie Serious Games miteinander verbinden. Ziel ist es, die wissenschaftliche Gemeinschaft auf dem Weg der Öffnung und des Teilens zu begleiten.
Organisation
Lena Kratochwil, Universität Wien
Lena Kratochwil studiert Lehramt Französisch und Deutsch und arbeitet als Studienassistentin im Arbeitsbereich Sprachlehr- und -lernforschung (Zentrum für Lehrer*innenbildung / Institut für Sprachwissenschaft).

Eva Vetter, Universität Wien
Eva Vetter ist Professorin für Sprachlehr- und -lernforschung. In ihren soziolinguistischen Arbeitn betrachtet sie sprachliche Minorisierung im Kontext von (Bildungs-)Gerechtigkeit und Menschenrechten.
http://orcid.org/0000-0003-0504-6991
Partner:innen
Das Forschungszentrum für Baskische Sprache und Texte (IKER) - eine zusammengeschlossene Forschungseinheit (Unité Mixte de Recherche – UMR5478) die vom Centre National de la Recherche Scientifique (CNRS), der Universität Bordeaux Montaigne und der Universität Pau und Pays de l’Adour (UPPA) verwaltet wird.

Universität Wien
