CALLISTO: The basics of corpora and NLP for low-resource languages.
National Centre for Scientific Research (CNRS), Universität Wien
Eva Vetter, Universität Wien
Über
Allgemeines zum Kurs
Willkommen zu diesem Kurs für Interessierte aus den Geistes- bzw. Sozialwissenschaften und der Linguistik, die etwas über die Arbeit mit Korpora von minorisierten Sprachen lernen möchten! Entdecke und verstehe, wie diese Art von Korpora erstellt werden kann und lerne wichtige Rahmenbedingungen kennen, um an bzw. mit ihnen arbeiten zu können.
Dieser kurze Einführungskurs bietet einen Einblick darin, wie Sprachenkorpora die Weiterentwicklung von Forschung und Gesellschaft unterstützen und wie sie zum digitalen Überleben von Sprachen mit eingeschränktem Korpus beitragen.
„Im Bereich der Informatik verfügt jede Sprachgemeinschaft über Informatik-Technik und Informatik-Produkte in der eigenen Sprache - um vollständig zu den Vorteilen Zugang zu haben, die diese Technologien der Selbstmitteilung, der Erziehung, der Kommunikation, der Herausgabe, Übersetzung und allgemein der Bearbeitung der Information und der kulturellen Verbreitung bringen.“
UNESCO – United Nations Educational, Scientific and Cultural Organisation, Allgemeine Erklärung der Sprachenrechte (Barcelona, 1996). [Abgerufen am 29.12.2023 unter https://www.gfbv.it/3dossier/barcelona96-dt.html]
Inhalt
Kursinhalt
Dieser Kurs besteht aus 4 Lektionen und ist so konzipiert, dass er linear und schrittweise durchgeführt werden kann! Dabei werden die folgenden inhaltlichen Schwerpunkte abgedeckt:
Lektion 1: Die Verarbeitung von natürlicher Sprache (= Natural Language Processing, NLP) und die Zukunft von Sprachen
Lektion 2: Geeignete Korpora für NLP
Lektion 3: Korpusaustausch und die FAIR-Grundsätze
Lektion 4: Der achtsame Umgang mit rechtlichen und ethischen Fragestellungen
Lernziele
- Das Erkennen der Herausforderungen, die mit der gemeinsamen Nutzung von Korpora für minorisierte Sprachen verbunden sind
- Das Verstehen der Entwicklungskette für NLP-Anwendungen
- Die Unterscheidung zwischen den verschiedenen Korpustypen, die für die NLP-Entwicklung verwendet werden können
- Die Identifizierung der Merkmale eines guten Korpus für NLP
- Die Integration der FAIR-Prinzipien in Praktiken zur gemeinsamen Nutzung von Korpora
- Die Prüfung des rechtlichen Rahmens, der für ein Korpus gilt
Vorkenntnisse
Da es sich um eine Einführung in das Thema der Arbeit mit Korpora von minorisierten Sprachen handelt, sind keine bestimmten Vorkenntnisse notwendig, um diesem Kurs folgen zu können.
Kursablauf
Der Kurs besteht aus den genannten vier kurzen Lektionen, die jeweils schriftliche Inhalte, interaktive Elemente und ein Abschlussquiz beinhalten. Die einzelnen Lektionen werden leistungsbasiert freigeschalten: Wenn eine Lektion inklusive Quiz erfolgreich abgeschlossen wurde, erhält die Person sofort Zugriff auf die nächste.
Zertifikat
Für die aktive Teilnahme am Kurs erfolgt bei Abschluss die Ausstellung einer automatisierten Teilnahmebestätigung, welche Ihren Namen, den Kursnamen und die abgeschlossenen Lektionen beinhaltet. Es wird darauf hingewiesen, dass es sich nur um eine Bestätigung handelt, die aussagt, dass Sie zumindest 75% der gestellten Selbstüberprüfungsfragen richtig beantwortet haben.Kursleitung
Eva Vetter, Universität Wien
Kursentwicklerinnen
Mélanie Jouitteau, IKER (CNRS)
Mélanie Jouitteau ist Sprachwissenschaftlerin am CNRS und hat sich auf Bretonisch, Minderheitensprachen und partizipative Forschung spezialisiert. Sie ist sich der fragilen Zukunft der sprachlichen Vielfalt der Menschen im Kontext der Technologisierung der menschlichen Beziehungen bewusst und engagiert sich in ihrer Forschung für die Entwicklung von Datenerfassungslösungen, die die NLP-Entwicklung von Sprachen mit begrenztem Korpus unterstützen.
Lynda Kehli, Inist – DoRANum (CNRS)
Lynda Kehli ist am Inist-CNRS für die pädagogische Planung und Durchführung von Schulungen im Bereich WTI (wissenschaftliche und technische Information) zuständig. Mit dem Team Formation-DoRANum entwickelt sie eine neue Generation von Blended-Learning-Angeboten, die digitales Lernen, Webinare und andere Modalitäten wie Serious Games miteinander verbinden. Ziel ist es, die wissenschaftliche Gemeinschaft auf dem Weg der Öffnung und des Teilens zu begleiten.
Organisation
Lena Kratochwil, Universität Wien
Lena Kratochwil studiert Lehramt Französisch und Deutsch und arbeitet als Studienassistentin im Arbeitsbereich Sprachlehr- und -lernforschung (Zentrum für Lehrer*innenbildung / Institut für Sprachwissenschaft).
Eva Vetter, Universität Wien
Eva Vetter ist Professorin für Sprachlehr- und -lernforschung. In ihren soziolinguistischen Arbeitn betrachtet sie sprachliche Minorisierung im Kontext von (Bildungs-)Gerechtigkeit und Menschenrechten.
http://orcid.org/0000-0003-0504-6991
Anmelden & Einschreiben Aktuell: 269 Teilnehmer:innen
Kostenlos für alle € 0.00
Partner:innen
Das Forschungszentrum für Baskische Sprache und Texte (IKER) - eine zusammengeschlossene Forschungseinheit (Unité Mixte de Recherche – UMR5478) die vom Centre National de la Recherche Scientifique (CNRS), der Universität Bordeaux Montaigne und der Universität Pau und Pays de l’Adour (UPPA) verwaltet wird.
National Centre for Scientific Research (CNRS)
Universität Wien
Wien