CALLISTO: The basics of corpora and NLP for low-resource languages.

DE, EN, ES, FR

Selbstlern-Kurs

CALLISTO: The basics of corpora and NLP for low-resource languages.

Universität Wien, National Centre for Scientific Research (CNRS)

Eva Vetter, Universität Wien

Über
Inhalt
Bewertung

Über
Inhalt
Bewertung

Über

Dauer 4 Lektionen

Einheiten 1 Stunde/Lektion

Lizenz CC BY-NC-ND 4.0

Kursteilnehmer:innen 300

Verfügbarkeit Unbegrenzt

Startdatum 30. September 2024

Kosten € 0.00

Allgemeines zum Kurs

Willkommen zu diesem Kurs für Interessierte aus den Geistes- bzw. Sozialwissenschaften und der Linguistik, die etwas über die Arbeit mit Korpora von minorisierten Sprachen lernen möchten! Entdecke und verstehe, wie diese Art von Korpora erstellt werden kann und lerne wichtige Rahmenbedingungen kennen, um an bzw. mit ihnen arbeiten zu können.

Dieser kurze Einführungskurs bietet einen Einblick darin, wie Sprachenkorpora die Weiterentwicklung von Forschung und Gesellschaft unterstützen und wie sie zum digitalen Überleben von Sprachen mit eingeschränktem Korpus beitragen.

„Im Bereich der Informatik verfügt jede Sprachgemeinschaft über Informatik-Technik und Informatik-Produkte in der eigenen Sprache - um vollständig zu den Vorteilen Zugang zu haben, die diese Technologien der Selbstmitteilung, der Erziehung, der Kommunikation, der Herausgabe, Übersetzung und allgemein der Bearbeitung der Information und der kulturellen Verbreitung bringen.“

UNESCO – United Nations Educational, Scientific and Cultural Organisation, Allgemeine Erklärung der Sprachenrechte (Barcelona, 1996). [Abgerufen am 29.12.2023 unter https://www.gfbv.it/3dossier/barcelona96-dt.html]

Inhalt

Kursinhalt

Dieser Kurs besteht aus 4 Lektionen und ist so konzipiert, dass er linear und schrittweise durchgeführt werden kann! Dabei werden die folgenden inhaltlichen Schwerpunkte abgedeckt:

Lektion 1: Die Verarbeitung von natürlicher Sprache (= Natural Language Processing, NLP) und die Zukunft von Sprachen

Lektion 2: Geeignete Korpora für NLP

Lektion 3: Korpusaustausch und die FAIR-Grundsätze

Lektion 4: Der achtsame Umgang mit rechtlichen und ethischen Fragestellungen

Lernziele

Das Erkennen der Herausforderungen, die mit der gemeinsamen Nutzung von Korpora für minorisierte Sprachen verbunden sind
Das Verstehen der Entwicklungskette für NLP-Anwendungen
Die Unterscheidung zwischen den verschiedenen Korpustypen, die für die NLP-Entwicklung verwendet werden können
Die Identifizierung der Merkmale eines guten Korpus für NLP
Die Integration der FAIR-Prinzipien in Praktiken zur gemeinsamen Nutzung von Korpora
Die Prüfung des rechtlichen Rahmens, der für ein Korpus gilt

Vorkenntnisse

Da es sich um eine Einführung in das Thema der Arbeit mit Korpora von minorisierten Sprachen handelt, sind keine bestimmten Vorkenntnisse notwendig, um diesem Kurs folgen zu können.

Kursablauf

Der Kurs besteht aus den genannten vier kurzen Lektionen, die jeweils schriftliche Inhalte, interaktive Elemente und ein Abschlussquiz beinhalten. Die einzelnen Lektionen werden leistungsbasiert freigeschalten: Wenn eine Lektion inklusive Quiz erfolgreich abgeschlossen wurde, erhält die Person sofort Zugriff auf die nächste.

Zertifikat

Für die aktive Teilnahme am Kurs erfolgt bei Abschluss die Ausstellung einer automatisierten Teilnahmebestätigung, welche Ihren Namen, den Kursnamen und die abgeschlossenen Lektionen beinhaltet. Es wird darauf hingewiesen, dass es sich nur um eine Bestätigung handelt, die aussagt, dass Sie zumindest 75% der gestellten Selbstüberprüfungsfragen richtig beantwortet haben.

Lizenz

Dieses Werk ist lizenziert unter CC BY-NC-ND 4.0

Kursübersicht

Lektion 1: NLP und die Zukunft von Sprachen
Lektion 2: Welcher Korpus für NLP
Lektion 3: Für einen Korpusaustausch mit den FAIR-Grundsätzen
Lektion 4: Rechtliche und ethische Vorsichtsmaßnahmen
- Questions juridiques linguistique

Kursleitung

Eva Vetter, Universität Wien

Kursentwicklerinnen

Mélanie Jouitteau, IKER (CNRS)
Mélanie Jouitteau ist Sprachwissenschaftlerin am CNRS und hat sich auf Bretonisch, Minderheitensprachen und partizipative Forschung spezialisiert. Sie ist sich der fragilen Zukunft der sprachlichen Vielfalt der Menschen im Kontext der Technologisierung der menschlichen Beziehungen bewusst und engagiert sich in ihrer Forschung für die Entwicklung von Datenerfassungslösungen, die die NLP-Entwicklung von Sprachen mit begrenztem Korpus unterstützen.

Lynda Kehli, Inist – DoRANum (CNRS)
Lynda Kehli ist am Inist-CNRS für die pädagogische Planung und Durchführung von Schulungen im Bereich WTI (wissenschaftliche und technische Information) zuständig. Mit dem Team Formation-DoRANum entwickelt sie eine neue Generation von Blended-Learning-Angeboten, die digitales Lernen, Webinare und andere Modalitäten wie Serious Games miteinander verbinden. Ziel ist es, die wissenschaftliche Gemeinschaft auf dem Weg der Öffnung und des Teilens zu begleiten.

Organisation

Lena Kratochwil, Universität Wien
Lena Kratochwil studiert Lehramt Französisch und Deutsch und arbeitet als Studienassistentin im Arbeitsbereich Sprachlehr- und -lernforschung (Zentrum für Lehrer*innenbildung / Institut für Sprachwissenschaft).

Eva Vetter, Universität Wien
Eva Vetter ist Professorin für Sprachlehr- und -lernforschung. In ihren soziolinguistischen Arbeitn betrachtet sie sprachliche Minorisierung im Kontext von (Bildungs-)Gerechtigkeit und Menschenrechten.
http://orcid.org/0000-0003-0504-6991

Anmelden & Einschreiben Aktuell: 300 Teilnehmer:innen

Kostenlos für alle € 0.00

Partner:innen

Das Forschungszentrum für Baskische Sprache und Texte (IKER) - eine zusammengeschlossene Forschungseinheit (Unité Mixte de Recherche – UMR5478) die vom Centre National de la Recherche Scientifique (CNRS), der Universität Bordeaux Montaigne und der Universität Pau und Pays de l’Adour (UPPA) verwaltet wird.

Universität Wien

Wien

16744 Teilnehmer:innen

25 Kurse

Durchschnittliche Bewertung

Kurse anzeigen

National Centre for Scientific Research (CNRS)

305 Teilnehmer:innen

1 Kurse

Durchschnittliche Bewertung

Bewertung

CALLISTO: The basics of corpora and NLP for low-resource languages.

5 Sterne

4 Sterne

3 Sterne

2 Sterne

1 Sterne