CALLISTO: The basics of corpora and NLP for low-resource languages.

DE, EN, ES, FR

Auto-apprentissage

CALLISTO: The basics of corpora and NLP for low-resource languages.

University of Vienna, National Centre for Scientific Research (CNRS)

Eva Vetter, Universität Wien

A propos de
Contenu
Évaluation

A propos de
Contenu
Évaluation

A propos de

Durée 4 units

Unité 1 hour/unit

Licence CC BY-NC-ND 4.0

Participants 300

Disponibilité Illimité

Date de début 30 septembre 2024

Coûts € 0.00

Informations générales sur le cours

Bienvenue à ce cours destiné aux personnes intéressées par les sciences humaines et sociales et la linguistique, qui souhaitent apprendre à travailler avec des corpus de langues minoritaires !

Découvrez et comprenez comment ce type de corpus peut être créé et apprenez les cadres importantes pour pouvoir travailler sur et avec eux.

Ce bref cours d'introduction donne un aperçu de la manière dont les corpus de langues soutiennent les progrès de la recherche et de la société, et comment ils contribuent à la survie numérique des langues à corpus limité.

« Toute communauté linguistique a le droit de disposer d'équipements informatiques adaptés à son système linguistique ainsi que d'outils et de produits informatiques dans sa langue, afin de profiter pleinement du potentiel qu'offrent ces technologies pour la libre expression, l'éducation, la communication, l'édition, la traduction et, en général, le traitement de l'information et la diffusion culturelle. »

UNESCO - Organisation des Nations Unies pour l’éducation la science et la culture. Déclaration universelle des droits linguistiques [En ligne]. Gallimard ; 1988 [consulté le 4 juil 2023]. 123 p. Disponible: https://www.axl.cefan.ulaval.ca/Langues/Declaration_univ-droits_ling1996.htm#:~:text=Toute%20communauté%20linguistique%20a%20le,communication,%20l'édition,%20la

Contenu

Contenu du cours

Ce cours se compose de 4 leçons et est conçu pour être suivi de façon linéaire et progressive. Les thèmes suivants sont abordés :

Leçon 1 : Le TAL (Traitement automatique du langage) et l’avenir des langues

Leçon 2 : Quel corpus pour le TAL

Leçon 3 : Pour un partage FAIR des corpus

Leçon 4 : Vigilance juridique et éthique

Objectifs du cours

Identifier les enjeux du partage des corpus pour les langues minorisées
Comprendre la chaîne de développement des applications du TAL
Distinguer différents types de corpus pouvant alimenter un développement en TAL
Identifier quelques caractéristiques d’un bon corpus pour le TAL
Intégrer les principes FAIR dans vos pratiques de partage des corpus
Interroger le cadre juridique qui s’applique à votre corpus

Connaissances antérieures

Comme il s'agit d'une introduction au travail avec des corpus de langues minoritaires, aucune connaissance préalable particulière n'est nécessaire pour suivre ce cours.

Procédure du cours

Le cours se compose des quatre courtes leçons mentionnées, qui contiennent chacune des passages écrits, des éléments interactifs et un quiz final. Les différentes leçons sont débloquées en fonction des performances : Lorsqu'une leçon et son quiz ont été terminés avec succès, la personne a immédiatement accès à la suivante.

Certificat

La participation est confirmée avec un certificat qui inclue votre nom, le titre du cours et les leçons complétées. Ce certificat confirme uniquement que vous avez répondu correctement à au moins 75% des questions d’auto-évaluation.

Licence

Ce travail est sous licence CC BY-NC-ND 4.0

Kursübersicht

Lektion 1: NLP und die Zukunft von Sprachen
Lektion 2: Welcher Korpus für NLP
Lektion 3: Für einen Korpusaustausch mit den FAIR-Grundsätzen
Lektion 4: Rechtliche und ethische Vorsichtsmaßnahmen
- Questions juridiques linguistique

Formateur/formatrice

Eva Vetter, Universität Wien

Développeuses de formation

Mélanie Jouitteau, IKER (CNRS)
Mélanie Jouitteau est chercheuse en linguistique au CNRS, spécialiste du breton, des langues minorisées et de la recherche participative. Consciente du fragile futur de la diversité linguistique humaine en contexte de technologisation des rapports humains, elle engage sa recherche vers la création de solutions d’acquisition de données en soutien au développement TAL des langues à corpus restreint.

Lynda Kehli, Inist – DoRANum (CNRS)
Lynda Kehli est chargée d’ingénierie pédagogique et d’animation de formation en IST (Information scientifique et technique) à l’Inist-CNRS. Avec l’équipe Formation-DoRANum, elle développe une nouvelle génération de formations mixtes mêlant apprentissage numérique, webinaires et d’autres modalités comme le jeu sérieux. L’objectif est d’accompagner la communauté scientifique sur l’ouverture et le partage.

Organisation

Lena Kratochwil, Université de Vienne
Lena Kratochwil étudie pour devenir professeur de français et d'allemand et travaille comme assistante étudiante dans l'équipe de recherche sur l'enseignement et l'apprentissage des langues (Centre de formation des enseignant.e.s / Institut de linguistique).

Eva Vetter, Université de Vienne
Eva Vetter est professeure dans le domaine de l’enseignement et de l’apprentissage des langues. Dans ses recherches sociolinguistiques, elle place la minorisation linguistique dans le contexte de l'équité (en matière d'éducation) et des droits de l'homme.
http://orcid.org/0000-0003-0504-6991

Se connecter et s’inscrire Actuellement: 300 Participants

Gratuit pour tous € 0.00

Partenaires

Le Centre de recherche sur la langue et les textes basques (IKER) - une UMR (Unité Mixte de Recherche, UMR5478) qui a comme tutelles le Centre National de la Recherche Scientifique (CNRS), l'Université Bordeaux Montaigne et l'Université de Pau et des Pays de l'Adour (UPPA).

University of Vienna

Wien

16689 Participants

25 Cours

Note moyenne

Afficher les cours

National Centre for Scientific Research (CNRS)

305 Participants

1 Cours

Note moyenne

Évaluation

CALLISTO: The basics of corpora and NLP for low-resource languages.

5 étoiles

4 étoiles

3 étoiles

2 étoiles

1 étoiles