CALLISTO: The basics of corpora and NLP for low-resource languages.
CALLISTO: The basics of corpora and NLP for low-resource languages.
DE, EN, ES, FR
Dirigé
CALLISTO: The basics of corpora and NLP for low-resource languages.

CALLISTO: The basics of corpora and NLP for low-resource languages.

National Centre for Scientific Research (CNRS), University of Vienna

Eva Vetter, Universität Wien

A propos de

Durée 4 units
Unité 1 hour/unit
Licence CC BY-NC-ND 4.0
Participants 246
Disponibilité Illimité
Date de début 30 septembre 2024
Coûts € 0.00

Informations générales sur le cours

Bienvenue à ce cours destiné aux personnes intéressées par les sciences humaines et sociales et la linguistique, qui souhaitent apprendre à travailler avec des corpus de langues minoritaires !

Découvrez et comprenez comment ce type de corpus peut être créé et apprenez les cadres importantes pour pouvoir travailler sur et avec eux.

Ce bref cours d'introduction donne un aperçu de la manière dont les corpus de langues soutiennent les progrès de la recherche et de la société, et comment ils contribuent à la survie numérique des langues à corpus limité.

« Toute communauté linguistique a le droit de disposer d'équipements informatiques adaptés à son système linguistique ainsi que d'outils et de produits informatiques dans sa langue, afin de profiter pleinement du potentiel qu'offrent ces technologies pour la libre expression, l'éducation, la communication, l'édition, la traduction et, en général, le traitement de l'information et la diffusion culturelle. »

UNESCO - Organisation des Nations Unies pour l’éducation la science et la culture. Déclaration universelle des droits linguistiques [En ligne]. Gallimard ; 1988 [consulté le 4 juil 2023]. 123 p. Disponible: https://www.axl.cefan.ulaval.ca/Langues/Declaration_univ-droits_ling1996.htm#:~:text=Toute%20communauté%20linguistique%20a%20le,communication,%20l'édition,%20la 

 

Contenu

Contenu du cours

Ce cours se compose de 4 leçons et est conçu pour être suivi de façon linéaire et progressive. Les thèmes suivants sont abordés :

Leçon 1 :          Le TAL (Traitement automatique du langage) et l’avenir des langues

Leçon 2 :          Quel corpus pour le TAL

Leçon 3 :          Pour un partage FAIR des corpus

Leçon 4 :          Vigilance juridique et éthique

Objectifs du cours

  • Identifier les enjeux du partage des corpus pour les langues minorisées 
  • Comprendre la chaîne de développement des applications du TAL 
  • Distinguer différents types de corpus pouvant alimenter un développement en TAL 
  • Identifier quelques caractéristiques d’un bon corpus pour le TAL 
  • Intégrer les principes FAIR dans vos pratiques de partage des corpus
  • Interroger le cadre juridique qui s’applique à votre corpus 

Connaissances antérieures

Comme il s'agit d'une introduction au travail avec des corpus de langues minoritaires, aucune connaissance préalable particulière n'est nécessaire pour suivre ce cours.

Procédure du cours

Le cours se compose des quatre courtes leçons mentionnées, qui contiennent chacune des passages écrits, des éléments interactifs et un quiz final. Les différentes leçons sont débloquées en fonction des performances : Lorsqu'une leçon et son quiz ont été terminés avec succès, la personne a immédiatement accès à la suivante.

Certificat

La participation est confirmée avec un certificat qui inclue votre nom, le titre du cours et les leçons complétées. Ce certificat confirme uniquement que vous avez répondu correctement à au moins 75% des questions d’auto-évaluation.

Licence

Ce travail est sous licence CC BY-NC-ND 4.0

Formateur/formatrice

Eva Vetter, Universität Wien


Développeuses de formation


Vetter & Jouitteau

Mélanie Jouitteau, IKER (CNRS)
Mélanie Jouitteau est chercheuse en linguistique au CNRS, spécialiste du breton, des langues minorisées et de la recherche participative. Consciente du fragile futur de la diversité linguistique humaine en contexte de technologisation des rapports humains, elle engage sa recherche vers la création de solutions d’acquisition de données en soutien au développement TAL des langues à corpus restreint.


LyndaKehli 

Lynda Kehli, Inist – DoRANum (CNRS)
Lynda Kehli est chargée d’ingénierie pédagogique et d’animation de formation en IST (Information scientifique et technique) à l’Inist-CNRS. Avec l’équipe Formation-DoRANum, elle développe une nouvelle génération de formations mixtes mêlant apprentissage numérique, webinaires et d’autres modalités comme le jeu sérieux. L’objectif est d’accompagner la communauté scientifique sur l’ouverture et le partage.




Organisation

Lena Kratochwil, Université de Vienne
Lena Kratochwil étudie pour devenir professeur de français et d'allemand et travaille comme assistante étudiante dans l'équipe de recherche sur l'enseignement et l'apprentissage des langues (Centre de formation des enseignant.e.s / Institut de linguistique).

Vetter & Kratochwil

Eva Vetter, Université de Vienne
Eva Vetter est professeure dans le domaine de l’enseignement et de l’apprentissage des langues. Dans ses recherches sociolinguistiques, elle place la minorisation linguistique dans le contexte de l'équité (en matière d'éducation) et des droits de l'homme.
http://orcid.org/0000-0003-0504-6991

Se connecter et s'inscrire Actuellement: 246 Participants

Gratuit pour tous € 0.00

Partenaires

Le Centre de recherche sur la langue et les textes basques (IKER) - une UMR (Unité Mixte de Recherche, UMR5478) qui a comme tutelles le Centre National de la Recherche Scientifique (CNRS), l'Université Bordeaux Montaigne et l'Université de Pau et des Pays de l'Adour (UPPA).

National Centre for Scientific Research (CNRS)

National Centre for Scientific Research (CNRS)

251 Participants
1 Cours
Note moyenne
University of Vienna

University of Vienna

Wien

14960 Participants
25 Cours
Note moyenne

Évaluation

CALLISTO: The basics of corpora and NLP for low-resource languages.

5 étoiles
0
4 étoiles
0
3 étoiles
0
2 étoiles
0
1 étoiles
0