CALLISTO: The basics of corpora and NLP for low-resource languages.
National Centre for Scientific Research (CNRS), University of Vienna
Eva Vetter, Universität Wien
A propos de
Informations générales sur le cours
Bienvenue à ce cours destiné aux personnes intéressées par les sciences humaines et sociales et la linguistique, qui souhaitent apprendre à travailler avec des corpus de langues minoritaires !
Découvrez et comprenez comment ce type de corpus peut être créé et apprenez les cadres importantes pour pouvoir travailler sur et avec eux.
Ce bref cours d'introduction donne un aperçu de la manière dont les corpus de langues soutiennent les progrès de la recherche et de la société, et comment ils contribuent à la survie numérique des langues à corpus limité.
« Toute communauté linguistique a le droit de disposer d'équipements informatiques adaptés à son système linguistique ainsi que d'outils et de produits informatiques dans sa langue, afin de profiter pleinement du potentiel qu'offrent ces technologies pour la libre expression, l'éducation, la communication, l'édition, la traduction et, en général, le traitement de l'information et la diffusion culturelle. »
UNESCO - Organisation des Nations Unies pour l’éducation la science et la culture. Déclaration universelle des droits linguistiques [En ligne]. Gallimard ; 1988 [consulté le 4 juil 2023]. 123 p. Disponible: https://www.axl.cefan.ulaval.ca/Langues/Declaration_univ-droits_ling1996.htm#:~:text=Toute%20communauté%20linguistique%20a%20le,communication,%20l'édition,%20la
Contenu
Contenu du cours
Ce cours se compose de 4 leçons et est conçu pour être suivi de façon linéaire et progressive. Les thèmes suivants sont abordés :
Leçon 1 : Le TAL (Traitement automatique du langage) et l’avenir des langues
Leçon 2 : Quel corpus pour le TAL
Leçon 3 : Pour un partage FAIR des corpus
Leçon 4 : Vigilance juridique et éthique
Objectifs du cours
- Identifier les enjeux du partage des corpus pour les langues minorisées
- Comprendre la chaîne de développement des applications du TAL
- Distinguer différents types de corpus pouvant alimenter un développement en TAL
- Identifier quelques caractéristiques d’un bon corpus pour le TAL
- Intégrer les principes FAIR dans vos pratiques de partage des corpus
- Interroger le cadre juridique qui s’applique à votre corpus
Connaissances antérieures
Comme il s'agit d'une introduction au travail avec des corpus de langues minoritaires, aucune connaissance préalable particulière n'est nécessaire pour suivre ce cours.
Procédure du cours
Le cours se compose des quatre courtes leçons mentionnées, qui contiennent chacune des passages écrits, des éléments interactifs et un quiz final. Les différentes leçons sont débloquées en fonction des performances : Lorsqu'une leçon et son quiz ont été terminés avec succès, la personne a immédiatement accès à la suivante.
Certificat
La participation est confirmée avec un certificat qui inclue votre nom, le titre du cours et les leçons complétées. Ce certificat confirme uniquement que vous avez répondu correctement à au moins 75% des questions d’auto-évaluation.Formateur/formatrice
Eva Vetter, Universität Wien
Développeuses de formation
Mélanie Jouitteau, IKER (CNRS)
Mélanie Jouitteau est chercheuse en linguistique au CNRS, spécialiste du breton, des langues minorisées et de la recherche participative. Consciente du fragile futur de la diversité linguistique humaine en contexte de technologisation des rapports humains, elle engage sa recherche vers la création de solutions d’acquisition de données en soutien au développement TAL des langues à corpus restreint.
Lynda Kehli, Inist – DoRANum (CNRS)
Lynda Kehli est chargée d’ingénierie pédagogique et d’animation de formation en IST (Information scientifique et technique) à l’Inist-CNRS. Avec l’équipe Formation-DoRANum, elle développe une nouvelle génération de formations mixtes mêlant apprentissage numérique, webinaires et d’autres modalités comme le jeu sérieux. L’objectif est d’accompagner la communauté scientifique sur l’ouverture et le partage.
Organisation
Lena Kratochwil, Université de Vienne
Lena Kratochwil étudie pour devenir professeur de français et d'allemand et travaille comme assistante étudiante dans l'équipe de recherche sur l'enseignement et l'apprentissage des langues (Centre de formation des enseignant.e.s / Institut de linguistique).
Eva Vetter, Université de Vienne
Eva Vetter est professeure dans le domaine de l’enseignement et de l’apprentissage des langues. Dans ses recherches sociolinguistiques, elle place la minorisation linguistique dans le contexte de l'équité (en matière d'éducation) et des droits de l'homme.
http://orcid.org/0000-0003-0504-6991
Se connecter et s'inscrire Actuellement: 264 Participants
Gratuit pour tous € 0.00
Partenaires
Le Centre de recherche sur la langue et les textes basques (IKER) - une UMR (Unité Mixte de Recherche, UMR5478) qui a comme tutelles le Centre National de la Recherche Scientifique (CNRS), l'Université Bordeaux Montaigne et l'Université de Pau et des Pays de l'Adour (UPPA).
National Centre for Scientific Research (CNRS)
University of Vienna
Wien