Philologie de corpus
Les corpus – recueils de textes qui ont été réunis pour constituer une unité cohérente du point de vue du contenu – sont au coeur du développement des technologies contemporaines, en particulier celles qui concernent le langage humain et donc l’Intelligence Artificielle. L’intérêt porté aux corpus et à leurs potentialités dans le développement de notre société est donc de plus en plus marqué dans la recherche actuelle, au-delà même des confins de la linguistique. Dans le cas des langues anciennes, même si nous ne disposons pas de Big Data comme c’est par exemple le cas pour l’anglais, il est tout à fait possible non seulement de constituer des corpus, mais aussi d’appliquer et de développer les outils d’annotation et d’analyse développés pour les langues modernes. Cependant, contrairement aux langues modernes, la qualité des textes constituant des corpus en langue ancienne est fondamentale, les textes anciens originaux n'ayant pas été transmis directement jusqu’à nous. Malheureusement, aujourd’hui les corpus en langue ancienne sont plus souvent constitués de vielles éditions librement disponibles en ligne, particulièrement peu fiables scientifiquement, plutôt que de textes fondés sur des éditions philologiques à jour. Cette situation ne s’explique pas exclusivement par les problèmes liés aux droits d’auteur, mais – à notre sens – principalement par le manque d’un véritable échange mené entre linguistes spécialistes des langues anciennes et philologues autour des potentialités du numérique. Notre projet vise à lancer un dialogue entre linguistes et philologues travaillant sur les langues anciennes afin qu’ils puissent connaître et profiter de leurs connaissances respectives en matière de traitement des textes et des données numériques (édition, annotation, outils d’interrogation, outils statistiques).
Responsables du projet
Francesca Dell'Oro, Institut des Sciences du langage et de la communication Université de Neuchâtel
en collaboration avec le Prof. Benjamin Goldlust de l’Université de Franche-Comté
Financement
Financé par la Communauté du Savoir
Disciplines et Mots clés
Corpus, technologies contemporaines, Intelligence Artificielle, langues anciennes, linguistes, philologues, traitement des textes, données numériques