Corpus de français parlés et français des corpus
8 et 9 mai 2014
Depuis un peu plus d’une décennie, on assiste dans le domaine de la francophonie à un intérêt croissant des chercheurs pour la constitution de grands corpus de français parlé, si bien que le retard par rapport aux autres langues comme l’anglais, l’espagnol ou le néerlandais, que regrettait Blanche-Benveniste [1999], est en train de diminuer. De nombreuses publications visant à présenter les différentes bases de données existantes [Bruxelles et al. 2009] ou à en faire le recensement [Cappeau & Seijido 2005 ; Cappeau & Gadet 2007 ; Gadet 2013] ont vu le jour. Un guide des bonnes pratiques [Baude 2005] et des consortiums ont été mis en place pour que les efforts des uns et des autres soient quelque peu canalisés et que les conventions de transcription et d’archivage se retrouvent d’un corpus à l’autre, ce qui permettrait de les rendre homogènes.
Dans ce contexte, le colloque projeté a pour but de réunir quelques-uns des acteurs ayant contribué de façon significative à la mise au point de corpus ou d’archives de français parlés. Au total, dix corpus seront présentés dans le cadre de ce colloque. Ces corpus contiennent des données enregistrées aux quatre coins de la francophonie (corpus PFC et I-PFC), des données de français « non-hexagonales » propres à un pays déterminé (la Suisse pour OFROM, la Belgique pour VALIBEL, le Québec pour CFPQ), des enregistrements réalisés à Paris et ses alentours (CFPP, MPF) et à Orléans (ESLO) et des enregistrements dont l’origine des locuteurs est moins contrôlée (CLAPI et ORFEO). Outre le critère géographique, ces corpus se distinguent par la variation des situations de parole (entretiens à dominante monologique pour les uns ; situations interactionnelles diverses enregistrées en contexte écologique pour les autres), mais aussi de par les objectifs originaux qui ont guidé leur constitution (étude de la phonologie, des interactions, de la syntaxe, de la prosodie, etc.), par les conventions de transcription adoptées (transcription orthographique ponctuée ou non, codage du para-verbal, etc.) et par les études quantitatives qu’ils permettent à l’heure actuelle.
Le colloque aura pour mission de faire le point sur les aspects qui caractérisent ces dix corpus de variétés de français. Mais nous souhaitons également qu’il permette d’établir un bilan sur ce que ces grands corpus nous apprennent sur les français parlés à l’orée du 21e siècle, en France métropolitaine comme dans les autres pays de la francophonie.