Groupe ARAPI : Véronique Traverso, Catherine Pinon, Loubna Dimachki, Lina Choueiri
Le projet ARAPI, Arabe Parlé en Interaction vise l’établissement d’une convention de transcription de données orales et son application pour la réalisation d’un corpus d’arabe moyen-oriental parlé. Le projet est conduit par un groupe de chercheurs (Groupe ARAPI) de différentes institutions – l’Ifpo Beyrouth (Catherine Pinon, Véronique Traverso), Université Libanaise – Centre des sciences du langage et de la communication (Moustafa Al-Hajj, Loubna Dimachki), Université Américaine de Beyrouth (Lina Choueiri), laboratoire ICAR (UMR 5191) à Lyon (Carole Etienne), laboratoire SEDYL (UMR 9292) à Paris (Stefano Manfredi), Laboratoire LLL (UMR 7270) à Orléans (Layal Kanaan). Il a bénéficié de financements de l’Ifpo, du Labex ASLAN (Lyon) et de l’Université Libanaise.
Le projet se situe dans une approche interactionnelle, qui s’attache aux usages du langage en situation, considérant que la parole est centrale dans la réalisation des actions sociales. Pour ces études, le corpus et sa transcription revêtent une importance centrale, puisqu’ils doivent permettre de rendre visibles les éléments sur lesquels les participants aux interactions établissent leur interprétation de ce qui se passe dans les échanges, et plus généralement dans la situation concernée.
Une des premières étapes dans le projet ARAPI a été de faire un tour d’horizon des bases d’arabe parlé librement accessibles sur internet. C’est l’objet de ce premier billet.
Corpus d’arabe parlé (1) : Quels corpus d’arabe parlé en libre accès ?
Publié le 31/10/2018
1. Évolution des corpus de langue au cours de trente dernières années
C’est au tournant des années 1990 que les bases de données, écrites et orales, ont commencé à se développer, principalement pour l’anglais puis pour d’autres langues (on trouvera une mise en perspective des bases qui se sont développées au cours des années 1990 dans Bruxelles et al. 2009, et pour l’anglais, Renouf 2004). Le développement de ces bases a été favorisé par des incitations institutionnelles à mettre en place des corpus de langue (en France par exemple, au cours des années 2000, les appels de l’Agence Nationale de la Recherche et de la Délégation générale à la langue française et aux langues de France), dans lesquelles les chercheurs étaient appelés à “rattraper le retard” en réalisant de gros corpus qui soient mis à la disposition de la communauté scientifique. Ces initiatives ont porté leurs fruits. Ainsi les articles réunis dans Avanzi, Béguelin & Diémoz en 2016 présentent non moins de treize bases de données de français parlé, représentant des français de plusieurs régions de France, de Belgique, de Suisse, du Québec, d’Amérique, d’Afrique, des français non standard ainsi que des français d’apprenants.
Cette importance accordée aux corpus et aux bases de données a modifié sensiblement la façon de travailler sur corpus. Ainsi il n’est plus guère acceptable aujourd’hui pour un chercheur de construire son propre corpus (de thèse par exemple), sans penser aux questions juridiques et éthiques (autorisation de collecte, consentement éclairé), aux standards de mise en forme des données et des corpus, aux possibilités de partage des données par l’intégration dans une base de données, etc. La construction d’un corpus est, de la sorte, soumise à de nombreuses contraintes, puisqu’on attend que soient explicitées et rendues publiques toutes les étapes de la confection. En contre-point, s’élèvent aujourd’hui des voix pour formuler les dilemmes qui sont nés de ces nouvelles attentes et contraintes (Groupe ICOR 2016) ou faire entendre l’importance des “petits” corpus (corpus de thèse par exemple ou corpus pour l’étude d’un phénomène très restreint) (voir le numéro de la Revue Corpus consacré aux “petits corpus”, Danino 2018).
2. Le cas de l’arabe
Pour l’arabe, la situation a surtout commencé à évoluer au tournant des années 2010, notamment grâce au développement de corpus et d’outils pour le traitement automatique des langues. Pour l’arabe écrit, il existe aujourd’hui une série de corpus présentant une variété de sources (Coran, presse, romans, réseaux sociaux, etc.), qui documentent des usages d’arabe classique, standard moderne, scientifique ou littéraire (voir les inventaires présentés dans Zaghouani 2014, et sur le site personnel de A. Eddakrouri, https://sites.google.com/a/aucegypt.edu/infoguistics/directory/Corpus-Linguistics/arabic-corpora).
Comme c’est le cas pour la plupart des langues, l’arabe parlé est moins bien représenté que l’arabe écrit dans ces bases. Ce retard est dû au fait que la constitution de corpus partageables est beaucoup plus lourde pour l’oral, si l’on prend en compte toutes les étapes nécessaires : terrain et collecte, exigences éthiques et juridiques, complexité et lourdeur des procédures de transformation des données primaires – les enregistrements – en données secondaires, opérations qui soulèvent notamment des problèmes de conventions de transcription et de représentation graphique de l’oral (voir billet Corpus d’arabe parlé 2 et 3). L’essentiel de ces étapes se réalisant « à la main », l’ensemble représente un travail extrêmement long et minutieux...
Groupe ARAPI (Véronique Traverso, Catherine Pinon, Loubna Dimachki, Lina Choueiri), « Corpus d’arabe parlé (1) : Quels corpus d’arabe parlé en libre accès ? », Les Carnets de l’Ifpo (Hypotheses.org), le 30 octrobre 2018. [En ligne] http://ifpo.hypotheses.org/8865
Corpus d’arabe parlé (2) : Contraintes et problèmes liés à la réalisation des corpus d’arabe parlé en interaction
Publié le 21/12/2018
Ce billet discute une première série de questions pratiques auxquelles doit répondre toute personne qui entreprend de confectionner un corpus d’arabe parlé en vue de la recherche. Nous posons et traitons ces questions ici dans la perspective d’une approche pragmatique et interactionnelle des pratiques linguistiques. Ces approches reposent sur une conception située du langage, selon laquelle les usages sont à la fois formatés par la situation dans laquelle les locuteurs se trouvent, et eux-mêmes constitutifs de cette situation. Les approches interactionnelles s’intéressent spécifiquement à ce que l’on peut considérer comme “l’habitat” naturel du langage, les interactions de la vie sociale, construites par une alternance de prises de parole. Confectionner des corpus, et par voie de conséquence transcrire des données, pour décrire ces pratiques ne consiste pas à accumuler des quantités de mots transcrits et annotés. D’autres exigences se font jour, telles que la recherche de la “naturalité des données” et la notation des phénomènes souvent minuscules (une hésitation, la prononciation d’un son) qui sont nécessaires aux analyses.
Par rapport au cas d’autres langues, certaines caractéristiques de la langue arabe posent des problèmes spécifiques, qui complexifient l’entreprise de confection de corpus de langue parlée.
1. Les types de données : interactionnelles et naturelles
Les ressources auxquelles les locuteurs recourent pour parvenir à se comprendre dans leur vie sociale sont hétérogènes. Elles sont à la fois multimodales (gestes, regards, postures, manipulation d’objets, occupation de l’espace, etc.) et linguistiques. Elles sont mises en œuvre en fonction des besoins pratiques des locuteurs, eux-mêmes liés aux activités dans lesquelles ils sont engagés. Elles se déploient temporellement au cours de ces activités.
On parle de « ressources » pour signifier que l’approche est non normative. Elle se fonde sur l’observation et la description des usages effectifs des locuteurs. Ainsi, de nombreux phénomènes généralement considérés comme des usages relâchés, désorganisés, voire fautifs, de la langue (sur le plan syntaxique notamment), sont en réalité la trace du travail temporalisé et collaboratif que les locuteurs effectuent avec et sur les ressources qu’ils utilisent pour communiquer, en les combinant, les organisant temporellement et séquentiellement, et en les bricolant. Pour décrire ces ressources il faut travailler sur des données naturelles, c’est-à-dire des données qui ne sont pas produites pour les besoins de la recherche, ni dans une situation construite par le chercheur, comme consulter son médecin, inviter ses amis ou répondre à des questions pour la promotion de son film par exemple (voir Mondada 2000 sur la naturalité des données).
Bien que ce ne soit pas l’objet du présent billet, il importe de dire quelques mots des conditions de collectes de ce type de données. En effet, enregistrer des personnes dans les situations sociales, que ce soit sous forme audio ou vidéo, nécessite d’obtenir leur autorisation. Il faut avoir leur consentement éclairé, c’est-à-dire leur accord à être enregistrées après avoir été informées de l’usage qui sera fait des données, et du type de recherche entrepris. Les personnes doivent, non seulement consentir à être enregistrées, mais également spécifier le type d’usage qu’elles autorisent pour les données (usage du seul chercheur collecteur, usage ouvert à un plus grand nombre de personnes, autorisation de diffusion d’extraits de l’enregistrement dans des cours ou dans des conférences, autorisation à la mise en ligne dans des bases dédiées à la recherche, etc.).
Le plus souvent, dans les formulaires de demande de consentement éclairé (voir des exemples de formulaires sur le site http://icar.cnrs.fr/projets/corinte/recueil/autorisation.htm), les chercheurs s’engagent, de surcroît, à anonymiser les données qui seront diffusées (anonymisation de toutes les données à caractère personnel ; “bipage” et floutage de ces mêmes données à caractère personnel sur les données audio et vidéo).
Ces procédures d’anonymisation sont mises en œuvre dans les données primaires aussi bien que dans les données secondaires, les transcriptions, dont nous allons parler maintenant.
Corpus d’arabe parlé (3) : Choix pour la notation des sons et des phénomènes dans la réalisation de corpus d’arabe parlé
Publié le 13/06/2019
Nous poursuivons l’inventaire des questions pratiques relatives à la réalisation de corpus d’arabe parlé notamment afin de décrire les pratiques linguistiques dans des perspectives pragmatiques et interactionnelles. Ce troisième billet est consacré au choix des alphabets pour la transcription des données.
Aujourd’hui, on considère en général qu’un corpus d’arabe parlé partageable doit mettre à la disposition des utilisateurs, non seulement les données primaires (enregistrements), mais aussi au moins deux lignes (tiers) de transcription, une en caractères arabes et une (au moins) en transcription phonétique (voir les billets Corpus d’arabe parlé 1 et 2). Pour aborder les choses, il faut distinguer d’une part les types de transcription (phonétique ou orthographique) et d’autre part les types d’alphabet utilisés (basés sur l’alphabet latin ou sur l’alphabet arabe).
Dans les faits, les transcriptions orthographiques se font en caractères arabes, même si certaines formes de translittération en caractères latins respectent l’orthographe, avec une correspondance lettre à lettre. Pour les transcriptions phonétiques, qui cherchent à s’approcher des prononciations effectives, se pose la question du choix d’un alphabet. Il existe en effet différentes possibilités, toutes développées sur la base de caractères latins. Mais rappelons toutefois la mention par Habash, Diab & Rambow 2012 d’un essai de notation des dialectes à des fins descriptives à l’aide de l’orthographe standard de l’arabe enrichie d’autres signes. Ce type d’entreprise est en revanche plus fréquent et ancien en littérature, notamment théâtrale, avec les propositions d’écritures dialectales. Voir par exemple les recherches sur ce sujet de Doss 1996 et Boustani & Germanos, 2016. En lien avec nos questions, il est intéressant de souligner que l’oralisation de textes de ce type nécessite l’application de règles de lecture, qui peuvent être explicitées. C’est le cas par exemple de la troupe Zouqâq qui fournit, au début de ses pièces “Maʃraħ watanī wa Ʒenna Ʒenna Ʒenna” (2018, Dâr al-Fârâbî), une série de règles de lecture concernant aussi bien la notation des sons que celle de phénomènes comme les interruptions.
Corpus d’arabe parlé (4) La convention de transcription ARAPI pour l’arabe parlé en interaction
Publié le 20/06/2019
La convention établie par le groupe ARAPI a pour objectif de proposer des normes de transcription de l’arabe parlé en interaction. Établie à partir de corpus syro-libanais, elle est conçue pour être étendue à toutes les variétés d’arabe parlé. Les corpus sont transcrits en quatre tiers (lignes de transcriptions), ce qui les rend exploitables par des chercheurs de différents domaines.
Avant de présenter la convention tier par tier, rappelons qu’elle doit répondre à deux principes fondamentaux : l’efficacité et l’exploitabilité. Pour être efficace, une convention doit fournir un cadre de transcription couvrant un maximum de cas en un minimum de règles. Cette concision aide à l’appropriation de la transcription et à sa maniabilité (utilisation aisée). La convention et les transcriptions doivent pouvoir servir à tous les chercheurs, quelle que soit leur spécialité : on peut sélectionner parmi les quatre tiers la ou les plus intéressantes pour une recherche particulière, et adapter la transcription en fonction des besoins de la recherche, grâce à l’accès aux sources primaires (voir le billet Corpus d’arabe parlé 2).
1. Une convention en plusieurs tiers
La convention ARAPI propose un système de transcription à quatre tiers, assurant ainsi la notation la plus complète possible d’éléments linguistiques et interactionnels. Outre ce document principal qui présente les tiers une à une dans leurs spécificités, la convention comprend 5 annexes : l’annexe 1 propose une convention de transcription pour les phénomènes oraux et interactionnels. L’annexe 2 est une liste ordonnée des notations conventionnelles. L’annexe 3 fournit une liste d’étiquettes pour la glose morpho-syntaxique. L’annexe 4 présente les conventions de transcription de l’arabe parlé en écriture arabe. L’annexe 5 est un tableau synoptique qui présente de manière synthétique et comparative les règles de transcription des différentes tiers. Un prochain billet ARAPI proposera un exemple transcrit commenté.
La tier 1 : une transcription interactionnelle
Cette tier de transcription est adaptée aux analyses pragmatiques, discursives et interactionnelles. Elle comporte tous les éléments relatifs à la production de la langue parlée en interaction et fonctionne en lien avec les données primaires (enregistrements). Il s’agit d’une transcription phonético-phonologique en caractères latins qui utilise l’alphabet phonétique international avec des adaptations (par exemple, les voyelles longues sont notées avec un trait suscrit (ā, ū, ī au lieu de a :, u :, i :), car les deux points ont une valeur dans la transcription interactionnelle ; les consonnes emphatiques sont marquées par des points souscrits aux consonnes non-emphatiques correspondantes. La transcription vise une granularité moyenne et restreint l’emploi des voyelles à dix timbres, certains ayant deux longueurs. Bien que basée sur la phonétique, elle conserve le découpage en mot (cf. billet Corpus d’arabe parlé 3). Pour la notation des phénomènes interactionnels, cette tier s’appuie sur la convention ICOR qui s’inspire des conventions de Jefferson (2004) généralement utilisées en linguistique interactionnelle, avec de légères modifications. Un récapitulatif est fourni en annexe 1, Conventions de transcription pour les phénomènes oraux et interactionnels [lien HAL].
La tier 2 : une transcription morphosyntaxique
Cette tier dédoublée constitue la translittération en caractères latins de la tier 3. La tier 2a consiste en une transcription phonologique et morpho-syntaxique (notée en caractères latins à l’aide de l’alphabet phonétique international adapté). Elle correspond à une représentation phonologique d’un standard du dialecte concerné qui intègre un certain nombre de choix conventionnels. Ces notations conventionnelles (les pronoms, les particules, la morphologie verbale et nominale, le lexique dialectal, les expressions idiomatiques, les emprunts, etc.) permettent d’homogénéiser au maximum la transcription, d’en faciliter la lecture et de mettre en oeuvre des recherches automatiques. La notation des phénomènes interactionnels y est réduite (pauses, chevauchements et enchaînements, segments inaudibles et troncations). La tier 2b est une glose morpho-syntaxique suivant la référence des Leipzig Glossing Rules . Cette tier s’adosse à l’annexe 2, Liste des notations conventionnelles et l’annexe 3, Liste des gloses morpho-syntaxiques.
La tier 3 : une transcription en caractères arabes
La tier 3 est une transcription morpho-syntaxique en caractères arabes qui s’inspire de la convention CODA (Conventional Orthography for Dialectal Arabic ) et dont les principes sont expliqués dans l’annexe 4, Règles générales de transcription des dialectes en caractères arabes [lien HAL p.41]. La représentation orthographique suit le ductus de l’arabe standard chaque fois que cela est possible, de manière à éviter un foisonnement de formes non reconnaissables dans les recherches automatiques et donc préjudiciables pour l’analyse. En même temps, on conserve les traits spécifiques du dialecte transcrit, en faisant émerger un standard dialectal par le biais de différentes notations conventionnelles fournies dans l’annexe 2 (cf. ci-dessous le paragraphe consacré à la transcription des dialectes en caractères arabes). On conserve une notation réduite des phénomènes interactionnels.
La tier 4 : une traduction
La tier de traduction offre un accès direct au sens, en respectant la conformité à l’original tout en garantissant l’intelligibilité de la transcription. Aucun signe de ponctuation n’est ajouté mais quelques phénomènes interactionnels sont notés. Certains éléments difficilement traduisibles font l’objet de notations conventionnelles.
Groupe ARAPI (Véronique Traverso, Catherine Pinon, Loubna Dimachki, Lina Choueiri), « Corpus d’arabe parlé (2) : Contraintes et problèmes liés à la réalisation des corpus d’arabe parlé en interaction », Les Carnets de l’Ifpo (Hypotheses.org), le 21 décembre 2018. [En ligne] http://ifpo.hypotheses.org/9039