En fin d’année dernière, j’ai réalisé une prestation de transcription qui m’a presque donné l’impression de changer de métier… À moins qu’il ne s’agisse d’un métier hybride, issu de l’alliance de la transcription et de la relecture-correction. Une mutation consécutive à l’irruption des intelligences artificielles (IA)… qui date pourtant d’un certain temps dans ces deux métiers, touchés très tôt par la recherche d’une automatisation visant à nous assister et à apporter des gains de productivité. Mais en fait, qui assiste qui ?
Les hommes vont en aveugle dans leur vie. Les mots sont leur canne blanche.
Christian Bobin, Le Très-Bas, 1992
Comme toute transcriptrice professionnelle, je m’enorgueillis de produire, à la seule force de mes oreilles, de mes mains et de mes compétences en français, des entretiens soigneusement transcrits de l’audio vers l’écrit. Et comme beaucoup de mes collègues, je me méfie de ces logiciels de transcription automatique censés nous remplacer, tout en étant persuadée qu’ils sont encore loin d’en être capables. Ce en quoi je n’ai ni tort… ni totalement raison.
L’occasion de le vérifier s’est présentée. Une cliente m’a demandé si je serais d’accord de tester la « transcription assistée » au lieu de ma prestation de « transcription manuelle » habituelle. Le but : voir si l’on pouvait gagner du temps et réduire le coût de la mission, en obtenant un résultat satisfaisant. J’ai hésité (allais-je vendre mon âme au diable ?), puis ai décidé de tenter l’expérience (après tout, les transcripteurs et transcriptrices aussi ont leurs anges-gardiens).
-> Transcription manuelle ou automatique?
Une opération hybride
Il fallait traiter onze entretiens individuels et huit entretiens collectifs (focus-groupes) assez courts. La cliente les a passés dans la moulinette d’un logiciel de transcription automatique (basé sur une IA) dédié plutôt à la transcription de contenus audiovisuels. Les textes qui en sont sortis m’ont été confiés, sur traitement de texte pour que j’opère une relecture et un « nettoyage », tout en écoutant les enregistrements audio pour vérification. Un peu déroutant pour moi au début, le job restait néanmoins technique : c’est une sorte de mix entre un travail de transcription et une mission de relecture-correction. En cela, mon double profil de correctrice et de transcriptrice m’a bien aidée. Ce n’était pas déplaisant, ça restait intéressant et par certains côtés, me semblait plus facile. Sauf que par moments, j’avais le sentiment de ne pouvoir vraiment bien faire l’une ou l’autre de ces tâches… précisément parce que celles-ci étaient associées (écoute audio + relecture-correction = deux types de concentration ou focalisation différents). L’écoute y est différente de celle mobilisée lors d’une transcription manuelle, et je me suis sentie moins « pénétrée » par le sens des propos transcrits: ma compréhension en était moins bonne, moins profonde.
Des gains relatifs
Alors, au final, est-ce que j’ai gagné du temps ? Sur les entretiens individuels, un peu, mais pas autant qu’escompté : le gain de temps tournait autour de 20 % (j’ avais tablé sur 30 % de gain de temps – selon une info trouvée sur le net – et fixé mon prix en fonction de ça). Peut-être que mon manque d’habitude m’a ralentie. Mais… en réalité, le travail à fournir reste chronophage : la relecture (doublée d’une réécoute), la correction et le nettoyage, cela demande tout autant d’attention et presque autant de temps qu’une transcription manuelle… et c’est moins bon en termes de qualité de rendu : ça peut rester correct si l’audio n’a pas posé trop de soucis à l’IA, mais c’est loin d’atteindre la finesse de restitution de l’oral et la qualité de la présentation écrite qu’on peut avoir en transcription manuelle, grâce à l’application de règles spécifiques. En effet, la production du texte initial par l’IA rend impossible ou plus complexe l’application de certaines de ces règles. On ne maîtrise pas le contenu autant qu’en transcription manuelle, car on part du contenu fourni par le logiciel, ce qui conditionne le travail et limite les choix et la marge d’intervention du transcripteur ou de la transcriptrice. C’est surtout moins fiable car le risque de laisser passer des erreurs est plus fort.
Ainsi, ce n’est pas adapté pour toutes les formules de transcription, car le logiciel fait un premier nettoyage des mots ou sons (qu’il juge inutiles ou qu’il ne comprend pas), souvent très arbitraire. Pour la transcription épurée, ça peut aller si on réajuste derrière (mais des coquilles et des pertes de contenus peuvent subsister), mais pour la transcription intégrale, ça n’a aucun intérêt, il y a trop de boulot de reprise et complément à faire.
Par ailleurs, ce qui semble tout à fait impossible, c’est de recourir à cette transcription assistée pour les entretiens collectifs : j’ai essayé, mais c’était catastrophique, la machine ne gérait pas bien les différentes voix, les contenus fournis ne tenaient pas la route plus d’une demi-phrase… et faisaient preuve parfois d’une imagination délirante. Bien sûr la plus ou moins grande performance du logiciel utilisé joue certainement sur sa capacité à prendre en charge plusieurs voix… peut-être que le logiciel en question n’était pas le plus approprié pour cet usage (il y en a tant…), mais en tous cas, là, ce n’était vraiment pas convaincant, et laissait à penser que même avec un outil plus performant, cela resterait bien en-deçà de ce qui est visé. Avec l’accord de ma cliente, j’ai donc traité tous les entretiens collectifs en transcription manuelle (avec l’aide d’un logiciel d’écoute audio, mais sans l’assistance d’une IA spécialisée).
-> Ce qu’il faut savoir sur la transcription
L’avis des transcriptrices professionnelles
J’en ai discuté avec mes collègues transcriptrices indépendantes, qui ont toutes testé au moins une fois la transcription assistée. Elles déclarent unanimement y être défavorables : « Tu comprends, le client espère faire des économies et nous paie beaucoup moins au motif que ça va nous prendre moins de temps, sauf qu’en fait, cela prend quasi autant de temps et qu’en plus, on a le sentiment de faire un moins bon travail. Ça vaut pas le coup. » Je suis évidemment d’accord avec elles et ai décidé de privilégier la transcription manuelle.
Néanmoins, je trouve que l’opération de transcription assistée est un peu moins fatigante (mais une personne plus expérimentée que moi en dactylo mais moins à l’aise en relecture-correction ne dirait peut-être pas ça): ça peut présenter un intérêt si les exigences sur la qualité du rendu ne sont pas trop fortes et que les entretiens offrent très peu de complexité audio risquant de mettre en difficulté l’IA. Encore faut-il que la réduction du coût de la mission de transcription ne soit pas trop importante, en ne surestimant pas le gain de temps qu’en a réellement la transcriptrice ou le transcripteur.
Le recours à la transcription assistée amène selon moi nécessairement à une standardisation des transcriptions produites, conditionnées par les limites de la machine dans l’interprétation du contenu sonore et le choix de sa représentation écrite. Soit une réduction des possibles pour les clients.
-> Le métier de transcripteur ou transcriptrice
Germes de puissances ou d’impuissances?
Au moment où les intelligences artificielles remplissent de plus en plus de tâches et sont introduites dans de nombreux métiers, je me rends compte que paradoxalement, mes métiers de transcriptrice et correctrice, pourtant historiquement touchés très tôt par le phénomène, montrent que ces IA présentent certaines formes d’impuissance. Malgré les progrès constants de la technologie, ces machines intelligentes se heurtent à des limites qu’elles peinent encore à dépasser… et qui appellent l’intervention humaine.
Tout s’imbrique et il sera peut-être bientôt difficile de dire dans quelle mesure nous sommes assistés par les IA ou assistants de celles-ci… à moins qu’un monde à deux vitesses ne se mette en place, où « l’artisanat » ou « l’art du métier » – celui qu’on fait « avec ses mains » (ou avec toute partie de son corps dont la sensorialité échappe aux IA… ce qui vaut aussi pour certaines fonctions cognitives) – sera rare, réputé et cher.
Merci Laurie pour ta contribution, où je reconnais bien ton souci de la qualité de ta production!
Oui, je trouve aussi que la transcription assistée pose un problème au niveau de l’attention, avec tous les risques d’erreurs ou d’oublis qui en découlent.
Et c’est juste, ce que tu dis: la ponctuation est un point sensible…
Salut Laurence,
Au début, quand tu écris « Comme toute transcriptrice professionnelle, je m’enorgueillis de produire, à la seule force de mes oreilles, de mes mains et de mes compétences en français, des entretiens soigneusement transcrits de l’audio vers l’écrit », ça me fait penser, il n’y a pas très longtemps lorsqu’une chercheuse montait son dossier, elle avait besoin d’informations et elle m’a demandé quel logiciel de transcription vocale j’utilisais. J’étais fière de lui répondre : « je n’utilise aucun logiciel de reconnaissance vocale, juste mes petites oreilles et mes petites mains sur mon clavier » 😀 C’est encore un autre sujet, mais c’est un peu dans le même lot.
Tu connais mon avis sur le sujet, j’ai déjà essayé et si je peux éviter de remettre le nez dedans, j’apprécierais beaucoup, car effectivement, le gain n’est pas énorme, voir presque nul si cette pré-transcription n’est pas de bonne qualité. Pour ma part : trop de perte, je suis quasiment sûre de ne pas réussir à restituer correctement l’oral à l’écrit avec ce pré-travail. On fait par ailleurs nettement moins attention à la ponctuation et pourtant, il suffit d’oublier une virgule et la phrase change de sens du tout au tout ! Aussi, j’ajouterais, quand tu dis que te concernant, c’est un peu moins fatigant, je crois que je pourrais dire que c’est tout autant fatigant, car au final, ça demande beaucoup plus d’attention (notamment avec ce petit souci de ponctuation très important à mes yeux), parce qu’au fond de toi, tu sais pertinemment que tu passes à côté de choses, du coup, double concentration = double fatigue alors que tu maîtrises tout lorsque c’est toi qui tape. Mais comme tu le dis, ça dépend de chacun, bien entendu. J’irais même encore plus loin, car ça me fait penser à une étude qui a été menée par l’université de Cambridge et qui a montré que le cerveau ne lit pas lettre par lettre, mais l’ensemble, ce qui veut dire que les lettres peuvent être dans le désordre, mais tant que la première et la dernière est à la bonne place, le cerveau peut lire le mot. C’est encore plus effrayant sur la probable qualité finale de ta transcription, non ??? J’enfonce à peine le clou eh eh