Toute personne ayant tenté au moins une fois de transcrire un fichier audio vous le dira : l’écoute et la saisie au clavier sont des opérations fastidieuses, plus techniques qu’elles n’en ont l’air et qui prennent du temps ! De quoi rebuter les débutants ou les personnes pressées… L’alternative qui s’offre à eux est de faire appel à un service de transcription (audiotypie ou saisie manuelle) ou bien d’avoir recours à des outils de transcription automatisée. Or, malgré les progrès techniques, l’automatisation n’est pas encore la panacée. Tout dépend de l’usage qu’on en a…
La connaissance des mots conduit à la connaissance des choses.
Platon, né en 428 / 427 av. J.-C. et mort en 348 / 347 av. J.-C
L’espoir du logiciel miracle
Qui n’a pas rêvé d’une transcription qui se ferait toute seule grâce à un logiciel miraculeux ? On chargerait le fichier audio dans le logiciel et hop, en sortirait automatiquement sa version écrite ! Dans les faits, le miracle n’existe pas encore et les logiciels de transcription automatique ne transcrivent jamais totalement tout seuls. Malgré les énormes progrès réalisés dans le domaine de la reconnaissance vocale, la technique n’est pas encore capable de transcrire efficacement et sans concours humain tous types de contenus audio.
Cela signifie qu’il faut quand même y passer du temps : soit en amont pour « roder » le logiciel de reconnaissance vocale, soit pendant pour répéter le contenu avec une voix reconnue par la machine, soit en aval pour corriger le texte très imparfait produit par la machine ! Ainsi, la qualité n’est pas forcément au rendez-vous. On est souvent loin de l’idéal, mais cela peut néanmoins être intéressant. Tout dépend du type de contenu audio et de l’utilisation prévue.
Ce qu’on peut attendre de ces outils, ce n’est donc pas qu’ils nous remplacent à 100 %, mais qu’ils génèrent un gain de temps ou bien qu’ils rendent l’opération de transcription moins difficile. Or, cela ne marche pas à tous les coups : il faut certaines conditions pour que cela fonctionne.
-> Ce qu’il faut savoir sur la transcription
Du vocabulaire ou des voix ?
Il existe aujourd’hui différentes solutions gratuites ou payantes proposant la transcription automatisée d’un contenu audio. Il peut s’agir de logiciels de dictée vocale (ou saisie vocale). Il peut s’agir aussi d’outils en ligne permettant par exemple le sous-titrage de vidéos. Ils fonctionnent en général sur le principe de la retranscription automatique par reconnaissance vocale. Leurs technologies sont basées sur l’intelligence artificielle, qui doit reconnaître les mots et les dactylographier.
Actuellement, le monde de ces logiciels est divisé en deux :
- d’un côté, on a des logiciels qui peuvent reconnaître peu de mots dans la bouche d’un grand nombre de personnes (ex : assistants vocaux installés sur les smartphones) ;
- de l’autre côté, on a des logiciels capables de reconnaître beaucoup de mots, mais chez une seule personne (c’est le cas de la plupart des logiciels de reconnaissance vocale).
Nul doute qu’avec les progrès de la technique, ces logiciels seront un jour capables de reconnaître n’importe quel mot prononcé par n’importe quelle voix, avec suffisamment de précision. Cela dit, il faudra du temps avant qu’ils soient gratuits, car leur technologie implique de gros investissements. En attendant, ces outils souffrent encore d’imprécision et présentent pas mal d’inconvénients.
Le principal inconvénient de la reconnaissance vocale
La reconnaissance vocale ne reconnaît en général qu’une seule voix, à condition qu’on lui apprenne à la reconnaître. Il faut donc « éduquer » le logiciel pendant quelques temps : on lit un texte imposé de façon à ce que l’application analyse et identifie nos intonations. Avant de commencer à utiliser le logiciel pour transcrire, il y a donc une phase de rodage, qui peut être assez longue. Au bout d’un certain temps de « dressage », le logiciel gagne en rapidité et en précision. Cependant, le fait que le logiciel se spécialise sur la reconnaissance d’une seule voix limite sa capacité à identifier les intonations d’autres voix.
Ce type de logiciel est donc plus efficace pour certains usages, tels que la dictée vocale de notes, et se revèle bien moins efficace pour transcrire des entretiens, des réunions ou des séminaires. À moins qu’on l’utilise en faisant le « perroquet », c’est-à-dire en répétant dans le micro le contenu audio écouté en parallèle, pour que le logiciel puisse transcrire à partir de notre voix qu’il connait. L’opération peut se révéler fastidieuse et n’empêche pas les erreurs. Il faut ainsi s’attendre à devoir saisir manuellement certains termes (noms propres, vocabulaire inconnu du logiciel, tournures orales, etc.). La simplicité d’utilisation n’est donc pas forcément au rendez-vous, sans compter qu’il y a un risque d’appauvrissement du contenu des entretiens ou réunions. En effet, le son comporte bien plus d’informations que la transcription en texte des seuls échanges verbaux. En n’identifiant que les mots, un logiciel de reconnaissance vocale induit une perte d’informations contextuelles ou relationnelles qui sont parfois cruciales (par exemple en sciences sociales).
Les avantages quand ça marche
Utiliser un transcripteur vocal peut apporter un gain de productivité et un confort de travail dans certaines situations. Sa vitesse d’exécution est alors trois fois plus élevée qu’une saisie manuelle.
La transcription automatique fonctionne bien s’il s’agit de saisir la dictée vocale d’une personne. Ainsi, elle est surtout intéressante pour :
- transcrire des notes manuscrites, en s’épargnant ainsi une fastidieuse saisie au clavier ;
- dicter des comptes-rendus d’examen ou de consultation (très utile pour les professions libérales médicales ou juridiques) ;
- permettre une utilisation nomade, sans utilisation de clavier (ex : pour travailler directement à partir d’une tablette ou d’un smartphone).
Ce sera d’autant plus intéressant si l’on a une vitesse de frappe plutôt lente ou si l’on ne sait pas taper au clavier sans regarder les touches.
Certaines personnes y trouvent aussi le moyen d’avoir une pensée – donc une rédaction – plus fluide, car moins gênée par les interruptions de la saisie au clavier.
Enfin, cela peut contribuer à prévenir les troubles musculo-squelettiques associés à une utilisation intensive du clavier et à une mauvaise position.
-> Transcription assistée par IA… mais qui assiste qui?
Les limites actuelles de la transcription automatique
Le fait est que malgré les grands progrès réalisés par la technique, la transcription automatique entraîne une perte de qualité conséquente par rapport à la saisie manuelle. La plupart du temps, il s’avère nécessaire de coupler la machine à une intervention humaine pour améliorer le résultat.
Ainsi, ces outils automatiques font pour l’instant encore de nombreuses erreurs. Par exemple, elles sont liées à des confusions phonétiques entre les mots, ce qui engendre des contresens. Les termes techniques et les acronymes sont aussi mal identifiés par les machines. Les conjugaisons et les accords (genres, nombres) sont souvent impropres, la ponctuation la plupart du temps faible ou inexistante. Le résultat est souvent médiocre, parfois totalement illisible.
Il faut donc relire et corriger avec attention le texte produit automatiquement, ce qui au final prend du temps, parfois autant que la transcription manuelle. Cette opération de correction demande aussi des compétences spécifiques, à commencer par la maîtrise de la langue écrite.
Surtout, un logiciel automatique n’a pas la capacité qu’a un audiotypiste de faire des choix de transcription pour adapter le contenu sonore au langage écrit et le rendre lisible : suppression ou non des répétitions selon le type de transcription voulue, nuances de la ponctuation, choix typographiques, utilisation des onomatopées, prise en compte du contexte, etc.
-> Le métier de transcripteur(trice) ou audiotypiste
Par ailleurs, ces outils de transcription automatisée sont très sensibles à la qualité des enregistrements audio : si l’enregistrement est de bonne qualité, sa transcription automatique sera seulement passable ; si l’enregistrement est de mauvaise qualité, le texte transcrit sera vraiment de très mauvaise qualité. De quoi nécessiter un double travail derrière !
À noter que tous les outils existants ne sont pas de même niveau. Les services de transcription automatique payants offrent en général une qualité de résultat supérieure à celle des outils gratuits, en raison d’une meilleure précision dans l’usage de la langue et de la ponctuation.
On fait encore le poids face à la machine !
En résumé, la transcription automatisée, ça peut aider, mais ce n’est pas la panacée ! Elle demeure plus adaptée aujourd’hui à la dictée individuelle, pour laquelle la reconnaissance vocale peut être optimisée, qu’à des enregistrements comportant plusieurs voix.
Il est certain qu’à l’avenir, ces outils automatiques vont s’améliorer et gagner en précision et qualité. Cependant, il faut se rendre à l’évidence : à ce jour, aucun logiciel de transcription automatisée n’est capable d’égaler la justesse et la précision d’un transcripteur professionnel. Pour un moment encore, l’être humain garde sa valeur ajoutée face à la machine…