La puissance du multimédia au service de l’apprentissage des langues étrangères

Dossier : Le MultimédiaMagazine N°550 Décembre 1999
Par Nagi SIOUFI (79)

Des méthodes traditionnelles vers les méthodes multimédias

Des méthodes traditionnelles vers les méthodes multimédias

Depuis le début des années 90, l’ap­pren­tis­sage des langues étrangères subit de pro­fondes trans­for­ma­tions du fait de l’avène­ment du mul­ti­mé­dia. L’ap­port des tech­nolo­gies nou­velles dans ce domaine rend les out­ils tra­di­tion­nels de plus en plus obsolètes, et ceci bien plus que dans les autres domaines. Cela explique le suc­cès com­mer­cial des CD-ROM d’ap­pren­tis­sage des langues qui représen­tent aujour­d’hui plus de 30 % du marché des CD-ROM éducatifs.

Les out­ils tra­di­tion­nels s’ap­puient soit sur un sup­port papi­er (livre, dic­tio­n­naire, ency­clopédie, etc.), soit sur un sup­port audio (cas­sette, CD audio, etc.), soit sur un sup­port vidéo (films en ver­sion orig­i­nale, CNN, etc.).

Ces dif­férents sup­ports restent répan­dus et util­isés là où l’or­di­na­teur ne peut être présent. Mais la minia­tur­i­sa­tion des com­posants et le développe­ment des dif­férentes formes d’or­di­na­teurs itinérants raré­fient ces situations.

L’ex­em­ple des lab­o­ra­toires de langues à base de cas­settes est sig­ni­fi­catif de cette évo­lu­tion. Ces équipements néces­si­taient des investisse­ments élevés et con­tin­u­aient à être instal­lés jusqu’au milieu des années 90. Leur rem­place­ment par des solu­tions à base d’or­di­na­teurs en réseau, équipés des logi­ciels adéquats, est devenu irréversible. Ces lab­o­ra­toires mul­ti­mé­dias inclu­ent toutes les fonc­tions de leurs prédécesseurs, en offrent des cen­taines d’autres sup­plé­men­taires, s’ap­puient sur des archi­tec­tures stan­dard et évo­lu­tives et coû­tent moins cher du fait de la baisse des prix du matériel informatique.

Les cours avec un pro­fesseur par­ti­c­uli­er sont sou­vent très effi­caces mais devi­en­nent très rapi­de­ment exces­sive­ment coû­teux. Les tar­ifs peu­vent baiss­er si le nom­bre de par­tic­i­pants s’élève, mais il est prou­vé que l’ef­fi­cac­ité est inverse­ment pro­por­tion­nelle à ce nombre.

De plus, les cours imposent une con­trainte géo­graphique et tem­porelle : l’ap­prenant doit se déplac­er dans un lieu qui ne l’arrange pas tou­jours, et ceci à une heure déter­minée et selon une fréquence qui lui con­vi­en­nent rarement lorsqu’il exerce une activ­ité professionnelle.

Le mul­ti­mé­dia fusionne tous les sup­ports exis­tants et ajoute l’in­ter­ac­tiv­ité. Son inci­dence sur l’ap­pren­tis­sage devient con­sid­érable­ment plus élevée de ce fait. La tran­si­tion des méth­odes de langues vers le mul­ti­mé­dia a cepen­dant don­né lieu à trois généra­tions successives.

Lors de la pre­mière généra­tion, les pre­miers bal­bu­tiements sont apparus sous forme de trans­fert de con­tenus péd­a­gogiques d’un ou de plusieurs sup­ports tra­di­tion­nels vers le sup­port mul­ti­mé­dia. Par exem­ple, au cours du trans­fert d’une méthode sur cas­settes et du livret d’ac­com­pa­g­ne­ment vers le cd-rom, un logi­ciel de nav­i­ga­tion plus ou moins per­for­mant pou­vait don­ner l’im­pres­sion d’une explo­ration facile du contenu.

Cer­tains exer­ci­ces péd­a­gogiques trans­férés du sup­port papi­er, comme le texte com­por­tant des “trous” ou l’ex­er­ci­ce d’as­so­ci­a­tion de syn­onymes, appor­taient une pre­mière inter­ac­tiv­ité avec la cor­rec­tion automa­tique par l’or­di­na­teur de l’ac­tiv­ité de l’ap­prenant. Le trans­fert de la fonc­tion “enreg­istrez-vous” des méth­odes sur cas­settes vers l’or­di­na­teur rendait la manip­u­la­tion bien plus com­mode sans pour autant apporter une grande valeur ajoutée péd­a­gogique. De même, les méth­odes d’En­seigne­ment assisté par ordi­na­teur (EAO) à base de vidéodis­ques se sont dif­fusées à cette péri­ode. Elles per­me­t­taient essen­tielle­ment de vision­ner un film en ver­sion orig­i­nale et de béné­fici­er de tout un ensem­ble de fonc­tions facil­i­tant la com­préhen­sion de l’ap­prenant : avant, arrière, stop, pause, avance rapi­de, tra­duc­tion, sous-titres, expli­ca­tions, etc.

La deux­ième généra­tion de pro­duits a dépassé ce stade du trans­fert de sup­port et a com­mencé à utilis­er toute la puis­sance des nou­velles tech­nolo­gies. L’u­til­i­sa­tion de la recon­nais­sance vocale pour aider l’ap­prenant dans l’ap­pren­tis­sage de l’ex­pres­sion orale et de la pronon­ci­a­tion a con­sti­tué une véri­ta­ble révo­lu­tion dans la mesure où l’outil obtenu per­me­t­tait d’ap­porter une solu­tion effi­cace à un prob­lème mal résolu jusque-là. La tech­nolo­gie de la recon­nais­sance vocale qui est détail­lée dans la suite de ce doc­u­ment est d’ailleurs vite dev­enue la tech­nolo­gie clé dans l’ap­pren­tis­sage des langues.

De la même façon, d’autres pro­duits ont exploité la puis­sance de l’or­di­na­teur pour apporter une solu­tion à un besoin péd­a­gogique spé­ci­fique. Les out­ils inté­grant des cor­recteurs orthographiques et gram­mat­i­caux ont aidé les moins novices à mieux rédi­ger en repérant les fautes les plus évi­dentes. Les logi­ciels de suivi ont per­mis de garder une trace du com­porte­ment de l’ap­prenant, de l’é­val­uer et de définir pro­gres­sive­ment des enseigne­ments indi­vid­u­al­isés adap­tés aux besoins de chacun.

La troisième généra­tion est la plus récente. Elle com­porte des méth­odes com­plètes qui cou­vrent tout le proces­sus d’ap­pren­tis­sage d’une langue étrangère : expres­sion orale, expres­sion écrite, com­préhen­sion orale, com­préhen­sion écrite, gram­maire, vocab­u­laire. Elles s’adaptent à tous les niveaux, du débu­tant à l’élève con­fir­mé, et exploitent toutes les dernières avancées tech­nologiques : recon­nais­sance vocale, vidéo MPEG, accès Inter­net, diag­nos­tic intel­li­gent, etc.

Évolution de l’apprentissage des langues étrangères à l’oral

L’ap­pren­tis­sage des langues étrangères à l’o­ral a con­nu dif­férents stades de développe­ment majeurs.

Au tout début, l’ap­prenant avait un seul moyen à sa dis­po­si­tion pour se per­fec­tion­ner à l’o­ral : repro­duire le plus fidèle­ment pos­si­ble la voix de son pro­fesseur.

Puis il a eu la pos­si­bil­ité d’enreg­istr­er sa pro­pre voix et de se réé­couter. D’analogique l’en­reg­istrement devint numérique, mais mal­gré une amélio­ra­tion qual­i­ta­tive, cette tech­nique restait lim­itée par la per­cep­tion audi­tive du sujet.

Au début des années 90, la société Aura­log a intro­duit pour la pre­mière fois la tech­nolo­gie de la recon­nais­sance vocale dans ses méth­odes, per­me­t­tant ain­si à l’ap­prenant de dia­loguer libre­ment avec l’or­di­na­teur, sans manip­u­la­tion du clavier ni de la souris, et d’obtenir une éval­u­a­tion automa­tique de sa prononciation.

Définition et classification de la reconnaissance vocale

La recon­nais­sance vocale désigne l’ensem­ble des tech­nolo­gies per­me­t­tant à une machine de recon­naître la parole. Les tech­nolo­gies de recon­nais­sance vocale mod­ernes sont basées sur une analyse des phonèmes de la phrase prononcée.

Trois critères per­me­t­tent de dis­tinguer les moteurs de recon­nais­sance vocale.

1. Le pre­mier est le type de dis­cours recon­nu (mot à mot ou parole con­tin­ue) par le logiciel :
— soit les mots sont pronon­cés isolé­ment, c’est-à-dire séparés par des péri­odes de silence,
— soit le dis­cours se fait en con­tinu et per­met ain­si une pronon­ci­a­tion naturelle.

2. Le deux­ième critère dis­tingue les moteurs de recon­nais­sance vocale fonc­tion­nant unique­ment sur les mots, de ceux fonc­tion­nant sur les phras­es complètes.

3. Le troisième critère est le degré de dépen­dance vis-à-vis du locuteur :
— sys­tème monolo­cu­teur : sys­tème adap­té ou adapt­able grâce à un proces­sus d’en­traîne­ment à un locu­teur par­ti­c­uli­er (“speak­er depen­dent”),
— sys­tème mul­ti­lo­cu­teurs (“speak­er inde­pen­dent”) : recon­nais­sance vocale fonc­tion­nant pour tout un groupe de locu­teurs, ce groupe pou­vant, à l’ex­trême, inté­gr­er n’im­porte quelle per­son­ne par­lant la langue apprise (indépen­dam­ment de son âge, de son sexe, du tim­bre de sa voix…).

Les meilleurs CD-ROM du marché utilisent les moteurs de recon­nais­sance vocale les plus sophis­tiqués : l’ap­prenant peut per­fec­tion­ner sa pronon­ci­a­tion sur des mots ou des phras­es com­plètes, au rythme qu’il désire. De plus, les logi­ciels de type “speak­er inde­pen­dent” sont immé­di­ate­ment util­is­ables par tous les locu­teurs, sans entraîne­ment préalable.

La reconnaissance vocale : vingt ans d’évolution technologique

La tech­nolo­gie de la recon­nais­sance vocale a évolué, pas­sant du hard­ware (cartes) au soft­ware. Aujour­d’hui, l’ap­prenant prononce libre­ment une phrase et le logi­ciel note la qual­ité de la pronon­ci­a­tion par une analyse com­plexe des phonèmes.

Voici la chronolo­gie des dif­férentes étapes du développe­ment de la recon­nais­sance vocale sur les vingt dernières années.

Début des années 1980

Les pre­miers sys­tèmes monolo­cu­teurs de recon­nais­sance vocale sont appliqués sur des machines industrielles.

1985

C’est env­i­ron à cette date qu’ap­pa­rais­sent les pre­mières cartes équipées de DSP (Dig­i­tal Sig­nal Proces­sor), per­me­t­tant d’im­plé­menter une tech­nolo­gie de recon­nais­sance vocale sur un PC. Ces tech­nolo­gies sont très com­plex­es à met­tre en œuvre (test sur un pan­el sig­ni­fi­catif de locu­teurs). Ces cartes ne sont pas dif­fusées au grand public.

1991

La pre­mière appli­ca­tion d’ap­pren­tis­sage de langues fondée sur la recon­nais­sance vocale est créée.

1994

C’est l’ar­rivée des cartes DSP grand pub­lic (sous Win­dows™).

1995

Des solu­tions logi­cielles issues de la tech­nolo­gie des cartes font leur appari­tion. Le pre­mier logi­ciel grand pub­lic sous Win­dows™ est lancé avec un sys­tème de recon­nais­sance vocale mul­ti­lo­cu­teurs fonc­tion­nant sur des phras­es com­plètes. La recon­nais­sance vocale per­met au logi­ciel d’analyser la pronon­ci­a­tion de l’ap­prenant et de l’é­val­uer grâce à un sys­tème d’é­val­u­a­tion sophistiqué.

1996

La recon­nais­sance vocale est exploitée dif­férem­ment selon son util­i­sa­tion : méthode de langues ou logi­ciel de dic­tée vocale.

Par­al­lèle­ment au marché des langues, les pre­miers logi­ciels de dic­tée vocale sont lancés sur le marché. Le prin­ci­pal édi­teur est alors Drag­on­Sys­tems. La recon­nais­sance vocale se fait mot à mot.

1998

Des méth­odes com­plètes de langues sont lancées, dans lesquelles, pour la pre­mière fois, la recon­nais­sance vocale est appliquée aux exer­ci­ces linguistiques.

Sur le marché de la dic­tée vocale appa­rais­sent les pre­miers logi­ciels autorisant la dic­tée en con­tinu.

1999

Une inno­va­tion tech­nologique révo­lu­tion­naire, SETS (Spo­ken Error Track­ing Sys­tem) appa­raît et per­met de localis­er les défauts de prononciation.

La recon­nais­sance vocale fonc­tion­nait déjà de façon con­tin­ue sur des phras­es com­plètes et indépen­dam­ment du locu­teur. Restait encore un prob­lème qu’au­cune équipe de développe­ment n’avait résolu jusqu’à présent : iden­ti­fi­er l’élé­ment mal pronon­cé dans une phrase complète.

Après plusieurs années de recherche, des ingénieurs ont mis au point une tech­nolo­gie qui per­met de détecter automa­tique­ment l’er­reur de pronon­ci­a­tion dans une phrase. Cette tech­nolo­gie exclu­sive, bap­tisée SETS (Spo­ken Error Track­ing Sys­tem), fait l’ob­jet d’un dépôt de brevet. En repérant les points faibles dans la pronon­ci­a­tion de l’ap­prenant, SETS représente une avancée déci­sive dans l’ap­pren­tis­sage d’une langue étrangère sur ordinateur.

Exploitation de la reconnaissance vocale dans les méthodes de langues

1. Le dialogue interactif

Grâce à la tech­nolo­gie avancée de la recon­nais­sance vocale, l’u­til­isa­teur engage un véri­ta­ble dia­logue avec son PC. Les répons­es de l’u­til­isa­teur ori­en­tent la conversation.

Suiv­ant son niveau, l’ap­prenant paramètre la recon­nais­sance vocale pour la ren­dre plus tolérante ou plus exigeante quant à la qual­ité de sa prononciation.

2. La prononciation de la phrase ou du mot

L’u­til­isa­teur s’en­traîne à pronon­cer une phrase ou un mot et obtient une note (score) lui per­me­t­tant d’é­val­uer la qual­ité de son accent, de sa pronon­ci­a­tion et de son intonation.

3. L’affichage de la phrase ou du mot prononcé

Le logi­ciel offre — en plus de l’é­val­u­a­tion — la pos­si­bil­ité de visu­alis­er pré­cisé­ment sa pronon­ci­a­tion et son into­na­tion. Deux types de représen­ta­tions (un graphe et une courbe) sont disponibles. L’u­til­isa­teur peut les affich­er simul­tané­ment ou séparément.

Le graphe vocal indique l’am­pli­tude de la voix en fonc­tion du temps (notion d’én­ergie). Il représente l’in­ten­sité sonore de la voix et donne des indi­ca­tions sur la struc­ture de la prononciation.

La courbe de la fréquence fon­da­men­tale repro­duit les vari­a­tions de la fréquence de la voix en fonc­tion du temps (notion de hau­teur). Cette courbe, com­plé­men­taire du graphe vocal, per­met à l’ap­prenant de com­par­er pré­cisé­ment son into­na­tion à celle du mod­èle (aigu/grave).

Les meilleurs logi­ciels pro­posent des fonc­tions qui éval­u­ent et per­me­t­tent de visu­alis­er la pronon­ci­a­tion et l’in­to­na­tion aus­si bien pour des phras­es com­plètes que pour des mots.

4. Les animations de phonèmes en 3D

Grâce à des ani­ma­tions phoné­tiques en images de syn­thèse, l’ap­prenant peut visu­alis­er avec une grande pré­ci­sion les mou­ve­ments artic­u­la­toires pour mieux les reproduire.

Cette tech­nolo­gie d’ex­cep­tion aide à com­pren­dre le fonc­tion­nement artic­u­la­toire de la pro­duc­tion de cer­tains sons et à les mémoris­er, afin de mieux les reproduire.

Des exemples d’application

Glos­saire

  • Speech recog­ni­tionRecon­nais­sance vocale
    Ensem­ble des tech­nolo­gies per­me­t­tant à une machine de recon­naître la parole.
     
  • Dif­fi­cul­ty lev­el of the speech recog­ni­tionNiveau de dif­fi­culté de la recon­nais­sance vocale
    Niveau à par­tir duquel l’or­di­na­teur accepte un mot ou une phrase comme suff­isam­ment bien pronon­cé. Les pro­duits Aura­log per­me­t­tent à l’u­til­isa­teur de mod­uler ce niveau, afin d’adapter la dif­fi­culté de prononciation.
     
  • SETS (Spo­ken Error Track­ing Sys­tem)Tech­nolo­gie SETS
    Tech­nolo­gie exclu­sive d’Au­ra­log per­me­t­tant de détecter automa­tique­ment l’er­reur de pronon­ci­a­tion dans une phrase complète.
     
  • Wave­form - Graphe vocal
    Représen­ta­tion graphique de l’am­pli­tude de la voix en fonc­tion du temps. Ce graphe donne une indi­ca­tion sur la struc­ture de la prononciation.
     
  • Pitch curveCourbe de la fréquence fondamentale
    Représen­ta­tion graphique per­me­t­tant de visu­alis­er les vari­a­tions de la fréquence de la voix en fonc­tion du temps et ain­si d’amélior­er l’intonation.
     
  • Word-by-word speech recog­ni­tionRecon­nais­sance vocale mot à mot
    Pour être recon­nus par l’or­di­na­teur, les mots doivent être pronon­cés isolé­ment, c’est-à-dire entre­coupés de silences.
     
  • Con­tin­u­ous speech recog­ni­tionRecon­nais­sance vocale en continu
    Car­ac­térise les moteurs de recon­nais­sance vocale les plus évolués. Le dis­cours avec l’or­di­na­teur peut se faire en continu.
     
  • Speak­er-depen­dent sys­temSys­tème monolocuteur
    Sys­tème de recon­nais­sance vocale adap­té ou adapt­able via un proces­sus d’en­traîne­ment à un locu­teur particulier.
     
  • Speak­er-inde­pen­dent sys­temSys­tème multilocuteurs
    Recon­nais­sance vocale fonc­tion­nant pour tout un groupe de locu­teurs, ce groupe pou­vant, à l’ex­trême, inté­gr­er n’im­porte quelle per­son­ne par­lant la langue apprise.
     
  • DSP (Dig­i­tal Sig­nal Proces­sor)Processeur de signal
    Processeur per­me­t­tant d’im­plé­menter une tech­nolo­gie de recon­nais­sance vocale dans un micro-ordi­na­teur. Il a été rem­placé par des solu­tions logi­cielles de recon­nais­sance vocale. (le prin­ci­pal logi­ciel est IBM ViaVoice)

Le nou­v­el aéro­port de Hong-Kong, Chek Lap Kok, utilise des CD-ROM Skytalk avec recon­nais­sance vocale pour son cen­tre de for­ma­tion au con­trôle du traf­ic aérien. Ces CD-ROM per­me­t­tent aux pilotes et aux aigu­illeurs du ciel de per­fec­tion­ner leur expres­sion orale en anglais. Skytalk invite l’u­til­isa­teur à jouer le rôle d’un pilote ou d’un aigu­illeur du ciel en prenant part à un dia­logue inter­ac­t­if, inspiré d’un réel échange radio. Les con­ver­sa­tions, basées sur des échanges et des sit­u­a­tions très car­ac­téris­tiques, per­me­t­tent à l’ap­prenant de se famil­iaris­er avec le vocab­u­laire pro­pre à l’aviation.

Grâce à la recon­nais­sance vocale, qui favorise un appren­tis­sage per­son­nal­isé, l’or­di­na­teur joue le rôle de pro­fesseur par­ti­c­uli­er : il pose des ques­tions à l’u­til­isa­teur, réag­it en fonc­tion de ses répons­es et éval­ue sa pronon­ci­a­tion au fil de la con­ver­sa­tion. Dans l’ex­er­ci­ce de pronon­ci­a­tion, celui-ci s’en­traîne à pronon­cer les expres­sions dif­fi­ciles et sur­monte ain­si rapi­de­ment ses hési­ta­tions. Très inter­ac­tive, cette méthode enseigne aux apprenants à com­pren­dre et à réa­gir rapi­de­ment dans des sit­u­a­tions très divers­es, fac­teur pri­mor­dial pour garan­tir la sécu­rité des com­mu­ni­ca­tions sol/air.

Pour bon nom­bre d’or­gan­ismes, la com­mu­ni­ca­tion en anglais entre les pilotes et les aigu­illeurs du ciel est dev­enue une préoc­cu­pa­tion majeure. L’u­til­i­sa­tion de ces out­ils s’in­scrit donc, pour ces cen­tres de for­ma­tion, dans un effort con­tinu d’amélio­ra­tion de la sécu­rité aéri­enne. D’autres organ­ismes utilisent la même méthode, tels que la Sin­ga­pore Avi­a­tion Acad­e­my et l’or­gan­isme de for­ma­tion ital­ien, la Ente Nazionale di Assis­ten­za al Volo.

En France, le min­istère de l’É­d­u­ca­tion nationale a équipé la total­ité des Insti­tuts uni­ver­si­taires de for­ma­tion des maîtres (IUFM) et des Cen­tres régionaux de doc­u­men­ta­tion péd­a­gogique (CRDP) en CD-ROM Tell me More. De la même façon, en Espagne, la Jun­ta de Andalu­cia a acquis plus de 500 licences afin de cou­vrir l’ensem­ble du sys­tème sco­laire sec­ondaire d’Andalousie.

De nom­breuses entre­pris­es s’in­téressent égale­ment à ces méth­odes, qui con­stituent un out­il de for­ma­tion per­for­mant pour leurs salariés : citons Mer­cedes-Benz, qui équipe la total­ité de son groupe avec plus de 2 000 licences ou l’U­nion des Ban­ques suiss­es, avec plus de 500 licences.

Dernier équipement en date, la com­pag­nie aéri­enne nationale Air France vient d’ac­quérir 1 000 licences de CD-ROM : 900 licences “clas­siques” seront répar­ties dans les cen­tres de for­ma­tion ou dans les antennes d’Air France du monde entier, et 100 licences “déportées” per­me­t­tront aux employés de la com­pag­nie d’équiper leurs pro­pres micro-ordinateurs.

L’u­til­i­sa­tion de licences déportées per­me­t­tra donc aux apprenants de pour­suiv­re leur appren­tis­sage à domi­cile ou lors de fréquents déplace­ments. Cet équipement porte sur les 6 langues d’ap­pren­tis­sage prin­ci­pales (anglais bri­tan­nique, anglais améri­cain, espag­nol, alle­mand, ital­ien, français langue étrangère), selon tous les niveaux (débu­tant, moyen, con­fir­mé, affaires).

Poster un commentaire