Les moteurs de recherche, acteurs stratégiques

Dossier : L'Intelligence économiqueMagazine N°640 Décembre 2008
Par François BOURDONCLE (84)

Les moteurs de recherche sont stratégiques à plus d’un titre. Ils sont devenus pour beau­coup un out­il aus­si indis­pens­able dans la vie quo­ti­di­enne que le télé­phone. Il est dif­fi­cile d’imag­in­er com­ment l’on fai­sait ” avant “, tout comme il est dif­fi­cile d’imag­in­er com­ment l’on fai­sait ” avant ” l’avène­ment de la télé­phonie mobile. Que ce soit pour faire ses achats en ligne, organ­is­er ses voy­ages, faire ses réser­va­tions, rechercher de l’in­for­ma­tion à usage pro­fes­sion­nel, ou organ­is­er une activ­ité de veille, les moteurs de recherche sont le point de pas­sage obligé.

Repères
La per­for­mance des régies, qui com­mer­cialisent à la fois des ban­nières (pub­lic­ité sous forme graphique) et des liens com­mer­ci­aux (qui appa­rais­sent au-dessus, et par­fois à droite des résul­tats dits ” organiques ”), est étroite­ment liée à la qual­ité et au traf­ic du moteur asso­cié. Les liens com­mer­ci­aux sont, d’une part, achetés aux enchères par les annon­ceurs, et d’autre part ne rap­por­tent de l’ar­gent aux sites qui affichent la pub­lic­ité que si ces liens sont cliqués (c’est ce qu’on appelle le ” paiement à la performance ”).

Le modèle d’affaires de l’économie numérique

Mais, l’autre rai­son qui fait des moteurs de recherche des acteurs stratégiques du monde Inter­net c’est qu’ils sont les mod­èles d’af­faires de toute l’é­conomie numérique. Les régies pub­lic­i­taires des géants Google, Yahoo, et plus récem­ment, Microsoft, sont en effet indis­pens­ables pour ” moné­tis­er ” les ser­vices Inter­net, c’est-à-dire per­me­t­tre à ces ser­vices de gag­n­er de l’ar­gent grâce à la pub­lic­ité, exacte­ment comme la télévi­sion privée se finance par la publicité.

Le paiement à la per­for­mance voit les annon­ceurs se bous­culer pour surenchérir pour l’achat de mots clefs pour affich­er leur pub­lic­ité de manière con­textuelle. Par exem­ple, Renault va vouloir à tout prix acheter le mot ” voiture ” pour que chaque fois qu’un util­isa­teur fait une recherche du genre ” voiture rouge “, une pub­lic­ité pour les voitures Renault s’affiche.

Les moteurs de recherche index­ent-ils l’information de manière totale­ment neutre ?

Un moteur pop­u­laire ven­dra donc plus cher le clic sur cha­cun de ses liens com­mer­ci­aux, et il sera affiché (et donc cliqué) plus sou­vent. De plus, un plus grand nom­bre d’an­non­ceurs implique un plus grand nom­bre de mots dif­férents achetés, et donc un pour­cent­age plus impor­tant des recherch­es qui don­nent lieu à l’af­fichage de liens com­mer­ci­aux (on appelle cela le ” taux de cou­ver­ture ” de la régie). Enfin, le nom­bre d’an­non­ceurs est aus­si directe­ment lié à la per­ti­nence des liens com­mer­ci­aux, ce qui aug­mente la prob­a­bil­ité qu’un util­isa­teur clique sur le lien (c’est le ” taux de clics ”), ce qui génère là aus­si plus de revenus.

Le revenu d’un moteur de recherche est donc fonc­tion du pro­duit de son traf­ic, du prix moyen du lien com­mer­cial, du taux de cou­ver­ture, et du taux de clics des util­isa­teurs sur les liens, ce qui fait que la rentabil­ité d’une bonne régie peut facile­ment être plus de trois à cinq fois supérieure à celle d’une régie médiocre.

Des risques de manipulation

La prime à la taille
La prime à la plus grosse régie (Google) est con­sid­érable et tend mécanique­ment à ren­forcer encore plus son avan­tage con­cur­ren­tiel, car les sites et les annon­ceurs vont naturelle­ment préfér­er tra­vailler avec elle. La tâche est donc très dure pour le numéro deux (Yahoo), et a for­tiori, pour le numéro trois (Microsoft).
L’ironie de l’his­toire est que le brevet sur les liens com­mer­ci­aux est détenu par Yahoo qui a accordé une licence pour quelques cen­taines de mil­lions de dol­lars seule­ment juste avant l’en­trée en Bourse de Google, quand cette société n’é­tait pas encore aus­si dom­i­nante qu’elle ne l’est aujour­d’hui. Mais Google ayant un moteur plus per­for­mant que celui de Yahoo, sa régie pub­lic­i­taire s’est ren­for­cée au point de devenir incon­tourn­able. De ce point de vue, le rachat de Yahoo par Microsoft, s’il était con­fir­mé, serait une excel­lente nou­velle pour tous les acteurs de l’é­conomie numérique car il per­me­t­trait à ces derniers de met­tre en con­cur­rence, pour moné­tis­er leurs ser­vices, deux régies pub­lic­i­taires aux per­for­mances comparables.
La posi­tion dom­i­nante de la régie de Google est égale­ment l’une des raisons pour lesquelles le Départe­ment de la jus­tice améri­cain enquête actuelle­ment sur l’u­til­i­sa­tion de la régie pub­lic­i­taire de Google par Yahoo, en com­plé­ment de sa pro­pre régie pub­lic­i­taire, afin d’amélior­er la monéti­sa­tion de son moteur de recherche.

Dans le con­texte de la veille, les moteurs de recherche présen­tent bien des pièges dont peu de pro­fes­sion­nels sem­blent con­scients. Au-delà du débat sur l’ex­haus­tiv­ité de l’in­dex­a­tion des moteurs de recherche et sur la taille du Web vis­i­ble ou caché (voir plus loin), il n’est pas illégitime de se deman­der si les moteurs de recherche index­ent l’in­for­ma­tion de manière totale­ment neu­tre, et si cer­taines infor­ma­tions sen­si­bles y sont ou non référencées. De plus, le classe­ment des résul­tats peut être manip­ulé de plusieurs manières, et des sociétés spé­cial­isées, ou des par­ti­c­uliers par­ti­c­ulière­ment doués, ont ain­si réus­si, pen­dant un cer­tain temps, à faire appa­raître le site offi­ciel du prési­dent George W. Bush en tête des résul­tats du moteur Google sur la requête ” mis­er­able failure “.

Cette his­toire, qui est une illus­tra­tion de ce que l’on appelle le ” Google bomb­ing “, a fait le tour de l’In­ter­net, mais le classe­ment des résul­tats tient compte d’un nom­bre de paramètres telle­ment impor­tant (pop­u­lar­ité du site, texte de la page, texte du titre, texte des liens pointant sur la page, graphe des liens hyper­textes, descrip­teurs séman­tiques, etc.), que le résul­tat de la for­mule est dif­fi­cile à prévoir, et sa manip­u­la­tion éventuelle qua­si impos­si­ble à prouver.

Brevets et vie privée

Enfin, un dernier point impor­tant dans un con­texte de veille mais aus­si de respect de la vie privée est la traça­bil­ité de plus en plus grande de l’ensem­ble des activ­ités en ligne : chaque recherche effec­tuée sur un moteur de recherche est archivée avec l’adresse IP de l’or­di­na­teur d’où est issue la recherche. Si cet ordi­na­teur est le pare-feu d’une grande entre­prise, alors il est pos­si­ble de savoir qu’un salarié de cette entre­prise a tel ou tel cen­tre d’in­térêt, ce qui peut être grave si l’en­tre­prise en ques­tion est en train de dépos­er des brevets sur ce sujet.

Au niveau de la vie privée, ce qui est préoc­cu­pant, c’est le croise­ment des bases de don­nées con­tenant des infor­ma­tions per­son­nelles, et la facil­ité qu’il y a à faire des croise­ments entre ces bases de don­nées quand celles-ci appar­ti­en­nent à la même société (recherche d’in­for­ma­tions, cour­ri­er élec­tron­ique, paiement en ligne, blog, etc.), car l’u­til­isa­teur a le même iden­ti­fi­ant, le même mot de passe, et la société dis­pose peut-être même de son iden­tité réelle s’il a don­né à un moment don­né son numéro de carte ban­caire pour le paiement d’une trans­ac­tion. Il est donc impor­tant, pour le pro­fes­sion­nel comme pour le par­ti­c­uli­er, de ne pas met­tre tous ses oeufs dans le même panier et d’u­tilis­er des ser­vices de plusieurs four­nisseurs dif­férents. Il est égale­ment légitime pour l’Eu­rope de se pos­er la ques­tion de son indépen­dance stratégique en matière d’ac­cès à l’in­for­ma­tion, comme elle le fait par exem­ple pour le GPS avec Galileo.

Un principe commun

Tous les moteurs de recherche fonc­tion­nent aujour­d’hui fon­da­men­tale­ment sur le même principe. Dans une pre­mière phase, ils recensent toutes les pages Web aux­quelles ils ont accès, en démar­rant par la page d’ac­cueil des plus gros sites exis­tants (des por­tails comme Yahoo par exem­ple), et en suiv­ant les liens hyper­textes qui appa­rais­sent dans les pages rencontrées.

De fil en aiguille
De nom­breuses amélio­ra­tions des moteurs de recherche sont pos­si­bles, notam­ment lorsqu’on prend en compte la com­posante humaine de l’ac­tiv­ité de recherche, qui est essen­tielle, notam­ment dans un proces­sus de veille. Cer­tains moteurs comme Exalead pro­posent égale­ment de nav­iguer dans les résul­tats grâce à une tech­nique brevetée appelée ” recherche par sérendip­ité ” qui, à l’aide d’une sorte de table des matières con­textuelle, per­met de rechercher un peu comme on lit un dic­tio­n­naire ou une ency­clopédie, en com­mençant par un mot, et de fil en aigu­ille, en trou­vant le mot ou le con­cept le plus intéres­sant que l’on n’avait pas for­cé­ment présent à l’e­sprit en com­mençant la lecture.

Ils met­tent ces liens dans une liste d’at­tente (les nou­veaux liens à la fin de la liste) et par­courent le Web un peu à la manière de l’onde qui se propage à la sur­face d’un lac quand on laisse tomber une goutte d’eau en son cen­tre. On appelle cela le par­cours ” en largeur d’abord ” du graphe con­sti­tué par les liens hyper­textes. Ce par­cours essaie d’éviter de recenser trop de pages d’un site au détri­ment des autres. Le sys­tème s’ar­rête soit quand les pages n’ex­is­tent pas, sont pro­tégées, par exem­ple, par des mots de passe, soit encore si elles ne sont pas acces­si­bles en suiv­ant des liens, ce qui est par exem­ple le cas des pages qui sont stock­ées dans une base de don­nées acces­si­ble par un for­mu­laire que le moteur ne peut pas rem­plir seul sans assis­tance humaine (c’est ce que l’on appelle par­fois le Web invis­i­ble, ou le Web caché).

Une fois les pages recen­sées et numérotées, elles sont stock­ées, puis indexées de manière à associ­er à chaque mot la liste ordon­née des pages où ce mot appa­raît, et les posi­tions de ce mot sur cha­cune des pages. Quand un util­isa­teur fait une recherche à plusieurs mots, par exem­ple ” vache folle “, le moteur met en cor­re­spon­dance les deux listes des occur­rences de vache et de folle et cherche tous les doc­u­ments dans lesquels vache et folle appa­rais­sent, et où, de plus, si vache appa­raît à la posi­tion n dans un doc­u­ment, alors folle appa­raît à la posi­tion n + 1 dans le même doc­u­ment. Cet algo­rithme est linéaire dans la taille des deux listes.

Le par­cours « en largeur d’abord » évite de recenser trop de pages d’un site au détri­ment des autres

Une composante humaine

Mais le futur des moteurs de recherche est sans doute ailleurs encore. En effet, il y a fon­da­men­tale­ment trois moyens de chercher sur Inter­net : sa mémoire (par exem­ple, les favoris de son nav­i­ga­teur), les moteurs de recherche (qu’ils soient général­istes ou spé­cial­isés, comme ceux des sites de com­merce élec­tron­ique), et enfin, il y a des amis à qui l’on peut deman­der con­seil. Or les moteurs de recherche ne pren­nent pas du tout en compte cette troisième com­posante, humaine, de l’ac­tiv­ité de recherche, qui est pour­tant essen­tielle, notam­ment dans un proces­sus de veille. Le ser­vice Baagz est le pre­mier moteur de recherche per­me­t­tant à l’u­til­isa­teur d’en­tr­er automa­tique­ment en con­tact avec d’autres util­isa­teurs partageant les mêmes cen­tres d’in­térêt que lui et qui seront les mieux à même de l’aider à trou­ver des répons­es à des ques­tions com­plex­es qu’il est dif­fi­cile de pos­er à un moteur de recherche traditionnel. 

Des dossiers intelligents

La manière de fonc­tion­ner d’un sys­tème comme Baagz con­siste à per­me­t­tre à l’u­til­isa­teur de créer et d’or­gan­is­er ses favoris dans des ” sacs ” et de partager s’il le souhaite cer­tains de ses sacs avec d’autres util­isa­teurs. Ces sacs sont en réal­ité des dossiers intel­li­gents qui utilisent la descrip­tion séman­tique que le moteur Exalead asso­cie à chaque site Inter­net pour com­pren­dre les cen­tres d’in­térêt de l’u­til­isa­teur et associ­er automa­tique­ment les sacs de ce dernier aux com­mu­nautés qui sont les plus à même de l’in­téress­er et de l’aider dans ses recherches.

BIBLIOGRAPHIE

Recherche d’aigu­illes dans une botte de liens “, François Bour­don­cle et Patrice Bertin, La Recherche, 328 (févri­er 2000), page 66.

EN SAVOIR PLUS SUR INTERNET

www.exalead.com
www.baagz.com

Poster un commentaire