Les moteurs de recherche, acteurs stratégiques

Dossier : L'Intelligence économiqueMagazine N°640 Décembre 2008
Par François BOURDONCLE (84)

Deve­nus un outil aus­si indis­pen­sable que le télé­phone, les moteurs de recherche pré­sentent bien des pièges : risques de mani­pu­la­tion, espion­nage de bre­vets, atteinte à la vie pri­vée. Au ser­vice de la recherche, les moteurs de demain met­tront en contact les inter­nautes qui par­tagent les mêmes centres d’intérêt.

Les moteurs de recherche sont stra­té­giques à plus d’un titre. Ils sont deve­nus pour beau­coup un outil aus­si indis­pen­sable dans la vie quo­ti­dienne que le télé­phone. Il est dif­fi­cile d’i­ma­gi­ner com­ment l’on fai­sait » avant « , tout comme il est dif­fi­cile d’i­ma­gi­ner com­ment l’on fai­sait » avant » l’a­vè­ne­ment de la télé­pho­nie mobile. Que ce soit pour faire ses achats en ligne, orga­ni­ser ses voyages, faire ses réser­va­tions, recher­cher de l’in­for­ma­tion à usage pro­fes­sion­nel, ou orga­ni­ser une acti­vi­té de veille, les moteurs de recherche sont le point de pas­sage obligé.

Repères
La per­for­mance des régies, qui com­mer­cia­lisent à la fois des ban­nières (publi­ci­té sous forme gra­phique) et des liens com­mer­ciaux (qui appa­raissent au-des­sus, et par­fois à droite des résul­tats dits » orga­niques »), est étroi­te­ment liée à la qua­li­té et au tra­fic du moteur asso­cié. Les liens com­mer­ciaux sont, d’une part, ache­tés aux enchères par les annon­ceurs, et d’autre part ne rap­portent de l’argent aux sites qui affichent la publi­ci­té que si ces liens sont cli­qués (c’est ce qu’on appelle le » paie­ment à la performance »).

Le modèle d’affaires de l’économie numérique

Mais, l’autre rai­son qui fait des moteurs de recherche des acteurs stra­té­giques du monde Inter­net c’est qu’ils sont les modèles d’af­faires de toute l’é­co­no­mie numé­rique. Les régies publi­ci­taires des géants Google, Yahoo, et plus récem­ment, Micro­soft, sont en effet indis­pen­sables pour » moné­ti­ser » les ser­vices Inter­net, c’est-à-dire per­mettre à ces ser­vices de gagner de l’argent grâce à la publi­ci­té, exac­te­ment comme la télé­vi­sion pri­vée se finance par la publicité.

Le paie­ment à la per­for­mance voit les annon­ceurs se bous­cu­ler pour sur­en­ché­rir pour l’a­chat de mots clefs pour affi­cher leur publi­ci­té de manière contex­tuelle. Par exemple, Renault va vou­loir à tout prix ache­ter le mot » voi­ture » pour que chaque fois qu’un uti­li­sa­teur fait une recherche du genre » voi­ture rouge « , une publi­ci­té pour les voi­tures Renault s’affiche.

Les moteurs de recherche indexent-ils l’information de manière tota­le­ment neutre ?

Un moteur popu­laire ven­dra donc plus cher le clic sur cha­cun de ses liens com­mer­ciaux, et il sera affi­ché (et donc cli­qué) plus sou­vent. De plus, un plus grand nombre d’an­non­ceurs implique un plus grand nombre de mots dif­fé­rents ache­tés, et donc un pour­cen­tage plus impor­tant des recherches qui donnent lieu à l’af­fi­chage de liens com­mer­ciaux (on appelle cela le » taux de cou­ver­ture » de la régie). Enfin, le nombre d’an­non­ceurs est aus­si direc­te­ment lié à la per­ti­nence des liens com­mer­ciaux, ce qui aug­mente la pro­ba­bi­li­té qu’un uti­li­sa­teur clique sur le lien (c’est le » taux de clics »), ce qui génère là aus­si plus de revenus.

Le reve­nu d’un moteur de recherche est donc fonc­tion du pro­duit de son tra­fic, du prix moyen du lien com­mer­cial, du taux de cou­ver­ture, et du taux de clics des uti­li­sa­teurs sur les liens, ce qui fait que la ren­ta­bi­li­té d’une bonne régie peut faci­le­ment être plus de trois à cinq fois supé­rieure à celle d’une régie médiocre.

Des risques de manipulation

La prime à la taille
La prime à la plus grosse régie (Google) est consi­dé­rable et tend méca­ni­que­ment à ren­for­cer encore plus son avan­tage concur­ren­tiel, car les sites et les annon­ceurs vont natu­rel­le­ment pré­fé­rer tra­vailler avec elle. La tâche est donc très dure pour le numé­ro deux (Yahoo), et a for­tio­ri, pour le numé­ro trois (Micro­soft).
L’i­ro­nie de l’his­toire est que le bre­vet sur les liens com­mer­ciaux est déte­nu par Yahoo qui a accor­dé une licence pour quelques cen­taines de mil­lions de dol­lars seule­ment juste avant l’en­trée en Bourse de Google, quand cette socié­té n’é­tait pas encore aus­si domi­nante qu’elle ne l’est aujourd’­hui. Mais Google ayant un moteur plus per­for­mant que celui de Yahoo, sa régie publi­ci­taire s’est ren­for­cée au point de deve­nir incon­tour­nable. De ce point de vue, le rachat de Yahoo par Micro­soft, s’il était confir­mé, serait une excel­lente nou­velle pour tous les acteurs de l’é­co­no­mie numé­rique car il per­met­trait à ces der­niers de mettre en concur­rence, pour moné­ti­ser leurs ser­vices, deux régies publi­ci­taires aux per­for­mances comparables.
La posi­tion domi­nante de la régie de Google est éga­le­ment l’une des rai­sons pour les­quelles le Dépar­te­ment de la jus­tice amé­ri­cain enquête actuel­le­ment sur l’u­ti­li­sa­tion de la régie publi­ci­taire de Google par Yahoo, en com­plé­ment de sa propre régie publi­ci­taire, afin d’a­mé­lio­rer la moné­ti­sa­tion de son moteur de recherche.

Dans le contexte de la veille, les moteurs de recherche pré­sentent bien des pièges dont peu de pro­fes­sion­nels semblent conscients. Au-delà du débat sur l’ex­haus­ti­vi­té de l’in­dexa­tion des moteurs de recherche et sur la taille du Web visible ou caché (voir plus loin), il n’est pas illé­gi­time de se deman­der si les moteurs de recherche indexent l’in­for­ma­tion de manière tota­le­ment neutre, et si cer­taines infor­ma­tions sen­sibles y sont ou non réfé­ren­cées. De plus, le clas­se­ment des résul­tats peut être mani­pu­lé de plu­sieurs manières, et des socié­tés spé­cia­li­sées, ou des par­ti­cu­liers par­ti­cu­liè­re­ment doués, ont ain­si réus­si, pen­dant un cer­tain temps, à faire appa­raître le site offi­ciel du pré­sident George W. Bush en tête des résul­tats du moteur Google sur la requête » mise­rable failure « .

Cette his­toire, qui est une illus­tra­tion de ce que l’on appelle le » Google bom­bing « , a fait le tour de l’In­ter­net, mais le clas­se­ment des résul­tats tient compte d’un nombre de para­mètres tel­le­ment impor­tant (popu­la­ri­té du site, texte de la page, texte du titre, texte des liens poin­tant sur la page, graphe des liens hyper­textes, des­crip­teurs séman­tiques, etc.), que le résul­tat de la for­mule est dif­fi­cile à pré­voir, et sa mani­pu­la­tion éven­tuelle qua­si impos­sible à prouver.

Brevets et vie privée

Enfin, un der­nier point impor­tant dans un contexte de veille mais aus­si de res­pect de la vie pri­vée est la tra­ça­bi­li­té de plus en plus grande de l’en­semble des acti­vi­tés en ligne : chaque recherche effec­tuée sur un moteur de recherche est archi­vée avec l’a­dresse IP de l’or­di­na­teur d’où est issue la recherche. Si cet ordi­na­teur est le pare-feu d’une grande entre­prise, alors il est pos­sible de savoir qu’un sala­rié de cette entre­prise a tel ou tel centre d’in­té­rêt, ce qui peut être grave si l’en­tre­prise en ques­tion est en train de dépo­ser des bre­vets sur ce sujet.

Au niveau de la vie pri­vée, ce qui est pré­oc­cu­pant, c’est le croi­se­ment des bases de don­nées conte­nant des infor­ma­tions per­son­nelles, et la faci­li­té qu’il y a à faire des croi­se­ments entre ces bases de don­nées quand celles-ci appar­tiennent à la même socié­té (recherche d’in­for­ma­tions, cour­rier élec­tro­nique, paie­ment en ligne, blog, etc.), car l’u­ti­li­sa­teur a le même iden­ti­fiant, le même mot de passe, et la socié­té dis­pose peut-être même de son iden­ti­té réelle s’il a don­né à un moment don­né son numé­ro de carte ban­caire pour le paie­ment d’une tran­sac­tion. Il est donc impor­tant, pour le pro­fes­sion­nel comme pour le par­ti­cu­lier, de ne pas mettre tous ses oeufs dans le même panier et d’u­ti­li­ser des ser­vices de plu­sieurs four­nis­seurs dif­fé­rents. Il est éga­le­ment légi­time pour l’Eu­rope de se poser la ques­tion de son indé­pen­dance stra­té­gique en matière d’ac­cès à l’in­for­ma­tion, comme elle le fait par exemple pour le GPS avec Galileo.

Un principe commun

Tous les moteurs de recherche fonc­tionnent aujourd’­hui fon­da­men­ta­le­ment sur le même prin­cipe. Dans une pre­mière phase, ils recensent toutes les pages Web aux­quelles ils ont accès, en démar­rant par la page d’ac­cueil des plus gros sites exis­tants (des por­tails comme Yahoo par exemple), et en sui­vant les liens hyper­textes qui appa­raissent dans les pages rencontrées.

De fil en aiguille
De nom­breuses amé­lio­ra­tions des moteurs de recherche sont pos­sibles, notam­ment lors­qu’on prend en compte la com­po­sante humaine de l’ac­ti­vi­té de recherche, qui est essen­tielle, notam­ment dans un pro­ces­sus de veille. Cer­tains moteurs comme Exa­lead pro­posent éga­le­ment de navi­guer dans les résul­tats grâce à une tech­nique bre­ve­tée appe­lée » recherche par séren­di­pi­té » qui, à l’aide d’une sorte de table des matières contex­tuelle, per­met de recher­cher un peu comme on lit un dic­tion­naire ou une ency­clo­pé­die, en com­men­çant par un mot, et de fil en aiguille, en trou­vant le mot ou le concept le plus inté­res­sant que l’on n’a­vait pas for­cé­ment pré­sent à l’es­prit en com­men­çant la lecture.

Ils mettent ces liens dans une liste d’at­tente (les nou­veaux liens à la fin de la liste) et par­courent le Web un peu à la manière de l’onde qui se pro­page à la sur­face d’un lac quand on laisse tom­ber une goutte d’eau en son centre. On appelle cela le par­cours » en lar­geur d’a­bord » du graphe consti­tué par les liens hyper­textes. Ce par­cours essaie d’é­vi­ter de recen­ser trop de pages d’un site au détri­ment des autres. Le sys­tème s’ar­rête soit quand les pages n’existent pas, sont pro­té­gées, par exemple, par des mots de passe, soit encore si elles ne sont pas acces­sibles en sui­vant des liens, ce qui est par exemple le cas des pages qui sont sto­ckées dans une base de don­nées acces­sible par un for­mu­laire que le moteur ne peut pas rem­plir seul sans assis­tance humaine (c’est ce que l’on appelle par­fois le Web invi­sible, ou le Web caché).

Une fois les pages recen­sées et numé­ro­tées, elles sont sto­ckées, puis indexées de manière à asso­cier à chaque mot la liste ordon­née des pages où ce mot appa­raît, et les posi­tions de ce mot sur cha­cune des pages. Quand un uti­li­sa­teur fait une recherche à plu­sieurs mots, par exemple » vache folle « , le moteur met en cor­res­pon­dance les deux listes des occur­rences de vache et de folle et cherche tous les docu­ments dans les­quels vache et folle appa­raissent, et où, de plus, si vache appa­raît à la posi­tion n dans un docu­ment, alors folle appa­raît à la posi­tion n + 1 dans le même docu­ment. Cet algo­rithme est linéaire dans la taille des deux listes.

Le par­cours « en lar­geur d’abord » évite de recen­ser trop de pages d’un site au détri­ment des autres

Une composante humaine

Mais le futur des moteurs de recherche est sans doute ailleurs encore. En effet, il y a fon­da­men­ta­le­ment trois moyens de cher­cher sur Inter­net : sa mémoire (par exemple, les favo­ris de son navi­ga­teur), les moteurs de recherche (qu’ils soient géné­ra­listes ou spé­cia­li­sés, comme ceux des sites de com­merce élec­tro­nique), et enfin, il y a des amis à qui l’on peut deman­der conseil. Or les moteurs de recherche ne prennent pas du tout en compte cette troi­sième com­po­sante, humaine, de l’ac­ti­vi­té de recherche, qui est pour­tant essen­tielle, notam­ment dans un pro­ces­sus de veille. Le ser­vice Baagz est le pre­mier moteur de recherche per­met­tant à l’u­ti­li­sa­teur d’en­trer auto­ma­ti­que­ment en contact avec d’autres uti­li­sa­teurs par­ta­geant les mêmes centres d’in­té­rêt que lui et qui seront les mieux à même de l’ai­der à trou­ver des réponses à des ques­tions com­plexes qu’il est dif­fi­cile de poser à un moteur de recherche traditionnel.

Des dossiers intelligents

La manière de fonc­tion­ner d’un sys­tème comme Baagz consiste à per­mettre à l’u­ti­li­sa­teur de créer et d’or­ga­ni­ser ses favo­ris dans des » sacs » et de par­ta­ger s’il le sou­haite cer­tains de ses sacs avec d’autres uti­li­sa­teurs. Ces sacs sont en réa­li­té des dos­siers intel­li­gents qui uti­lisent la des­crip­tion séman­tique que le moteur Exa­lead asso­cie à chaque site Inter­net pour com­prendre les centres d’in­té­rêt de l’u­ti­li­sa­teur et asso­cier auto­ma­ti­que­ment les sacs de ce der­nier aux com­mu­nau­tés qui sont les plus à même de l’in­té­res­ser et de l’ai­der dans ses recherches.

BIBLIOGRAPHIE

» Recherche d’ai­guilles dans une botte de liens « , Fran­çois Bour­doncle et Patrice Ber­tin, La Recherche, 328 (février 2000), page 66.

EN SAVOIR PLUS SUR INTERNET

www.exalead.com
www.baagz.com

Poster un commentaire