Quelles statistiques sont utiles aux entreprises ?

Dossier : Mathématiques et entreprisesMagazine N°577 Septembre 2002
Par Paul DEHEUVELS

Une entre­prise com­bine trois fonc­tions essen­tielles : inven­ter, fab­ri­quer et ven­dre. L’ex­em­ple de l’in­dus­trie phar­ma­ceu­tique illus­tre par­faite­ment cette trilo­gie. Il lui faut en effet, tout d’abord, décou­vrir de nou­velles molécules répon­dant aux besoins de san­té, ensuite, fab­ri­quer les pré­pa­ra­tions des­tinées à les ren­dre disponibles aux util­isa­teurs, et enfin, com­mer­cialis­er ces dernières afin de génér­er, in fine, un béné­fice d’ex­ploita­tion. Naturelle­ment, ce dernier est des­tiné, d’une part à rentabilis­er les investisse­ments antérieurs, et d’autre part à financer la recherche de pro­duits nouveaux.

Au cours de ces dif­férentes opéra­tions, il est con­stam­ment néces­saire de pou­voir appréci­er les effets thérapeu­tiques des nou­veaux pro­duits, et ceci à par­tir d’un ensem­ble d’ex­péri­ences médi­cales, dont cer­taines doivent être con­duites sur des patients en cours de traite­ment. Il est facile de com­pren­dre, dans ce dernier cas, que les don­nées d’ob­ser­va­tion sont presque tou­jours coû­teuses et peu nom­breuses. Il importe donc qu’on puisse en extraire toute l’in­for­ma­tion disponible, plutôt que de pren­dre des risques sur la san­té de malades en mul­ti­pli­ant des pro­to­coles inutiles.

Le prob­lème se pose d’ailleurs dans les mêmes ter­mes lorsqu’il est fait appel à des expéri­men­ta­tions ani­males. Sans entr­er dans le débat de jus­ti­fi­er ou non leur exis­tence, cha­cun sera d’ac­cord sur le fait qu’il serait inac­cept­able de ne pas chercher à exploiter au mieux les don­nées qu’elles four­nissent. Or, par leur nature, les obser­va­tions aux­quelles on peut avoir accès par l’ex­péri­ence sont impré­cis­es, entachées d’er­reur, et aléa­toires. C’est ain­si qu’il y a peu de traite­ments qui soient effi­caces à 100 % pour traiter des mal­adies comme le can­cer, et qu’on doive jus­ti­fi­er l’in­térêt d’une nou­velle médi­ca­tion en fonc­tion de taux de survie à douze ou vingt-qua­tre mois, plutôt que de compter les guérisons, cette notion per­dant d’ailleurs toute sig­ni­fi­ca­tion sur le long terme.

Il faut alors raison­ner, non pas sur des patients indi­vidu­els, mais sur des pop­u­la­tions. Comme, pour celles-ci, il n’est pas pos­si­ble de prévoir avec cer­ti­tude le détail des réac­tions des indi­vidus qui les com­posent, on cherchera à mesur­er l’in­ci­dence glob­ale des actes thérapeu­tiques aux­quelles elles sont soumises.

Le rôle de la sta­tis­tique est ici essen­tiel. Aus­si bien un mau­vais choix du critère de val­i­da­tion qu’une mau­vaise util­i­sa­tion des out­ils math­é­ma­tiques qu’elle met en œuvre peut aboutir à des déci­sions désas­treuses. On court ain­si le risque de pour­suiv­re le développe­ment d’un pro­duit dan­gereux et inef­fi­cace, ou, inverse­ment, d’ar­rêter pré­maturé­ment l’é­tude d’une molécule poten­tielle­ment riche en appli­ca­tions utiles.

Une approche naïve mèn­erait à croire que la sta­tis­tique est un mono­lithe par­fait, au sens qu’il y aurait pour chaque type d’ex­péri­ence un traite­ment sta­tis­tique unique qui lui soit par­faite­ment adap­té. Il n’en est mal­heureuse­ment rien. Le plus sou­vent, on doit con­fron­ter les don­nées d’ob­ser­va­tion à de vastes cat­a­logues de mod­èles math­é­ma­tiques plus ou moins com­plex­es, et entre lesquels il est dif­fi­cile de jus­ti­fi­er a pri­ori des préférences éventuelles.

D’une cer­taine manière, l’ac­tion du sta­tis­ti­cien s’ap­par­ente alors à celle du médecin au chevet de son patient. Comme tout bon prati­cien, son devoir est de bien inter­préter les symp­tômes var­iés portés à sa con­nais­sance. Les choix qu’il adoptera ensuite pour­ront avoir des con­séquences extrêmes allant de la guéri­son au décès. Avant tout, il lui importe donc de for­muler un bon diagnostic.

Toute­fois, on ne peut pas se fier totale­ment à la seule expéri­ence d’un homme de ter­rain et il est néces­saire de se livr­er à toutes les véri­fi­ca­tions pos­si­bles avant d’ac­cepter ses con­clu­sions. Il s’ag­it en effet de dis­tinguer l’in­for­ma­tion réelle qu’ap­por­tent les obser­va­tions de l’in­for­ma­tion implicite et sub­jec­tive qui est induite par les choix de mod­èle de l’ex­pert en charge de prob­lème. Ceci est loin d’être facile comme on pour­ra le con­stater plus loin.

De plus, la pra­tique de la sta­tis­tique est ren­due d’au­tant plus dif­fi­cile qu’elle se doit de com­bin­er une solide expéri­ence avec des con­nais­sances théoriques appro­fondies. On ren­con­tre sou­vent l’une sans l’autre. Pour­suiv­ant la com­para­i­son entre la sta­tis­tique et la médecine, il est tout autant dan­gereux de se faire soign­er par des rebou­teux que par des biol­o­gistes qui n’ont pas une expéri­ence réelle des malades.

Quelques exemples

Plutôt que de rester abstrait, je don­nerai quelques exem­ples pour illus­tr­er mon pro­pos. Le pre­mier, issu de l’in­dus­trie pétrolière, con­cerne les bou­chons dans les écoule­ments diphasiques (voir, par exem­ple, [2]). Imag­i­nons une plate-forme en pleine mer qui pompe dans un pipeline long de dizaines de kilo­mètres un mélange com­posé d’huile, d’eau et de gaz. Sous cer­taines con­di­tions, l’ensem­ble se sépare en deux com­posantes, l’une gazeuse, l’autre liq­uide, et l’é­coule­ment altern­era donc des bulles gazeuses et des bou­chons liq­uides, ces derniers étant propul­sés dans le con­duit comme la balle dans le canon du fusil.

Il est alors d’une grande impor­tance de quan­ti­fi­er la longueur aléa­toire de ces bou­chons afin d’adapter au mieux l’ap­pareil­lage de récep­tion. Si ce dernier a une capac­ité insuff­isante, il sera détéri­oré par l’ar­rivée intem­pes­tive d’un bou­chon de trop grande longueur. Inverse­ment, une trop grande capac­ité du réser­voir de récep­tion serait coû­teuse à l’ex­cès au point d’obér­er le béné­fice d’ex­ploita­tion de l’ensemble.

Com­para­i­son d’une courbe paramétrique et non paramétrique sur un même jeu de données
M​esures d’émission de CO2 (en g/km) pour des véhicules par­ti­c­uliers légers essence de cylin­drée com­prise entre 1.4 et 2 litres ;
en pointil­lé : courbe théorique ajustée (polynôme du sec­ond degré) 
en trait plein : moyenne mobile.

Com­ment procède-t-on pour ajuster les paramètres d’in­térêt dans un prob­lème comme celui-ci ? Il est clas­sique de faire usage d’une expéri­ence pilote où l’on ajuste, par des méth­odes sta­tis­tiques stan­dard, une loi de répar­ti­tion des longueurs de bou­chons à par­tir d’un ensem­ble lim­ité d’ob­ser­va­tions. On extra­pole ensuite cette loi de répar­ti­tion pour prévoir les car­ac­téris­tiques de bou­chons extrêmes, ces derniers posant les prob­lèmes de fonc­tion­nement les plus sérieux.

Or, c’est pré­cisé­ment là où le bât blesse : des mod­èles dif­férents peu­vent à la fois s’a­juster fidèle­ment l’un et l’autre aux don­nées de l’ex­péri­ence ini­tiale, tout en menant à des prévi­sions diver­gentes sur les valeurs extrêmes qu’on doit s’at­ten­dre à observ­er par la suite. Dans cet exem­ple, le fac­teur cru­cial est davan­tage le bon choix de la loi de répar­ti­tion des longueurs de bou­chons que la façon dont on en ajuste les paramètres à par­tir de l’ex­péri­ence. Une erreur dans les choix ini­ti­aux du mod­èle pour­ra avoir des con­séquences catastrophiques.

Mon deux­ième exem­ple vient de l’in­dus­trie phar­ma­ceu­tique. Les efforts qui doivent y être faits, entre l’in­ven­tion de nou­velles molécules et leur com­mer­cial­i­sa­tion, sont extra­or­di­naire­ment longs et coû­teux. Il y a peu, la presse a large­ment fait écho au fait qu’une entre­prise prospère pou­vait aller à la lim­ite du dépôt de bilan lorsque l’un de ses pro­duits phares était accusé d’ef­fets sec­ondaires inat­ten­dus met­tant en jeu la san­té des consommateurs.

À chaque étape du proces­sus d’é­val­u­a­tion, des expéri­ences déli­cates doivent être menées pour décider si l’ef­fi­cac­ité du pro­duit existe ou non, quan­ti­fi­er ses effets sec­ondaires (et notam­ment sa tox­i­c­ité), et décider si l’ensem­ble de ces car­ac­téris­tiques jus­ti­fie qu’on en pour­suive le développe­ment jusqu’à son terme. Il suf­fit par­fois d’un mau­vais emploi des sta­tis­tiques pour que l’une de ces analy­ses mène à aban­don­ner à tort l’é­tude d’un pro­duit qui aurait généré des bien­faits sub­stantiels, ou inverse­ment à inve­stir à fonds per­dus dans des voies improductives.

Il m’a été don­né de par­ticiper au développe­ment d’une molécule dont les effets remar­quables pour le traite­ment des mal­adies car­dio­vas­cu­laires sont main­tenant par­faite­ment con­nus. Il s’ag­it du Clopi­do­grel de Sanofi-Syn­thélabo. Je me sou­viens encore d’une expéri­ence menée sur plus de 10 000 patients, et au cours de laque­lle l’u­til­i­sa­tion d’un mod­èle sta­tis­tique inadap­té, imposé par un organ­isme de san­té publique étranger, avait fail­li men­er à l’échec.

Le prob­lème était que l’or­gan­isme voulait admet­tre que les taux de mor­tal­ité des patients restaient con­stants au cours de l’ex­péri­ence (rap­pelons que le taux de mor­tal­ité T(x) d’un patient à l’in­stant x cor­re­spond à une prob­a­bil­ité de décès T(x)dx dans l’in­ter­valle de temps [x,x+dx], sachant que le patient est encore vivant à l’in­stant x). Il se trou­ve que le taux de mor­tal­ité pour les patients traités avec la nou­velle molécule décrois­sait avec le temps, ce qui voulait dire que les malades étaient, d’une cer­taine manière, guéris par ce traite­ment. Inverse­ment, les patients rece­vant la médi­ca­tion clas­sique à base d’aspirine con­ser­vaient un taux de mor­tal­ité con­stant dans le temps. Ce phénomène, nou­veau et inat­ten­du, a été décou­vert par l’emploi de nou­velles tech­niques sta­tis­tiques (voir [3]). S’il n’avait pas été pris en compte à temps, qui sait ce qui aurait pu être déduit d’une étude de cette ampleur analysée sous de mau­vais­es hypothèses ?

On peut en effet aboutir à des con­clu­sions totale­ment erronées par l’emploi de mod­èles inadap­tés. Pour bien com­pren­dre le prob­lème, on observera que, pour des taux de mor­tal­ité T1 et T2 con­stants, il n’y a pas d’am­biguïté à préfér­er le pro­duit (1) au pro­duit (2) si T1 < T2. Le prob­lème est plus com­plexe lorsque, par exem­ple, T1(x) dépend du temps x et T2 est con­stant. En effet, dans ce cas, il peut se faire qu’on observe, pour cer­taines valeurs des temps x et y, des iné­gal­ités telles que T1(x) > T2 et T1(y) < T2. Dans quel cas doit-on alors préfér­er le pro­duit (1) au pro­duit (2) ? De plus, les méth­odes d’es­ti­ma­tion adap­tées au cas où les T1 et T2 sont con­stants don­nent des résul­tats sans sig­ni­fi­ca­tion par rap­port à la com­para­i­son de T1 et T2 lorsque l’un de ces taux varie avec le temps.

Premières constatations

Au print­emps 2001, dans un débat pub­lic à l’oc­ca­sion d’un con­grès alle­mand à Ham­bourg, j’avais été choqué qu’un inter­venant puisse affirmer de bonne foi qu’il ne s’é­tait pas passé grand-chose d’in­no­vant en sta­tis­tique depuis l’in­ven­tion du principe du max­i­mum de vraisem­blance par Ronald Fish­er en 1922. Je m’é­tais vive­ment élevé, preuves à l’ap­pui, con­tre des pro­pos aus­si polémiques. Si je me plais à les répéter ici, c’est qu’ils reflè­tent un point de vue qui voudrait lim­iter la sta­tis­tique à l’a­juste­ment des paramètres de mod­èles (on appelle ceci la sta­tis­tique paramétrique lorsque le mod­èle est car­ac­térisé par un nom­bre fini de paramètres numériques).

En effet, s’il s’agis­sait seule­ment d’é­val­uer un nom­bre fixé de paramètres réels, décrivant un mod­èle pré­cis et spé­ci­fié, à par­tir d’ob­ser­va­tions répétées issues de ce dernier, la méthode du max­i­mum de vraisem­blance fourni­rait cer­taine­ment des solu­tions qua­si­ment opti­males dans la plu­part des cas. Il n’y aurait alors pas besoin d’aller beau­coup plus loin dans l’ap­pren­tis­sage de la statistique.

Or, c’est ignor­er la réal­ité de la sta­tis­tique que de lim­iter celle-ci à une sit­u­a­tion aus­si sim­ple. D’une part, on dis­pose le plus sou­vent d’une quan­tité de mod­èles can­di­dats pour représen­ter un même phénomène, et dont le nom­bre de paramètres peut vari­er de un à l’in­fi­ni. D’autre part, il n’est pas non plus réal­iste de vouloir choisir entre ces dif­férentes pos­si­bil­ités celle qui con­vient le mieux par un critère unique, par exem­ple, en faisant usage de tech­niques de type Akaike (voir [1]), basées sur la théorie de l’in­for­ma­tion, et se présen­tant comme des vari­antes de la théorie du max­i­mum de vraisem­blance, adap­tées à un nom­bre de paramètres vari­able. Je prendrai un nou­v­el exem­ple pour appuy­er ce point de vue, sans doute un peu iconoclaste.

Il y a une dizaine d’an­nées, j’avais mis au point un algo­rithme des­tiné à amélior­er la prévi­sion de séries finan­cières en util­isant une mod­éli­sa­tion faisant usage de bruit blanc frac­tion­naire. J’é­tais alors à New York, et je fus invité, dans le cadre d’une col­lab­o­ra­tion indus­trielle, par une société de ser­vices qui s’in­téres­sait à ma méthode.

Quelle ne fut pas ma sur­prise de voir que cette société util­i­sait un Cray pour met­tre en com­péti­tion per­ma­nente les unes con­tre les autres toutes les méth­odes con­nues de prévi­sion de séries tem­porelles sur un cer­tain nom­bre de cours de valeurs bour­sières. Je m’in­téres­sais à un mod­èle, alors qu’il y en avait des cen­taines disponibles, au point qu’un util­isa­teur, même aver­ti, devait utilis­er des com­para­isons expéri­men­tales pour en faire le tri, et même com­bin­er toutes les prévi­sions entre elles pour con­stru­ire une sorte de méta-analyse des cours financiers, en elle-même plus effi­cace que cha­cune des méth­odes ain­si conjuguées.

Lors d’une analyse sta­tis­tique isolée d’un ensem­ble de don­nées, il n’est certes pas pos­si­ble de procéder, comme ci-dessus, à une val­i­da­tion dynamique de mod­èles en com­péti­tion, à l’in­star de celle qui procéderait d’un ajuste­ment sur des séries tem­porelles observées en temps réel. Toute­fois, le sta­tis­ti­cien expert se trou­ve aujour­d’hui de plus en plus devant une mul­ti­tude d’op­tions en con­cur­rence, et entre lesquelles il n’est pas tou­jours aisé de choisir. Que doit-il faire ? Je suis per­son­nelle­ment con­va­in­cu qu’il lui faut explor­er sys­té­ma­tique­ment toutes ces pos­si­bil­ités, plutôt que de se lim­iter arbi­traire­ment à l’une d’en­tre elles comme on le voit faire le plus sou­vent. Certes, ceci demande beau­coup de tra­vail, mais cela présente aus­si l’a­van­tage de lim­iter les risques d’un mau­vais choix.

On m’ob­jectera que cette approche risque de créer une con­fu­sion cer­taine, dans la mesure où des mod­èles dif­férents pour­ront amen­er, en toute logique, à des con­clu­sions dif­férentes. La sta­tis­tique ne serait plus alors un pré­cieux out­il d’aide à la déci­sion, mais à l’in­verse un fac­teur de désor­dre et de contradiction.

J’en viens main­tenant aux répons­es que je voudrais apporter à la ques­tion posée en exer­gue. La sta­tis­tique utile aux entre­pris­es est pré­cisé­ment celle qui leur per­met de ne pas se tromper, c’est celle qui leur per­met de bien choisir entre les pos­si­bil­ités qui leur sont offertes pour l’in­ter­pré­ta­tion des don­nées. D’une part, il con­vient de ne pas se lim­iter à un nom­bre trop restreint de mod­èles dans les analy­ses, c’est la con­clu­sion de ce qui précède. D’autre part, il faut faire le bon choix entre les dif­férentes voies pos­si­bles, et ceci fera l’ob­jet de notre dis­cus­sion finale.

Les plus bril­lantes inno­va­tions de la sta­tis­tique au cours des dernières décen­nies sont sans con­teste dans le domaine des méth­odes non paramétriques, où il s’ag­it d’é­val­uer la struc­ture des phénomènes avec un min­i­mum d’hy­pothès­es con­traig­nantes. Le vocab­u­laire de la sta­tis­tique englobe sous l’ap­pel­la­tion de non-paramétrique des mod­èles qui ne peu­vent pas être décrits sim­ple­ment en fonc­tion d’un nom­bre fini de paramètres numériques.

À titre d’ex­em­ple, dire qu’une vari­able aléa­toire suit une loi de Laplace-Gauss est une hypothèse paramétrique, puisque cette loi est définie par sa moyenne et sa vari­ance. À l’op­posé, dire que cette vari­able a sa loi de prob­a­bil­ité ayant une den­sité con­tin­ue est une hypothèse non paramétrique, la loi étant ici définie par une fonc­tion con­tin­ue pos­i­tive ou nulle d’in­té­grale égale à 1. Les out­ils de la sta­tis­tique non paramétrique sont, par leur nature même, ceux qui doivent être employés pour valid­er des mod­èles plus pré­cis mais en lesquels on n’a qu’une con­fi­ance lim­itée au départ. Nous recom­man­dons donc d’u­tilis­er sys­té­ma­tique­ment des méth­odes non paramétriques en par­al­lèle aux méth­odes clas­siques afin de véri­fi­er si leurs résul­tats sont en con­cor­dance (voir, par exem­ple, [4]).

Par ailleurs, l’emploi de tech­niques de rééchan­til­lon­nage, telles celles du boot­strap (voir [5]), per­me­t­tant d’u­tilis­er les don­nées elles-mêmes pour éval­uer la pré­ci­sion des esti­ma­tions en lieu et place des résul­tats asymp­to­tiques de la théorie clas­sique, devrait entr­er dans les mœurs comme une tech­nolo­gie standard.

Sait-on par exem­ple que l’in­ter­valle de con­fi­ance pour la moyenne, basé sur le boot­strap, est bien sou­vent beau­coup plus pré­cis que l’in­ter­valle de Stu­dent habituel ? Un détail comme celui-ci devrait pour le moins éveiller l’attention.

Conclusion

Jusqu’i­ci, nous nous sommes lim­ités à l’é­tude des don­nées rares ou pré­cieuses, desquelles il impor­tait de tir­er le max­i­mum de ren­seigne­ments, sans lésin­er sur les efforts devant être faits pour par­venir à ce but. Nous avons argué qu’il fal­lait manip­uler la sta­tis­tique sans trop d’a pri­ori, en essayant, autant que faire se peut, tous les mod­èles pos­si­bles, et en choi­sis­sant entre ceux-ci grâce à des analy­ses non paramétriques menées en par­al­lèle. Il arrive, inverse­ment, que les don­nées soient surabon­dantes au point qu’il soit dif­fi­cile d’en dégager une struc­ture quel­conque. C’est le prob­lème du ” data min­ing “. Je ne par­lerai toute­fois pas ici de cette dernière sit­u­a­tion, qui mérit­erait en elle-même une dis­cus­sion séparée, en men­tion­nant toute­fois que notre analyse s’ap­plique aus­si bien à ce cas.

Notre con­clu­sion générale est que les sta­tis­tiques les plus utiles aux entre­pris­es sont celles qui leur per­me­t­tent les bons choix de mod­èles. À par­tir du moment où un mod­èle est retenu, le ” calage ” des paramètres est une opéra­tion plus ou moins de rou­tine, grâce, entre autres, à la méthode du max­i­mum de vraisem­blance. Toute­fois, le risque asso­cié à un mau­vais mod­èle est sou­vent impor­tant, et tout doit être fait pour le réduire. Il faut donc dis­pos­er d’outils de val­i­da­tion appro­priés, et c’est sur ces derniers que devraient porter les efforts les plus importants. 

Références bib­li­ographiques

[1] H. Akaike (1973). Infor­ma­tion the­o­ry and an exten­sion of the max­i­mal like­li­hood prin­ci­ple. Dans : Sec­ond Sym­po­sium on Infor­ma­tion The­o­ry (B. N. Petrov et F. Cza­ki, eds.). Akademi­ai Kioa­do, Budapest.
[2] M. Ber­ni­cot, P. Deheuvels (1995). A uni­fied mod­el for slug flow gen­er­a­tion. Revue de l’In­sti­tut Français du Pét­role. 50 219–236.
[3] P. Deheuvels, J. Ein­mahl (2000). Func­tion­al Lim­it laws for the Incre­ments of Kaplan-Meier Prod­uct-Lim­it Process­es and Appli­ca­tions. Annals of Prob­a­bil­i­ty. 28 1301–1335.
[4] P. Deheuvels, G. Derzko (2002). Esti­ma­tion non paramétrique de la régres­sion dichotomique — appli­ca­tion bio­médi­cale. C. R. Acad. Sci. Paris, Ser. I 333. 1–5.
[5] P. Hall (1992). The Boot­strap and Edge­worth Expan­sion. Springer, New York.

Poster un commentaire