Covid-19 cinq ans après : une vue d’ingénieur

Comment, en phase avec certaines recommandations de Cédric Villani, un peu de culture mathématique et statistique s’appuyant sur une recherche de documentation ouverte donne une explication possible de certains écarts constatés entre les prévisions des « experts » et la réalité des chiffres lors de la pandémie de Covid-19… Et permet de démystifier sans a priori les résultats de la « méthode Raoult ». Une leçon qui peut être utile dans l’avenir.
Le dernier enseignement théorique que j’ai reçu dans le domaine des sciences de la vie remonte au lycée et je pense qu’il en est de même pour bon nombre de nos camarades. Se sont ensuite ajoutées à ces connaissances rudimentaires les informations glanées dans certains médias généralistes, ainsi que les leçons pratiques tirées d’accidents de santé personnels ou de ceux de proches. De ce fait, je n’ai découvert qu’à partir de 2020 ce qu’était réellement une pandémie et comment on pouvait essayer de la juguler.
Face à un tel événement et en dépit de son manque habituel de connaissances approfondies sur les phénomènes biologiques, le réflexe normal d’un ingénieur, surtout quand lui-même ou des proches sont atteints par l’infection – mon cas dès mars 2020 – est de vouloir comprendre comment les autorités sanitaires et politiques analysent les données quantitatives disponibles et en déduisent la conduite à tenir pour tenter d’en minimiser les conséquences. D’où les quelques réflexions qui suivent.
Décès quotidiens en 2020 comparés aux cinq dernières années, à la canicule de 2003
et à la grippe de Hong Kong (1968−1970)

L’absence d’une politique de tests par sondage pour connaître le développement réel de l’épidémie
De nombreux indicateurs ont été diffusés pendant toute la durée de la pandémie : nombre quotidien de cas confirmés par des tests, nombre d’entrées à l’hôpital, nombre d’entrées dans un service de réanimation, nombre de décès (dans le cas où ces trois derniers types d’événements étaient attribués à la Covid). La donnée la plus fiable est le nombre de décès (encore qu’il y ait un certain niveau d’arbitraire dans la déclaration de leur cause, en particulier dans le cas de pathologies multiples).
À partir du taux de mortalité moyen des personnes contaminées et de la durée moyenne entre infection et décès, cela devrait permettre de remonter au nombre approximatif d’infections (avec un certain retard). Mais en début d’épidémie existait une grande incertitude sur le taux de mortalité des malades contaminés par la Covid, ainsi qu’une cruelle insuffisance de moyens de test. La disponibilité ultérieure de réactifs et d’équipements en nombre suffisant a permis d’augmenter de façon très significative la quantité de tests quotidiens, mais ceux-ci ont été effectués uniquement à la suite de demandes individuelles générées par diverses causes dont fièvre, maux de tête, anxiété, obligation pour certains métiers et pour les voyageurs aériens ou même simple curiosité (encouragée par la gratuité !).
Les tests réalisés de cette manière ne pouvaient pas prétendre suivre de façon précise l’évolution au jour le jour des contaminations dans une population de 67 millions d’habitants, mais il aurait vraisemblablement été possible d’en réserver un faible quota (quelques centaines ou quelques milliers par jour) à un programme de comptage par échantillonnage suivant une technique voisine de celle des sociétés qui effectuent des sondages électoraux. Ces dernières l’ont proposé, apparemment sans succès…
Un bel exemple de biais statistique : le match Paris-Marseille
Tombé malade à la mi-mars, juste après le début du premier confinement que j’ai passé dans les Yvelines, j’ai appris par mon médecin traitant qu’un service spécialisé Covid venait d’ouvrir dans une structure provisoire installée dans l’enceinte de l’hôpital de Rambouillet. Un médecin spécialisé y constata mon état (une fièvre à 39° qui devait durer trois semaines) et me demanda si j’avais ressenti des difficultés respiratoires, ce qui fort heureusement n’était pas mon cas. Devant ma réponse négative, il m’indiqua « qu’étant en médecine de guerre » il ne pouvait pas me faire bénéficier d’un test Covid, dont l’usage était réservé aux malades manifestant des problèmes pulmonaires.
À Marseille Didier Raoult, vieux routier des épidémies, savait l’importance des tests. Il prit soin de constituer des stocks importants de réactifs, ce qui lui permit d’offrir à qui le voudrait de se faire tester dans son institut. Si le test était positif, l’individu bénéficiait alors systématiquement du traitement devenu célèbre (hydroxychloroquine et azithromycine), dont Didier Raoult voulait prouver l’efficacité.
« Didier Raoult, vieux routier des épidémies, savait l’importance des tests. »
Les comparaisons à l’avantage de Marseille qui ont circulé au début de l’épidémie reposent sur l’examen des « taux de létalité des cas » (Case Fatality Rate) qui est le résultat de la « division du nombre de décès enregistrés par le nombre de cas confirmés de la maladie ». À Paris, un cas confirmé était un individu testé positif qui avait déclaré à son médecin rencontrer des difficultés respiratoires (sinon il n’aurait pas été testé).
À Marseille un cas testé positif par l’institut de Didier Raoult avait ou n’avait pas de difficulté respiratoire, ce qui veut dire que le dénominateur défini comme « total de cas confirmés de la maladie » incluait une forte proportion de testés positifs asymptomatiques, ou encore de malades sans trouble pulmonaire destinés généralement à connaître une évolution non létale de leur infection. Inutile de dire qu’une telle différence entraînait automatiquement un taux de létalité des cas recensés et soignés par l’institut inférieur aux taux parisiens, que le traitement proposé ait été utile, inutile ou même nuisible ! Curieusement, ce point n’a pas été relevé par les autorités sanitaires, ni dans aucun des très nombreux articles ou émissions sur ce que certains ont présenté à l’époque comme un nouveau match OM-PSG…
Comment peut-on prévoir l’évolution d’une pandémie ?
La vitesse de propagation d’une épidémie dépend : d’une part de facteurs biologiques (propriétés du virus concerné et de ses éventuels variants, contagiosité des individus contaminateurs, réceptivité des individus potentiellement contaminables) ; d’autre part de facteurs non biologiques (dits non pharmaceutiques), propres au mode de vie de la société à laquelle s’attaque le virus, tels que la fréquence à laquelle surviennent des proximités directes ou indirectes potentiellement contaminantes entre individus, la nature de ces proximités (par exemple : salut matinal à distance ou accolade ?).
Le principal indicateur quantitatif rendant compte de cette propagation est le nombre de reproduction de base, dit R0, qui indique le nombre moyen de nouveaux cas qu’une seule personne infectée et contagieuse va générer pendant la durée D séparant sa contamination de sa guérison (ou de son décès) dans une population sans aucune immunité (l’immunité pouvant être éventuellement innée, ou acquise par infection antérieure suivie de guérison, ou encore par vaccination). R0 n’est pas mesurable directement, mais calculable de façon de plus en plus précise à mesure que l’épidémie se développe.
Une fois que l’épidémie a commencé à se répandre, on peut diviser une population de N individus en trois catégories (traditionnellement appelées compartiments S, I et R) : S (« susceptibles ») individus potentiellement contaminables, I infectés et pas encore guéris ou décédés, R « remis » comprenant les individus ne pouvant plus transmettre le virus car guéris (et immunisés pour une durée relativement longue) ou décédés. Au cours de l’épidémie le stock I d’infectés évolue du fait de l’arrivée d’un flux de nouveaux infectés et de la sortie du flux d’infectés guéris ou décédés. Les modélisations de l’épidémie reposent sur le calcul des flux d’entrée et de sortie dans le « compartiment I », qui sont extrêmement simples dans le cas d’une population homogène (voir encadré).
Un peu de calcul !
Entrée : si une personne, entourée d’une population N contaminable à 100 %, en contamine R0 pendant la durée D séparant son infection de sa guérison (ou son décès), elle n’en contaminera plus que R0 x S / N si seuls S sont contaminables. Cela correspond à β S par unité de temps (habituellement exprimée en jours) si on utilise la notation traditionnelle β = R0 /(N x D). I personnes en contamineront β I S par unité de temps.
Sortie : pendant n’importe quel intervalle de temps, le nombre moyen de personnes arrêtant d’être malades et contagieuses est égal à celui des personnes ayant été infectées dans un intervalle de temps antérieur de même durée, mais décalé de D.
Et là, stupéfaction de l’ingénieur et du physicien (mais pas toujours du mathématicien !) : tous les cours du monde consultés commencent par la présentation des « compartiments SIR » et d’équations dites de Kermack et McKendrick (plus bas K&McK) contenues dans une communication d’une vingtaine de pages à la Royal Society de Londres faite en 1927, équations qui d’après les auteurs de ces cours et de certains modèles utiliseraient dans la simulation de l’épidémie la notion d’un « taux de guérison » fixe traditionnellement appelé γ et égal à 1/D. Or K&McK avaient compris que la population de malades comprenait au jour J un mélange d’individus ayant été infectés depuis des durées variables (allant de 0 à D) et que, si on les classait par catégories d’ancienneté de leur infection (par exemple par jour), les proportions entre les nombres de malades de chacune de ces catégories ne seraient pas constantes.
À mesure que l’épidémie évolue, seuls guériraient ceux contaminés depuis D, dont le rapport au nombre total de malades (nommé ψ(t) par K&McK) varie avec le temps. Toutefois, en l’absence d’ordinateurs en 1927, il n’était pas possible d’exploiter ce concept et c’est dans la recherche d’une simplification qui permettrait cette exploitation à partir d’équations différentielles (seule technique utilisable à l’époque) que K&McK ont défini ce qu’ils appellent un special case à constant rates. Le jeu d’équations correspondant, associé à leurs noms, est passé à la postérité, mais avec un oubli généralisé du fait qu’il n’était pertinent que si cette condition restrictive fondamentale était respectée.
Une très contestable notion de « taux de guérison » fixe
Si l’on ne précise pas la composition de le population I infectée en fonction de l’ancienneté de la contamination de chacun de ses membres, cette notion de taux de guérison fixe γ largement utilisée dans les cours et certains modèles n’a aucun sens (sauf si l’épidémie est complètement stabilisée ou à la rigueur très lente). Lorsque ce n’est pas le cas (en particulier dans les moments critiques où des décisions de gestion de l’épidémie s’imposent) le taux de guérison de l’ensemble des malades varie fortement au cours du temps et peut être très différent de 1/D.
Imaginons par exemple un cas d’épidémie où la durée moyenne entre infection et guérison (ou décès) est de 20 jours et où le jour J il y a 1 000 malades dont le nombre double de façon exponentielle tous les 5 jours. Au jour J + 20 on aura 16 000 nouveaux malades et le nombre total des malades sera de plus de 100 000. Le même jour guériront les personnes tombées malades environ 20 jours plus tôt, soit à peu près 1 000. Si on utilise les équations de K&McK avec leur notion de taux de guérison fixe γ égal à l’inverse de D, on trouve plus de 5 000 guérisons ! Cette surévaluation du nombre d’individus quittant précocement le « compartiment I » ralentit artificiellement la vitesse et l’ampleur du développement de l’épidémie simulée.
Le diagramme qui suit (extrait des pages 20 à 23 du complément https://www.fxm.ovh/coviddetails), établi à l’aide de très simples tableurs de quelques colonnes, donne la comparaison entre les simulations d’un début d’épidémie de caractéristiques R0 = 3 et D = 10 jours avec : guérison le jour J de γI malades (I = nombre total de malades), en bleu ; guérison le jour J des individus contaminés 10 jours plus tôt, en rouge. Courbes en trait plein : nombre de nouveaux infectés par jour. Courbes en pointillé : nombre total de malades simultanés. Bien noter que ces courbes sont valides à R0 constant, c’est-à-dire en absence théorique de toute modification du comportement de la population française résultant du suivi de consignes des autorités sanitaires (confinements, quarantaines…) ou de la prise de conscience spontanée des dangers de la contagion, éléments qui aplatiront les courbes réelles.

Dans le cas où, au lieu d’une croissance, on a une décroissance du nombre de malades (par exemple à la suite de la mise en place d’un confinement), le nombre d’infections quotidiennes décroît (en mars 2020, R0 est passé instantanément d’environ 3 à 0,7). Par un effet inverse, l’utilisation de la méthode du taux de guérison constant conduit à rapidement sous-estimer le nombre des guérisons, et donc la vigueur de la diminution de la population infectée. Contactés, les modélisateurs des grands organismes conseillers des pouvoirs publics qui utilisent des équations différentielles dérivées de celles de K&McK assurent par l’intermédiaire du CNRS tenir compte par divers procédés des considérations qui précèdent.
Prévisions et réalités en 2020–2021
Mais rappelons qu’en 2020 le recul de l’épidémie pendant l’été sur la lancée du confinement a été plus important que prévu, à tel point que certains ont prétendu que l’épidémie était terminée. La reprise d’automne a été nettement plus forte que ce que prévoyaient les modélisateurs qui conseillaient alors les pouvoirs publics. Pour des raisons politiques, le gouvernement a instauré un second confinement très tardivement (trop tard selon les modélisateurs qui faisaient alors des prévisions très pessimistes).
La réalité a été une baisse plus rapide que ces prévisions pessimistes aux conséquences théoriquement inévitables (selon un discours du Président de la République) qui ne se sont jamais réalisées. Le Conseil scientifique Covid-19 lui-même a constaté à plusieurs occasions l’insuffisante réactivité (à la hausse comme à la baisse) des modèles des grands organismes : « cette accélération dont la brutalité est surprenante » (page 3 de sa « note » du 26/10/2020) ; « le taux d’incidence a connu une baisse particulièrement rapide depuis mi-mai 2021. Elle a surpris le monde scientifique par son ampleur et sa vitesse » (page 2 de son « avis » du 6/7/2021).
Une petite suggestion
En cas de futures pandémies, ne serait-il pas souhaitable de suivre la recommandation de Cédric Villani, alors vice-président de l’Office parlementaire d’évaluation des choix scientifiques et technologiques, qui a écrit en avril 2020 dans une note à l’Office sur la modélisation épidémiologique : « Il est possible de discrétiser le modèle… Celui-ci est (alors) plus réaliste dans la mesure où il permet de considérer qu’un individu entré dans le compartiment I a une probabilité d’autant plus grande d’en sortir qu’il y est entré depuis longtemps » ?
Notons que calcul infinitésimal ou le calcul discret à pas temporel inférieur à la journée n’apporte pas une meilleure précision que le calcul à la journée, car la contagion suit heure par heure le rythme des activités humaines (avec en particulier une différence entre le jour et la nuit) ; par ailleurs la modélisation par le « tout discret » ne demande pas de connaissances particulières en mathématiques, à la différence de méthodes utilisant des équations différentielles.
Pour aller plus loin
Une version plus détaillée est accessible en ligne :
https://www.fxm.ovh/coviddetails.