L’innovation irrigue tous les domaines de la statistique publique

L’innovation irrigue tous les domaines de la statistique publique

Au moment de quitter mes fonctions à la tête de l’Insee, je souhaite dédier un billet de blog aux démarches d’innovation à l’Insee et dans la statistique publique. L’innovation est toujours un processus gourmand en temps et en énergie, mais il est particulièrement exigeant en matière de statistique. Pourquoi ? Parce qu’une des vertus cardinales des indicateurs de la statistique publique et de la comptabilité nationale est d’assurer une continuité des séries, une cohérence dans le temps et si possible une comparabilité internationale satisfaisante. Et l’utilisateur, quel qu’il soit, goûte peu aux ruptures de série : elles ne permettent pas de se comparer à des périodes lointaines, elles empêchent ou rendent difficile des travaux d’économétrie ou de modélisation. À titre d’illustration, il serait ainsi fort imprudent de modifier le questionnaire de l’enquête Emploi – ou même, on y reviendra, les modalités de passation du questionnaire – sans maîtriser les conséquences que cela peut avoir sur le taux de chômage.

Ce souci de continuité des séries ne fait pas obstacle aux innovations, mais il conduit à les mener avec assez de précautions pour i) ne pas risquer d’être en situation de défaut, dans l’incapacité de livrer continûment l’information, ii) être assuré qu’il n’y aura pas de rupture de série, ou à tout le moins que l’ampleur d’une discontinuité éventuelle soit limitée et qu’elle soit évaluée a priori. L’innovation est possible, en conséquence, mais il faut accepter des coûts en moyens humains, en études méthodologiques et peut-être surtout en temps, qui sont incompressibles.

Pour autant, en dépit de ces inévitables lourdeurs, je suis frappé par le fait que les innovations sont légion, conduites par les différentes équipes de l’Insee et des seize services statistiques ministériels (SSM), et je voudrais ici leur rendre hommage en en donnant un aperçu, forcément réducteur. Sans prétendre à l’exhaustivité, seront donc présentés succinctement les principaux chantiers d’innovation, en distinguant les trois principales étapes de la production statistique, à savoir la collecte des données, le traitement de ces données pour les convertir en statistiques, la diffusion des statistiques. Je ne parlerai pas d’une autre mission importante de l’Insee, la tenue de répertoires, mais l’innovation n’en est pas absente comme le montre ces dernières années la mise en œuvre sans failles du répertoire électoral unique [Demotes-Mainard, 2019] : elle a pu aboutir avec succès car le souci de bien faire, de prendre le temps de construire le système d’information, de bien le contrôler et le tester, l’a emporté sur la volonté de respecter des échéances irréalistes.

L’accès aux données

L’Insee et les services statistiques ministériels exploitent trois types de données [Dupont, 2023]. Aux deux sources historiques, présentes dans la loi de 1951  (données administratives et enquêtes), se sont ajoutées depuis quelques années les données détenues par des entreprises [Biau et alii, 2024]. Si cette dernière évolution est la plus spectaculaire, les données administratives et les enquêtes font aussi l’objet d’innovations majeures.

En ce qui concerne les données administratives, leur transmission à l’Insee et/ou aux SSM s’est développée. Elle est devenue la règle plutôt que l’exception. Et dès lors que les producteurs de statistiques sont impliqués dans les modifications majeures de déclarations administratives, celles-ci peuvent conduire en aval à une amélioration sensible de leur exploitation à des fins statistiques. Il en est ainsi de la mise en place de la déclaration sociale nominative (DSN) remplie par les entreprises et aussi, finalement, par les administrations [Renne, 2018]. Le chantier a pris du temps – c’est dire que là aussi la patience et le respect du temps de construction des systèmes d’information (SI) ont été cruciaux – mais a abouti à une refonte de très grande ampleur du système d’information sur les statistiques d’emploi et de salaires, tant dans le secteur privé que dans le secteur public [Guggemos, 2023].

Il arrive parfois qu’une source administrative disparaisse. C’est le cas de la taxe d’habitation, depuis qu’elle n’est plus recouvrée que pour les résidences secondaires et les logements vacants. Or les fichiers de taxe d’habitation constituaient une composante essentielle de l’infrastructure statistique en matière d’observation des ménages, par exemple pour mesurer leur niveau de vie en tenant compte de la composition familiale ou pour tirer des échantillons pour les enquêtes. Voici donc une innovation forcée, qui passe par la constitution d’un répertoire statistique d’individus et de logements (Résil), lui-même construit à partir d’autres processus administratifs à commencer par la déclaration GMBI (Gérer mes biens immobiliers) de la DGFiP.

L’accès aux données administratives est fécond – j’ai l’habitude de rappeler que le pays n’est pas spécialement sous-administré – et la collecte de données d’entreprises (cf. infra) peut également apporter des informations intéressantes. Il n’en reste pas moins toujours indispensable de recourir à des enquêtes, aussi bien auprès des entreprises que des ménages. Aucun formulaire administratif ne donnera la composition en biens et services de la production d’une entreprise, à un niveau suffisamment fin pour élaborer les comptes nationaux ; aucun formulaire administratif ne permettra de rendre compte du comportement effectif de recherche d’emploi [Passeron, 2022], de la satisfaction dans la vie, de la population ayant recours à l’aide alimentaire ou dépourvue d’hébergement [Lellouch et alii, 2025]. Dans le domaine des enquêtes, beaucoup d’innovations ont eu lieu et d’autres sont en cours.

En ce qui concerne les enquêtes auprès des entreprises, la réponse par Internet est désormais universelle ; le recours aux données administratives a permis de réduire la taille des questionnaires [Moreau, 2024] ; de nouveaux progrès en ce sens auront lieu, pour réduire encore le poids du questionnement statistique pour les petites entreprises, proposer un interlocuteur unique pour les plus grandes, éviter qu’une société qui produit à la fois des biens et des services reçoive deux questionnaires en partie redondants. La mise en place de la facturation électronique permettra d’innover encore davantage.

Les enquêtes auprès des ménages étaient historiquement menées par des interrogations en face à face, c’est-à-dire que les enquêtrices et les enquêteurs de l’Insee se déplacent au domicile des personnes échantillonnées. Au fil d’un processus qui s’étale sur plusieurs années, la plupart des enquêtes menées par l’Insee passent en interrogation multimode (sauf des enquêtes particulières comme auprès des personnes sans domicile) [Chaput et Merly-Alpa, 2025], c’est-à-dire que généralement, les personnes enquêtées pourront répondre par Internet, être relancées par téléphone, ou recevoir in fine la visite d’une enquêtrice ou d’un enquêteur. C’est aussi le cas de l’enquête annuelle de recensement pour laquelle la possibilité ouverte il y a quelques années de répondre par Internet rencontre un très grand succès, puisque plus de 75 % des personnes recensées répondent désormais par ce moyen.

Cette démarche est exigeante en termes d’outils et d’organisation, elle s’accompagne du reste d’une certaine industrialisation de la génération de questionnaires selon les différents modes d’interrogation. Mais elle a l’avantage de donner plus de liberté aux personnes enquêtées quant au moment où elles veulent ou peuvent répondre et de lutter ainsi contre l’érosion des taux de réponse qui frappe douloureusement certains instituts statistiques en Europe et dans le monde. Dans le contexte budgétaire que l’on connaît, cette démarche est aussi économe en termes de recours aux moyens humains d’enquêtes (et, pour le recensement, d’agents recenseurs) et de déplacements. Cependant, se priver de tout déplacement, ce serait renoncer à une partie de la population, souvent plus précaire, qui ne peut pas ou qui répugne à répondre par Internet. Il est donc indispensable de pouvoir continuer d’offrir une visite à domicile ; à cet égard, compte tenu de la difficulté croissante qu’il y a pour les enquêtrices et enquêteurs à surmonter la méfiance du public et à pénétrer dans les immeubles, je sais combien elles et ils apprécieraient de disposer d’un pass Vigik, ce qui nécessite une disposition législative que je n’aurai pas réussi à obtenir au cours de mon mandat. En parallèle, les moyens de réponse aux questions des enquêtés par mail, téléphone, serveur interactif et robot conversationnel (chatbot) ont été développés.

Le recours aux données privées est relativement récent, avec des opérations pilotes qui ont démarré au début des années 2010 pour évaluer l’apport des données de caisse de la grande distribution pour mesurer le niveau des prix à la consommation et éviter la collecte manuelle dans les rayons pour les produits munis de codes-barres [Leclair, 2019]. La France a été pionnière en matière de cadre juridique, grâce à l’opportunité offerte par la loi pour la République numérique au mitan des années 2010. Mais à présent, et depuis l’an dernier, il existe également un cadre juridique au niveau européen.

Là encore, la route de l’innovation est longue car elle doit être menée avec beaucoup de rigueur méthodologique et dans le respect des entreprises partenaires. Il aura fallu une dizaine d’années pour passer des premières explorations à la mise en production début 2020 pour les données de caisse. L’épisode malheureux de la crise du Covid aura catalysé l’accès aux données de transactions par carte bancaire pour prendre rapidement l’ampleur de l’effondrement de la consommation en période de confinement [Givord, 2024]. Elle aura aussi permis d’utiliser des données de comptes bancaires pour conforter, sur des données microéconomiques les plus concrètes, des estimations sur l’évolution des revenus les plus modestes [Tavernier, 2021]. La note de conjoncture de ce mois de juin 2025 présente une exploitation des données bancaires pour mesurer le comportement d’épargne des retraités à la suite de la forte revalorisation des pensions début 2024 [Cupillard et alii, 2025] ; aucune source classique n’aurait permis d’éclairer cette question.

Ces premiers succès en appellent d’autres, sur la mesure de la consommation d’énergie via les smartmeters (tels que Linky ou Gaspard) ou sur la mesure de la population présente à un instant donné dans une ville via les données de téléphonie mobile. L’exploitation des données de téléphonie mobile a permis de voir où les Parisiens qui avaient quitté la capitale en mars 2020 passaient la période du premier confinement [Semecurbe et alii, 2020]. Puisse ce succès faire des petits, dans un partenariat équilibré.

Je perçois, avec le recul, une tendance intéressante qui permet de raccourcir les délais de mise en production statistique. Dans le premier exemple, les données de caisses étaient – et sont du reste toujours – importées dans le système d’information (SI) de l’Insee. Compte tenu du nombre d’octets en jeu chaque jour, on mesure l’ampleur du chantier en matière de SI, de recours à une infrastructure cloud dûment sécurisée, etc. Dans les exemples les plus récents, les données élémentaires ne quittent pas le SI des entreprises partenaires et c’est dans leur environnement informatique que le traitement et l’agrégation des données sont réalisés.

La diversité des accès aux données, l’adaptation des modes de collecte pour limiter au maximum la charge ressentie par les ménages et entreprises enquêtés, la capacité à conforter les statistiques issues d’une source par les informations apportées par une autre, sont autant de directions qui témoignent de la capacité des statisticiens à innover.

Le traitement des données

En matière de traitement des données également, beaucoup d’innovations sont intervenues ou sont en cours. Elles sont nécessaires pour répondre aux demandes qui sont adressées à l’appareil statistique :
– améliorer la rapidité de publication des statistiques conjoncturelles, même si beaucoup de progrès ont déjà été accomplis [Angel, 2023] ;
– sortir de la dictature de la moyenne et éclairer les inégalités entre ménages, entre entreprises [Angel, 2023 ; Tavernier, 2024] ;
– avoir, autant que c’est possible, des informations statistiques au niveau des territoires [Bonnet et alii, 2024] ;
– ne pas se contenter de photographies statiques mais éclairer les trajectoires, par exemple les questions de mobilité sociale au cours de la vie, ou de déterminisme social d’une génération à la suivante [Sicsic, 2022], ou encore de persistance dans la pauvreté ou le sous-emploi [Albouy et Delmas, 2020], etc. ;
– combler quelques lacunes (ainsi, la première enquête sur le recours à l’aide alimentaire n’a été réalisée qu’en 2021 [Accardo et alii, 2022]) ou mesurer de nouveaux phénomènes (économie dématérialisée comme le e-commerce, ressenti de maltraitance administrative par exemple).

Un axe essentiel passe par le développement d’appariements : appariements entre sources administratives, appariements entre une source administrative et une enquête [Dupont, 2023].

Prenons le cas du déterminisme social, i.e. de la corrélation entre la position des parents et plus tard la position des enfants dans la distribution de revenus, de diplômes. Aux États-Unis par exemple, la chose est assez aisée, et du reste ancienne, car chaque enfant a dès sa naissance un identifiant fiscal présent dans la déclaration de revenus des parents ; dès lors, il est assez facile de relier les revenus des uns aux revenus des autres. Rien de tel en France, et ce n’est que par des appariements, tels que l’échantillon démographique permanent, panel sociodémographique de grande taille, qu’on peut relier le sort des générations successives. Mais c’est aussi par des appariements que pourra être évaluée l’ampleur des économies permises par des travaux de rénovation thermique par exemple.

Les appariements permettent également de décrire les parcours des jeunes après la formation initiale, pour analyser la période d’insertion sur le marché du travail. Avec le SSM en charge du travail (Dares), les SSM en charge de l’éducation (Depp) et de l’enseignement supérieur (Sies) ont récemment mis au point respectivement les dispositifs InserJeunes et InserSup pour évaluer l’insertion sur le marché du travail des jeunes passés par différentes filières d’éducation.

D’autres cas d’usage, plus internes, existent. La multiplication des sources pose inévitablement la question de leur cohérence. Ce sont bien par des travaux d’appariement qu’on peut par exemple tenter de comprendre pourquoi la dynamique de l’emploi apparaît plus rapide dans les données administratives (DSN, déjà citée) que dans l’exploitation de l’enquête emploi menée auprès des ménages [Fabre et Jauneau, 2025].

Bien entendu, le recours à des appariements appelle à beaucoup de vigilance méthodologique et de précautions pour préserver la confidentialité de la vie privée. Il ne s’agit pas de construire un Big Brother universel, mais bien de proportionner chaque appariement à son apport potentiel pour éclairer les réalités économiques et sociales. L’Insee et les SSM ont développé une doctrine en la matière, sous l’égide du Conseil national de l’information statistique (Cnis) [Dupont F. et alii, 2023]. L’Insee a aussi développé de nouveaux outils comme le recours à un Code statistique non signifiant pour réaliser les appariements sans recourir à un identifiant trop chargé d’informations (sur le sexe, l’âge, le lieu de naissance) comme le numéro d’identification au répertoire national d’identification des personnes physiques (NIR) [Bénichou et alii, 2023]. Et c’est du reste sur la base de cette doctrine qu’a été conçu le répertoire Résil évoqué supra [Lefebvre, 2024].

Certaines méthodes économétriques continuent d’être raffinées. C’est par exemple le cas des méthodes dites sur « petits domaines » qui permettent d’avoir des estimations statistiques dérivées d’enquêtes sur un territoire géographique trop petit pour que l’enquête soit représentative a priori à son niveau. C’est aussi les cas, pour prendre une illustration totalement différente, des méthodes qui permettent d’estimer l’ampleur de l’activité dissimulée à partir des contrôles fiscaux en corrigeant des biais de ciblage [Quantin et Welter-Médée, 2022]

Bien entendu, les équipes de l’Insee ont mené des travaux exploratoires fondés sur l’intelligence artificielle depuis plusieurs années.

Les cas d’usage les plus probants portent sur le recodage de programmes informatiques (crucial dans une période où l’Insee a pour des raisons budgétaires décidé de basculer totalement les programmes historiques écrits en SAS, logiciel payant, vers du R ou du Python, logiciels libres) et sur l’aide à la classification selon la nomenclature d’activité ou la nomenclature des professions. En effet, dans un certain nombre d’enquêtes, par exemple les enquêtes annuelles de recensement, les réponses à certaines questions sont ouvertes : on ne donne pas sa profession, par exemple, dans un menu déroulant fermé en choisissant la modalité de la nomenclature dont on relève, mais sous la forme d’un libellé comme « je suis chercheur en économie à l’Insee » qu’il faut traduire dans la nomenclature. Dûment et régulièrement entraînées (ce qui n’est pas sans coût), les méthodes de machine learning permettent d’améliorer la performance des méthodes habituelles et de réduire la fréquence du recours à la codification manuelle par des agents de l’Insee.

D’autres projets innovants portent sur l’extraction, dans des textes non structurés, d’informations utiles à la production statistique. Ainsi la Dares, service statistique du ministère du travail, peut extraire de façon efficiente les informations relatives aux modalités du télétravail dans les accords collectifs [Favaro et Thiounn, 2025]. L’Insee cherche aussi à accéder de façon massive et automatique aux informations utiles des comptes sociaux déposés par les entreprises.

La diffusion et la communication

Si l’on pense moins spontanément à ce métier qu’aux deux étapes précédentes de la collecte et du traitement des données, la diffusion-communication se transforme elle aussi profondément. Il est loin le temps où la diffusion statistique passait exclusivement par la parution des publications. Pour s’adapter à un marché de l’information en grande mutation, où la presse classique est challengée par les réseaux sociaux, et pour aller au-devant de tous les publics (ce sont précisément les termes du premier axe du plan stratégique de l’Insee depuis plusieurs années), l’Insee s’est engagé dans différentes démarches pour communiquer davantage.

Il s’agit d’abord de multiplier les canaux de diffusion.

Bien sûr, le site Insee.fr reste la vitrine principale de l’Institut, et il fait lui-même l’objet de démarches constantes d’amélioration. On trouve ainsi désormais un espace spécifiquement dédié aux utilisateurs en quête des séries chronologiques (qui ont souvent relevé les marges de progression du site de leur point de vue) ou un espace, trop méconnu, sur les données locales, dans lequel on peut trouver une mine d’informations sur chaque commune, la possibilité de les agréger sur un regroupement territorial de son choix et de les comparer, un outil cartographique si on souhaite même s’émanciper des découpages administratifs, un panorama interactif sur les régions, etc.

Mais d’autres vecteurs de diffusion se sont développés : une application Insee mobile disponible depuis quatre ans, une présence régulière sur les réseaux sociaux (historiquement Twitter / X, auquel l’Insee privilégie désormais Bluesky, Instagram, LinkedIn, Mastodon), la publication régulière de billets de blog tels que celui-ci pour mener une communication plus réactive aux questions d’actualité ou aux inévitables polémiques sur les indicateurs statistiques.

Parallèlement, l’Insee n’en oublie pas les relais d’opinion historiques que sont la presse écrite et la presse audiovisuelle et a développé son incarnation dans ces médias, de plus en plus de cadres et d’experts intervenant pour commenter les résultats et les publications. Il a aussi développé les ateliers à destination des data-journalistes.

Ces vingt dernières années, en sus des statistiques agrégées, la diffusion de données individuelles anonymisées s’est considérablement étoffée, dans le respect de la confidentialité. Ainsi, on trouve sur insee.fr, en open data, des jeux de données relativement pauvres pour éviter tout risque de ré-identification. Mais les chercheurs ont accès, sous réserve du sérieux de leur recherche et du recours à des dispositifs qui permettent de garantir au mieux le respect de cette confidentialité, à des données plus fournies qui alimentent notamment un nombre croissant d’évaluations de politiques publiques [Gadouche, 2019].

Cette activité intense et croissante de diffusion de statistiques et de données conduit l’Insee à mener un très vaste chantier, visant à industrialiser cette mission autant que faire se peut, à systématiser l’articulation avec les métadonnées, à aller d’un bout à l’autre de la chaîne, jusqu’à l’archivage [Mauguin et Sagnes, 2024].

Il s’agit aussi de développer des outils pour rendre les statistiques moins rébarbatives, faciliter leur appropriation par des non-initiés, à travers notamment des outils interactifs de datavisualisation et de cartographie [Lagarenne et alii, 2023] : sur les pyramides des âges, l’espérance de vie, le niveau des salaires, l’inflation relative à son panier personnel de biens et services, les catégories socio-professionnelles. Plus ludiques encore, des quiz – parfois pas évidents, j’en suis le témoin… – sont aussi proposés sur le site et sur l’application mobile.

Pour faciliter l’appréhension des grands sujets sociaux et économiques, la collection « L’essentiel sur… » propose, avec des tableaux et graphiques qui se veulent intuitifs, des dossiers synthétiques sur l’inflation, les salaires, le chômage, les entreprises, la mondialisation, les immigrés et les étrangers résidents en France, la pauvreté et le tourisme. Sur certains sujets, ils sont en outre complétés par des vidéos pédagogiques, intégrant de petits dessins animés qui permettent également d’accéder facilement aux informations statistiques les plus importantes.

Il s’agit enfin d’être pro-actif et d’agir pour diffuser la culture statistique [Insee et alii, 2023].

À cette fin, tout le matériel décrit dans les lignes qui précèdent est rassemblé dans une rubrique « Découvrir, apprendre, enseigner » du site insee.fr. On trouve également, sur le site Eduscol du ministère de l’Éducation nationale, des pages « Culture statistique et enseignements » qui présentent pour les principaux thèmes des programmes scolaires, une sélection de ressources utiles aux enseignants produites par l’Insee.

L’Insee se veut actif en signant des partenariats avec l’Éducation nationale, aussi au niveau régional, en accueillant des classes, en animant des séminaires.

Je suis du reste ravi de terminer ce panorama de l’innovation à l’Insee par ce partenariat qui est crucial à mes yeux. La bonne appréhension de concepts aussi usuels que l’inflation, le chômage, la démographie, l’immigration me semble indispensable à la formation du citoyen. C’est aussi une matière qu’on peut solliciter pour apprendre à nos enfants à faire preuve de discernement dans l’utilisation d’Internet, pour leur rappeler que tout ce qui est disponible en ligne n’a pas une égale valeur, une égale rigueur, une égale objectivité.

Je tiens pour conclure à rendre hommage aux équipes de l’Insee et de l’ensemble de la statistique publique, qui poursuivent avec ténacité, rigueur, et le plus souvent succès (!) ces chantiers innovants, qui plus est dans un contexte d’économies de moyens qu’a traduit la baisse continue de l’empreinte budgétaire de l’Institut [Madelin et Guéné, 2024].

Pour en savoir plus

Plus d'articles

Par internet, par téléphone, à domicile : comment répond-on aux enquêtes de l’Insee ?

Par internet, par téléphone, à domicile : comment répond-on aux enquêtes de l’Insee ?

Comment mesurer l’évolution du pouvoir d’achat de l’ensemble des ménages ?

Comment mesurer l’évolution du pouvoir d’achat de l’ensemble des ménages ?

Comment l’Insee protège-t-il les données qu’il collecte ?

Comment l’Insee protège-t-il les données qu’il collecte ?

Mesurer la pauvreté : quels outils statistiques en France et en Europe ?

Mesurer la pauvreté : quels outils statistiques en France et en Europe ?

Partager

Auteur/Autrice