Que peut faire l’Insee à partir des données de téléphonie mobile ?
Mesure de population présente en temps de confinement et statistiques expérimentales

Temps de lecture : 7 minutes
François Semecurbe, Milena Suarez Castillo, Lino Galiana
Élise Coudin, Mathilde Poulhes
Insee

Savoir comment se répartit effectivement la population sur le territoire est essentiel pour organiser la réponse sanitaire et sociale face à l’épidémie de coronavirus. L’Insee a diffusé le 8 avril de premiers résultats de population présente en métropole. Il a utilisé des informations statistiques issues des données de téléphonie mobile. Ces données sont des statistiques de comptage, agrégées territorialement, collectées au niveau des antennes relais. Ce ne sont ni des données GPS de localisation des téléphones portables, ni des données issues d’application téléchargées. Elles ne permettent pas de suivre le déplacement des personnes, mais d’effectuer des comptages par zones à différentes dates, ce qui est l’unique objectif de ces travaux.

Ces résultats, provisoires, s’inscrivent dans des travaux de plus long terme entrepris à l’Insee, comme dans d’autres instituts nationaux de statistique. Ces travaux visent à mobiliser des données de téléphonie mobile pour estimer la population présente sur un territoire à un moment donné, dans le respect de la vie privée des utilisateurs. Ainsi, les premiers résultats publiés le 8 avril ont aussi bénéficié de l’expertise développée par l’Insee depuis plusieurs années pour analyser les informations issues de ce type de données.

Dans la crise sanitaire que traverse le pays, l’Insee s’engage à maintenir ses missions essentielles et à diffuser régulièrement des analyses de la situation économique et sociale (cf. communiqué de presse du 25 mars). En s’appuyant sur les données d’un opérateur de téléphonie mobile, l’institut a publié le 8 avril des résultats provisoires de population présente en métropole, qui pourront être actualisées dans les semaines à venir. Cet article vise à expliquer pourquoi et comment de tels travaux ont été engagés, et le cadre plus général de l’exploitation de données de téléphonie mobile par l’Insee.

Pourquoi estimer la population présente sur le territoire
sur la base des données de téléphonie mobile ?

Répondre au besoin des acteurs publics locaux

Produire les statistiques officielles de population en France fait partie des missions premières de l’institut. Celui-ci réalise chaque année le recensement de la population, qui permet d’établir les estimations de population résidente, utile aux décideurs locaux pour dimensionner les offres de services. Depuis plusieurs années maintenant, des statistiques de population présente (et non plus résidente) font partie des besoins des acteurs locaux recensés par la commission Territoire du Conseil national de l’information statistique (Cnis) et sont à ce titre un terrain de développement pour l’Insee(1). Ce besoin est encore plus fort dans la situation de crise sanitaire actuelle, pendant laquelle l’Insee s’est fixé comme ambition de fournir tout élément d’information pouvant éclairer les décisions publiques, rapidement, mais avec rigueur et transparence. En particulier, les acteurs publics ont besoin de savoir comment se répartit la population sur le territoire après les mouvements de population survenus lors de la mise en place du confinement, afin d’organiser au mieux la réponse sociale et sanitaire.

Les données de téléphonie mobile, un champ de recherche prometteur…

Le comité du Système statistique européen(2) a reconnu l’utilité pour la statistique publique de considérer les données volumineuses (Big Data), souvent privées, comme une source d’information prometteuse pour éclairer l’action publique (mémorandum dit de « Scheveningen » sur les statistiques officielles et les Big Data). Celles de téléphonie mobile pourraient notamment permettre à terme des mises-à-jour plus fréquentes des statistiques de population. Cependant, les données de téléphonie ne sont pas collectées dans le but de produire une information statistique, à la différence d’une enquête par exemple. Elles sont le produit accessoire d’un service, ici de téléphonie mobile. Les utiliser pour construire des statistiques fiables reste un champ de recherche actif, et de nombreux travaux sont en cours pour évaluer la qualité de l’information qui peut en être tirée, et établir des méthodes de traitement statistique robustes, transparentes et garantissant le respect de la vie privée.

… qui mobilise l’Insee depuis plusieurs années

Depuis plusieurs années, l’Insee a noué un partenariat de recherche avec un laboratoire de recherche d’Orange (Orange Labs-SENSE) et Eurostat afin d’explorer le potentiel des données de téléphonie mobile pour la production de statistiques d’intérêt public. Juste avant la crise sanitaire, l’Insee s’est engagé dans un nouveau projet de recherche, MobiTic, soutenu par l’Agence nationale de la Recherche, avec notamment Orange Labs et Orange Business Services, ainsi que deux laboratoires publics de recherche, l’université Gustave Eiffel (Ifsttar) et l’UMR Géographie-Cités du CNRS. L’ambition de MobiTic est de produire une méthode fiable et open source de statistiques de population présente et de mobilité en combinant données numériques et traditionnelles.

Une première réponse statistique à l’urgence

La publication des premiers résultats le 8 avril 2020 a été rendue possible par l’utilisation d’indicateurs agrégés et anonymes de téléphonie mobile. Mis à disposition par Orange, à titre gracieux, ils ont permis de répondre au besoin d’études statistiques publiques dans le seul cadre de la crise sanitaire. Produits, en temps normal, par Orange pour fournir notamment des mesures de fréquentation touristique dans des zones bien définies, ces indicateurs agrégés ont servi à l’institut pour décrire les évolutions de population sur le territoire français métropolitain, avant et après la mise en place du confinement. L’Insee a procédé à un recalage de ces indicateurs en mobilisant les estimations de population 2020 issues du recensement, pour assurer une meilleure représentativité de l’ensemble de la population. L’expertise méthodologique acquise par l’Insee sur l’utilisation des données relatives à l’activité des réseaux de téléphonie mobile a été très utile pour produire et diffuser rapidement ces résultats de population présente consolidés.
Les résultats n’en restent pas moins encore très provisoires.
Afin de parer à l’urgence, seules les données de l’opérateur Orange ont été mobilisées dans cette première publication. Des travaux sont engagés avec d’autres opérateurs afin d’ouvrir la possibilité de produire de nouveaux résultats à partir de plusieurs sources, ce qui améliorerait la qualité globale des statistiques proposées et permettrait d’affiner les tendances qui se dégagent.

Quelle est l’origine des données de téléphonie mobile ?

Les exploitations réalisées par l’Insee ne reposent sur aucune donnée à caractère personnel, directement ou indirectement identifiante. Simples comptages par zones géographiques d’une taille suffisamment vaste à différentes dates, elles ne présentent aucun risque de divulgation de la vie privée des personnes.

Des comptages territoriaux anonymes issus des activations du réseau

Orange a fourni à l’Insee des comptages anonymes de présence dans chaque département croisés avec le département de résidence. L’exploitation de comptages à une échelle plus fine (intercommunalité ou canton par exemple) pourra être envisagée dans un deuxième temps. Ces comptages proviennent de l’observation par Orange de son réseau mobile. L’opérateur les recale une première fois pour représenter l’ensemble de la population à une échelle locale, car ses clients ne constituent qu’une fraction du parc de téléphonie mobile. Concrètement, un mobile est localisé sur un territoire donné à un moment donné à partir des antennes auxquelles le terminal se connecte. On peut ainsi compter précisément le nombre de téléphones mobiles qui se sont connectés à l’ensemble des antennes radios d’une zone géographique donnée et sur une période donnée. La maille territoriale la plus fine (non utilisée dans la publication du 8 avril) correspond approximativement aux intercommunalités, au nombre de 2000 environ. Ces données issues du réseau mobile ne doivent pas être confondues avec les données de localisation GPS de certains smartphones. Les données utilisées par l’Insee ne sont ni des données GPS ni des données provenant d’applications installées sur les mobiles. La précision des données issues des antennes ne permet pas d’appréhender, par exemple, le respect des mesures de distanciation sociale. Elle est en revanche suffisante pour renseigner sur les écarts de répartition de la population sur le territoire.

Confidentialité garantie

L’Insee doit connaître dans le détail la méthodologie des opérateurs à l’origine des données qui lui sont fournies. Des échanges approfondis sont donc nécessaires entre l’Insee et les producteurs, échanges évidemment confidentiels, de sorte que chaque opérateur ait la garantie que ses méthodes ne seront pas divulguées à ses concurrents.
L’Insee doit en effet être en mesure d’évaluer la fiabilité des indicateurs, d’en comprendre et d’en donner les forces et les limites afin d’en tirer la meilleure analyse possible. Il appartient également à l’institut de mener des traitements supplémentaires sur les indicateurs fournis, lorsqu’il le juge opportun.

Quels sont les travaux de moyen terme déjà engagés par l’Insee ?

Mesurer la population présente est aussi un enjeu local. Les directions régionales de l’Insee ont recensé les besoins des acteurs publics, des préfectures et des services déconcentrés de l’État en la matière. Mieux connaître la répartition de la population et ses variations saisonnières permet de mieux aménager et adapter les territoires à la présence des populations, en particulier dans les zones touristiques. Parmi les bénéfices : la prévention des risques naturels ou technologiques, le dimensionnement de l’offre médicale, les capacités des services d’assainissement, de traitement des ordures ménagères, le contrôle sanitaire, etc.

Collaboration européenne et travaux méthodologiques

À moyen terme, l’objectif de l’Insee, et plus largement de la statistique européenne, est de développer des méthodes de production de statistiques de population présente à partir des données de téléphonies mobiles qui n’adhèrent pas à un opérateur en particulier. Ces méthodes seront ouvertes et publiques afin de garantir la transparence des statistiques publiées. Celles-ci ont vocation à être partagées avec l’ensemble des acteurs exploitant ces données, y compris les opérateurs de téléphonie mobile qui produisent et diffusent des statistiques à partir de leurs données.
L’Insee participe ainsi à un groupe de travail réunissant Eurostat et les instituts de statistiques européens sur l’usage des données de téléphonie mobile (ESSnet Big DataWPI Mobile networks data). L’enjeu est de définir à l’échelle européenne un cadre d’exploitation des données mobiles pour assurer la qualité des statistiques publiées tout en respectant la vie privée des détenteurs de mobiles. La participation de l’Insee à des travaux académiques, à travers notamment le projet de recherche MobiTic, a également vocation à améliorer la qualité des travaux s’appuyant sur des données téléphoniques. En parallèle du partenariat existant avec Orange, l’Insee est en train de nouer un partenariat méthodologique avec Bouygues Telecom.
Les données de téléphonie mobile peuvent servir l’intérêt général. Afin de les valoriser dans les meilleures conditions, il importe que l’ensemble des acteurs participe à la construction d’un système d’information transparent et ouvert. Fort de son expérience sur les données de caisse, l’institut garantit la qualité et la confidentialité des traitements statistiques, tant pour les fournisseurs de données que pour les citoyens.

Pour en savoir plus

Insee et statistiques européennes :

Page MobiTIC :

Mémorandum de Scheveningen :

Wiki de l’ESS net Big Data II :

Opérateurs de téléphonie mobile :

(1) « Le Conseil note que la seule mesure de la population résidente ne suffit pas pour capter la dynamique d’un territoire. Dans ce contexte, le Conseil souhaite que les travaux d’expertise des nouvelles sources de données se poursuivent dans l’objectif de mesurer la population présente sur un territoire à différents moments de la journée, différents jours de la semaine ou mois de l’année. » Avis de moyen terme 2019-2020.
(2) Le CSSE réunit régulièrement les directeurs généraux des instituts nationaux de statistique européens et d’Eurostat.

Partager