La diffusion en accès libre et gratuit des données : l’exemple du répertoire Sirene

16 septembre 2020

Dès 2003, l’Insee a fait le choix de l’open data en prenant la décision d’ouvrir l’accès sur son site internet à toutes les données qu’il produit, ainsi que ses publications. La mise à disposition de l’interface de programmation ou API Sirene permet de faire face au changement d’échelle de l’open data. Elle s’intègre par ailleurs dans une démarche nationale de simplification administrative, plus connue sous le nom « Dites-le nous une fois ». À l’occasion du salon Big Data 2020 qui s’est tenu les 14 et 15 septembre au parc des expositions de la Porte de Versailles à Paris, nos experts font le point, en trois questions, sur une offre de données par API qui ne va pas s’arrêter là.

Pourquoi une diffusion des données Sirene par API ?

Le programme « Dites-le nous une fois » a pour objectif de simplifier les démarches administratives des entreprises en leur évitant de déclarer plusieurs fois leurs données d’identité (raison sociale, adresse…). Dans ce cadre, et pour rationaliser le système d’information de l’État, les administrations peuvent interfacer leur système d’information avec les données du répertoire inter-administratif Sirene mises à jour quotidiennement via une API (Application Programming Interface, interface de programmation applicative). Cette API est exposée sur le catalogue des API de diffusion de l’Insee, ouvert en juillet 2018.

Par ailleurs, l’API-Sirene a permis de construire une offre de diffusion open data cohérente et complémentaire, via trois canaux : l’API elle-même avec les services de requêtes unitaires ou multiples sur des siren (identifiant d’entreprise) et des siret (identifiant d’établissement) ; le site sirene.fr, orienté plus grand public, qui appelle l’API pour les recherches et la constitution de listes ; et les fichiers stocks téléchargeables déposés chaque premier du mois sur data.gouv.fr.

L’Insee conforte ainsi son rôle d’acteur de l’open data avec cette offre API, Sirene étant l’une des neuf bases du service public de la donnée : en moyenne, 20 000 listes sont téléchargées mensuellement ; 6 000 comptes sont connectés à l’API Sirene et jusqu’à 23 millions de requêtes par mois sont effectuées en 2020.

Quelles requêtes les utilisateurs effectuent-ils à partir de l’API Sirene ?

Plus de la moitié des requêtes effectuées correspondent à des recherches unitaires sur siren ou siret : les utilisateurs vérifiant qu’un siren ou un siret existe, ou cherchant les données associées à ces identifiants. Ensuite, une part importante correspond à des requêtes multicritères : les utilisateurs cherchent à obtenir les unités légales ou les établissements qui correspondent à plusieurs critères. Pour ces recherches multicritères, il y a trois sortes d’utilisations : la mise à jour du référentiel (en sélectionnant l’ensemble des unités légales ou établissements qui ont été mis à jour depuis une certaine date), l’identification (« je ne connais pas le numéro siren ou siret mais je le recherche à partir d’éléments dont je dispose, par exemple la raison sociale ou l’adresse »), ou la liste, à des fins de recherche d’emploi, d’étude, de prospection commerciale, etc.

Quelles évolutions à venir en matière d’open data à l’Insee ?

Les évolutions à venir s’inscrivent dans une perspective historique de près de deux décennies.

L’Insee, précurseur de l’open data, a mis en place très tôt, dès 2003, une politique d’ouverture des données. Elle accompagnait l’essor d’internet, canal par excellence de diffusion directe de l’information auprès de tous les utilisateurs. Les deux bénéfices les plus fréquemment évoqués de l’open data sont la possibilité de valoriser les données, et de favoriser l’innovation par la data. Pour les institutions publiques s’y ajoute la transparence de l’action de l’État. Toutes ces valeurs rejoignent celles de la statistique publique, mise au service des citoyens, pour éclairer les débats publics.
En complément de la mise en ligne gratuite des publications et des fichiers de données, l’institut a étendu les formats de ces derniers à des standards ouverts comme csv et xml. Puis, à partir de 2018, il s’est lancé dans une politique de diffusion par API. Après Sirene et les nomenclatures associées, sont désormais accessibles depuis cette année d’une part nos séries longues d’indicateurs économiques et sociaux, et d’autre part nos données locales (aux mailles communales et au-delà).

Une API sur les métadonnées sera prochainement proposée au public : non seulement les nomenclatures, mais aussi les concepts, sources et définitions seront accessibles aux utilisateurs par API, en complément des consultations actuelles sur le site insee.fr. Les systèmes d’information des utilisateurs pourront ainsi directement et automatiquement se servir des bons concepts et définitions de variables lorsqu’ils utilisent nos sources : un gage d’efficacité et de cohérence de l’information.

À moyen terme, toutes nos bases de données ont vocation à être mises à disposition par API, et leurs variables mises en cohérence avec notre catalogue central de métadonnées (définitions et concepts). L’objectif de l’Insee, à travers ce projet ambitieux compte tenu de l’étendue de son offre, 5 000 nouveaux fichiers de données chaque année, 150 000 séries chronologiques, est de créer de la valeur pour les utilisateurs en mettant à disposition des outils performants et en favorisant l’interopérabilité entre les données, qu’elles viennent de l’Insee ou d’autres sources.

Enfin, à plus long terme, nous menons un projet de recherche en partenariat avec d’autres instituts de statistique européens, pour préparer la prochaine révolution dans le domaine de la data : rendre les données interopérables au niveau le plus fin. Cela permettra à l’utilisateur de formuler des requêtes à distance sur nos statistiques sans passer par un fichier ou une base de données. Cette prochaine révolution porte le nom de « statistiques ouvertes liées » (linked open statistics), comme composante des données ouvertes liées. Nous parlerons alors de « lacs de données » (datalakes), de requêtes « SPARQL », etc. Mais ceci est une autre histoire. ■