Projet:Communes de France/Wikidata et population des communes françaises

Cet article a pour but de définir les modalités d'organisation et de réutilisation des données de population des communes françaises dans Wikidata.

Avant de charger des données sur Wikidata, il est nécessaire de bien les préparer. En effet avec toutes les bases ou tableaux de données communiqués par l'Insee, il peut être tentant de les importer en masse, mais ce travail doit pouvoir être utilisé ultérieurement, en particulier avec des modèles d'affichage (textes, tableaux, graphiques, infobox). Il ne sert à rien d'avoir une donnée si on ne peut pas l'utiliser soit parce qu'il manque un critère soit parce qu'elle ne correspond pas à ce que l'on souhaite afficher.

Dans un premier temps nous nous intéresserons à la principale donnée de population : la population municipale. Une fois que le principe d'organisation pour cette donnée sera arrêté, il sera aisé de le transposer sur d'autres. Deux cas différents seront à traiter :

  • le chargement sur Wikidata des données publiées depuis 2004 d'une part,
  • le chargement des données antérieures à 2004 qui ne pourront être récupérées que sur les modèles de données car elles ne proviennent en général pas du site de l'Insee mais de l'EHESS.

Nous nous intéressons dans un premier temps au chargement des données post-2004.

Affichage des données de population dans les articles des communes françaises modifier

Les recensements avant 2004 modifier

Le premier recensement de l'ère moderne est réalisé en 1801, mis en place par Bonaparte, établissant la population française d'alors à 33 millions d'habitants. À partir de cette date et jusqu'à la Seconde Guerre mondiale, un recensement (ou une opération assimilable à un recensement) sera effectué tous les cinq ans. Depuis 1946, les recensements de la population française ont eu lieu à intervalles irréguliers en 1954, 1962, 1968, 1975, 1982, 1990 et 1999. À partir de 2004, le recensement redevient régulier dans le temps grâce à la modernisation des techniques statistiques.

Les recensements depuis 2004 modifier

Depuis janvier 2004, le recensement repose désormais sur une collecte d'information annuelle, concernant successivement tous les territoires communaux au cours d'une période de cinq ans. Les communes de moins de 10 000 habitants réalisent une enquête de recensement portant sur toute la population, à raison d'une commune sur cinq chaque année. Les communes de 10 000 habitants ou plus, réalisent tous les ans une enquête par sondage auprès d'un échantillon d'adresses représentant 8 % de leurs logements.

En cumulant cinq enquêtes, l'ensemble des habitants des communes de moins de 10 000 habitants et 40 % environ de la population des communes de 10 000 habitants ou plus sont pris en compte. Les informations ainsi collectées sont ramenées à une même date pour toutes les communes afin d'assurer l'égalité de traitement entre elles. Cette date de référence est fixée au 1er janvier de l'année médiane des cinq années d'enquête pour obtenir une meilleure robustesse des données.

Les cinq premières enquêtes de recensement ont été réalisées de 2004 à 2008. Ainsi, à partir de fin 2008, il a été possible d'élaborer puis de diffuser les résultats complets du recensement millésimé 2006, date du milieu de la période. Depuis lors et chaque année, les résultats du recensement sont produits à partir des cinq enquêtes annuelles les plus récentes : abandon des informations issues de l'enquête la plus ancienne et prise en compte de l'enquête nouvelle.

Le recensement millésimé 2006, publié fin 2008 constitue la première diffusion des populations légales pour toutes les communes selon le nouveau dispositif. Cette diffusion est ensuite annuelle : populations légales 2007 entrant en vigueur au 1er janvier 2010, avec comme date de référence statistique le 1er janvier 2007, ... , populations légales 2014 entrant en vigueur au 1er janvier 2014, avec comme date de référence statistique le 1er janvier 2011, etc.

Convention d'affichage dans Wikipédia modifier

Par convention, il a été retenu d'afficher dans Wikipédia :
Jusqu'en 2004 : tous les recensements exhaustifs
A partir de 2004 :

  • Pour les communes de moins de 10 000 habitants : tous les recensements exhaustifs + l'année 2006 lorsque le premier recensement exhaustif n'est pas 2006 + la dernière population légale publiée.
  • Pour les communes de plus de 10 000 habitants : les populations légales des années 2006, 2011, 2016, etc.

Ainsi dans le cas d'Adon par exemple, commune de moins de 10 000 habitants dont le premier recensement a eu lieu en 2004, les années affichées en 2014 sont : 2004, 2006, 2009 et 2011.

Voir les données de population : {{Données/Adon/évolution population}}

Représentation des données de population dans Wikidata modifier

 

Pour rappel, l'organisation des données peut être représentée dans Wikidata selon le diagramme suivant.

Les qualificateurs modifier

Année de population légale modifier

L'année de population légale est le premier qualificateur à prendre en compte :

  • date = Propriété P585 - date - Point in time.

Ce qualificateur est toutefois insuffisant pour bien comprendre le cadre de référence de la donnée. En effet, pour 2011, les populations légales millésimées 2011 sont entrées en vigueur le 1er janvier 2014. Elles ont été calculées conformément aux concepts définis dans le décret n° 2003-485 du 5 juin 2003. Leur date de référence statistique est le 1er janvier 2011. Ces populations sont disponibles pour les différentes circonscriptions administratives existant au 1er janvier 2013 dans leurs limites territoriales à cette date. (Voir ici).

Ainsi au lieu du seul qualificateur de l'année de population légale (millésime de population légale : 2011 dans le cas présent), ce sont trois qu'il serait souhaitable de prendre en compte :

  • Année de population légale : 2011
  • Date de publication : 1er janvier 2014
  • Date de référence des limites territoriales : 1er janvier 2013.

Méthode de détermination modifier

Il peut être envisagé de préciser sur Wikidata la manière dont la population a été mesurée. Dans wiidata, il s'agit de la propriété 459 (determination method (P459) = méthode de détermination)

Pour une année donnée on a 5 types de mesures :

  1. les sondages (d:Q3490295) pour les communes de plus de 10 000 habitants
  2. des recensements (d:Q39825) pour 1/5 des communes de moins de 10 000 habitants
  3. des interpolations pour 2/5 des communes de moins de 10 000 habitants.
  4. des extrapolations pour 2/5 des communes de moins de 10 000 habitants.

Par simplification ces 5 types de mesures peuvent être ramenés à trois pour l'utilisation qui en est faite sur Wikipédia : "recensement", "estimation pop inf 10000" et "estimation pop sup 10000".

Dans les tableaux ou graphiques on n'affiche que les données relatives à des "recensements" ou "estimations pop sup 10000".

Année de recensement modifier

Pour définir cette méthode de détermination, il est donc essentiel de connaître les années de recensements. Ces données sont consultables actuellement uniquement en masse par département (sinon à l'unité par département)) à des adresses de ce type : http://www.insee.fr/fr/publics/rp.asp?dep=45

Il n'existe pas de fichier unique de toutes les années de recensements pour l'ensemble des communes. Par contre un petit script peut aisément récupérer les données de tous les départements, les agglomérer puis les trier selon les trois critères ci-dessus.

Cette année de recensement ne constitue néanmoins pas un qualificateur de la donnée en tant que telles, mais plutôt une donnée associée.

Origine des données et sourçage modifier

Origine des données modifier

Pour les populations légales, les données peuvent être récupérées sur le site de l'Insee à l'adresse suivante : http://www.insee.fr/fr/ppp/bases-de-donnees/recensement/populations-legales/pages2013/xls/ensemble.xls

Sourçage modifier

Sur Wikidata, les données ont souvent sourcées avec les wikipédias elles-même. Pire pour certaines données de population, elles sont sourcées par la WP néerlandaise! Ceci est une aberration. Il est nécessaire de citer une source claire (Insee ou EHESS), comme cela est fait dans les actuels modèles de données sur la WP française. Dans le cas de la population municipale, il est souhaitable de citer l'url ci-dessus.

La documentation modifier

Les modèles de données de population de la WP:fr produisent une documentation très complète. Ce qui n'est pas le cas dans Wikidata. On perdrait ainsi beaucoup de lisibilité, sauf si on peut ajouter des informations de type documentaire.

La réutilisation des données dans les modèles de la WP:fr modifier

Article connexe modifier