« There are three kinds of lies : lies, damned lies and statistics »
– Mark Twain

Bigdata est devenu très populaire et son utilisation se retrouve partout. Wikipédia définit la relation entre Bigdata et données de la manière suivante : « Le Bigdata, littéralement « grosses données », ou mégadonnées, parfois appelées données massives, désigne des ensembles de données devenus si volumineux qu’ils dépassent l’intuition et les capacités humaines d’analyse, et même celles des outils informatiques classiques de gestion de base de données ou de l’information.» 
Les données constituent incontestablement la base du Bigdata. L’authenticité des données s’avère donc très importante. Est-ce que les données mentent ? Les sources des données sont-elles fiables ?
Pour répondre à ces deux questions, il convient de s’interroger sur l’origine des données. D’où viennent les données ? Comment les collecte-t-on ?
Avant d’examiner les rapports statistiques, le premier réflexe à adopter est de vérifier la source du rapport et la source des données.
Concernant la source des données, il faut être attentif à 4 points :

  1. Si l’autorité de diffusion des données fait autorité (représentativité)
  2. S’il s’agit bien du document de sortie de l’agence d’origine (fiabilité)
  3. L’objet de la collecte des données (cible) : selon le produit, la cible sera différente. Par exemple, la cible du produit industriel est l’entreprise, tandis que celle du produit de consommation est le consommateur. Lors de la collecte des données, si la cible choisie n’est pas la bonne, le résultat sera inapproprié et donc d’aucune utilité.
  4. Les données primaires ou les données secondaires (corrélation) : les données appartiennent soit à la catégorie des données primaires, soit à celle des données secondaires. Par rapport aux données secondaires, les données primaires ont une plus forte corrélation avec le sujet et sont donc plus efficaces et pertinentes.

Par ailleurs, la méthode de collecte des données influence beaucoup le résultat. Le questionnaire Web et le questionnaire réalisé dans la réalité entraînent de grandes différences.
De plus, des mensonges peuvent apparaître dans les statistiques de données car le processus de traitement des données diffère. Pourtant, les données d’origine sont les mêmes.
En conclusion, dire que « les données mentent » ne signifie pas que celles-ci sont falsifiées. Après avoir été sélectionnées artificiellement, seule une partie des données sera affichée. Quant aux autres parties, elles seront cachées afin d’orienter délibérément un choix et ainsi atteindre un objectif.

A propos de Xiaoxiao HUANG