Toutes les personnes qui travaillent dans la donnée vous en parleront, en moyenne, elles ont toutes eu affaire à de la donnée manquante. Cette expérience peut être un casse-tête et parfois un cauchemar lorsqu’il s’agit d’exploiter des données truffées de valeurs manquantes.
Car on le sait bien, la qualité des données est une des clés principales pour mener à bien un projet data (c'est le concept de données propres).
Toutefois, avant de se lancer dans les stratégies de traitement des données manquantes, il est important de pouvoir identifier et comprendre les raisons qui se cachent derrière ces absences d’information.
Il existe plusieurs catégories de données manquantes basées sur les raisons et les mécanismes donnant lieu à ces données manquantes. Au cours des paragraphes suivant, je détaille les trois grands types.
Les données manquantes sont classées en MCAR (Missing Completely at Random) si les événements qui conduisent à l'absence d’une information particulières sont indépendants à la fois des variables observables et des paramètres d'intérêt non observables, c’est-à-dire que ces données absentes sont produites entièrement au hasard. Cela implique que les causes des données manquantes ne sont pas liées aux données elles-mêmes.
💡 Selon nos observations, le MCAR est une balance à court de piles. Certaines données seront manquantes simplement à cause de la malchance.
Dans le contexte d’une entreprise collectant des informations sur son site, les données classées MCAR apparaissent lorsque le site n’est plus fonctionnel, peu importe la raison (panne, arrêt momentané des services, maintenance…).
Lorsque les données sont MCAR, l'analyse effectuée sur ces données est sans biais. Aucune des variables n’est affectée plus qu’une autre. Ainsi, l'avantage statistique des données MCAR est que l'analyse reste impartiale, malgré une perte évidente d’information.
🔎 Cependant, les données sont rarement MCAR.
Les méthodes statistiques modernes partent généralement de l'hypothèse de données manquantes aléatoire (MAR, Missing At Random) pour justifier des données manquantes.
La donnée manquante au hasard est une hypothèse plus générale et réaliste que MCAR.
MAR se produit lorsque l'absence n'est pas aléatoire mais que celle-ci peut être entièrement prise en compte par des variables pour lesquelles il existe des multiples informations complètes.
💡 Observation : Par exemple, lorsqu'elle est placée sur une surface molle, notre balance peut produire plus de valeurs manquantes que lorsqu'elle est placée sur une surface dure. Ces données ne sont donc pas des MCAR car nous savons que différentes surfaces donnent différents résultats. Cependant si nous connaissons le type de surface et si nous pouvons supposer que les données sont MCAR sur ce type de surface, alors les données sont considérées comme MAR.
Selon la procédure dans notre contexte d’entreprise et de la récupération d’information sur le site, un exemple de données MAR peut être des différences de comportement des flux de données entre une navigation desktop (via un ordinateur) et une navigation mobile (via un smartphone). Dans ce cas, il est possible de connaître les différences de collection entre ces deux types de navigation. En isolant les données provenant d’un des modes d’accès au site, nous pouvons alors considérer les données comme MCAR.
Si les caractéristiques des données manquantes ne correspondent pas à ceux de MCAR ou MAR, elles entrent dans la catégorie des données manquantes non aléatoires (MNAR ou Missing Not At Random).
MNAR signifie que la probabilité d’absence des données sont variables pour des raisons qui nous sont inconnues.
💡 Par exemple, le mécanisme de notre balance peut s'user avec le temps, produisant plus de données manquantes au fil du temps, mais nous pouvons ne pas nous en apercevoir. Si les objets les plus lourds sont mesurés plus tard au cours de notre étude, alors nous obtenons une distribution des mesures qui sera déformée. MNAR inclut aussi la possibilité que notre balance produise plus de valeurs manquantes pour les objets plus lourds, un phénomène qui pourrait être difficile à identifier et à gérer.
Un exemple de données manquantes non aléatoire pour notre entreprise et son site web peut être des changements de comportement du site et des composants de collecte de données au fil des mises à jour des Framework et des systèmes utilisés. Dans ce cas, cela peut se révéler très complexe d’identifier ces phénomènes de génération de données manquantes.
Les cas de données MNAR sont problématiques. La seule méthode pour obtenir une estimation non biaisée des paramètres dans un tel cas est de modéliser les données manquantes. Le modèle peut alors être incorporé dans un modèle plus complexe pour estimer les valeurs manquantes.
Le concept de données manquantes est important à comprendre afin de gérer avec succès la gestion et l’exploitation des données. Si les valeurs manquantes ne sont pas gérées correctement par l’utilisateur, on peut aboutir à des conclusions inexactes sur les données. Dans un prochain article, je partagerai avec vous les stratégies à disposition pour faire face à ces données manquantes.
Cela peut vous intéresser :