Accueil > Blog > Solutions Data & CDP > Le Big Data et les 4 V de la donnée

Le Big Data et les 4 V de la donnée

Publié le 29 décembre 2020
Par Pierre Baudin

Qu’est-ce que le big data ?

Le terme Big Data se traduit en français par mégadonnées, grosses données ou encore données massives. Il désigne un ensemble très volumineux de données qu’aucun outil classique de gestion de base de données ou de gestion de l’information ne peut vraiment travailler.

Ces informations de provenance diverses sont contenues dans les messages que nous nous envoyons, les vidéos que nous publions, les informations climatiques, les signaux GPS, les enregistrements transactionnels d’achats en ligne et bien d'autres sources encore. Ces données sont le Big Data.

Le big data fait de plus en plus partie intégrante de la stratégie des entreprises en matière de gestion et exploitation des données et nous allons voir les problématiques qui émergent de ces volumes massifs de données.

 

Les 4 V fondamentaux

Les spécialistes du Big Data, notamment chez IBM, définissent le Big Data par les quatre V suivants : Volume, Variété, Vitesse et Véracité. Ces quatre dimensions caractérisent et distinguent les données volumineuses des données ordinaires.

Volume

Le volume est la principale caractéristique du Big Data. Le terme est en effet directement tiré de l’immense masse de données générées au quotidien.

Selon IBM, une moyenne de 2,5 quintillions de bytes de données sont créés chaque jour, soit environ 2,3 trillions de gigabytes. Ces données évoluent à la hausse de jour en jour avec l’ajout constant de source de données. L’exemple de l’essor des objets connectés en est la preuve.

D’année en année, la quantité de données augmente considérablement. Sur l’ensemble de l’année 2020, 40 zettabytes de données seront créés, soit 43 trillions de gigabytes.

Ces données doivent être stockées quelque part et le cloud fait partie des solutions disponibles.

Variété

Par delà la simple quantité, ces données sont également plus diversifiées que jamais. Ce phénomène est lié à la diversification des usages d’internet et du numérique. La provenance des données, leur format, mais également le domaine auquel elles sont liées connaissent une variété sans précédent.

De nouveaux types de données provenant de sources sociales, de machines à machines et mobiles ajoutent de nouvelles dimensions aux données transactionnelles traditionnelles. Cela demande donc des évolutions des modèles d’organisation de la donnée qui ne rentrent plus dans des structures soignées et faciles à consommer (voir Key-Value, Columnar, Document, Graph).

Vitesse

La vitesse et les directions à partir desquelles les données arrivent dans l'entreprise augmentent en raison de l'interconnexion et des progrès de la technologie des réseaux, de sorte qu'elles arrivent parfois plus vite que nous ne pouvons en tirer un sens. Plus les données arrivent rapidement et plus les sources sont variées, plus il est difficile de tirer de la valeur de ces données. Les méthodes de calcul traditionnelles deviennent limitées et dans certains cas ne fonctionnent pas sur les données qui arrivent aux vitesses d'aujourd'hui!

Véracité

Enfin, la véracité des données ou la quantité de données fiables lorsque des décisions clés doivent être prises sur des volumes aussi importants et collectés aussi rapidement est indispensable.

Il est difficile de savoir simplement que les données ne sont en fait pas usurpées, n'ont pas été corrompues ou proviennent d'une source attendue ; cela pourrait provenir, par exemple, de l'une des milliers de caméras de sécurité, chacune produisant plusieurs milliers d'images vidéo par heure.

Schéma des 4V de la donné : volume, variété, vitesse et véracité

 

Dans une moindre mesure, on retrouve d’autres V aussi liés au Big Data :

  • Valeur : pour toutes les informations qui peuvent être extraites de ces données massives
  • Variabilité : pour la stabilité des modèles de données, des liens qui peuvent être fait dans ces montagnes de données.

Avec le développement de l'Internet des objets (IoT) et la digitalisation en cours dans de nombreux domaines de la société, de la science et des affaires, la quantité de données ne va pas en diminuant.

💡 Le Big Data, comme terme générique, permet de décrire le grand volume de données à la fois structurées et non structurées qui inonde une entreprise au quotidien.

Les problématiques liées aux V du Big data comme le stockage, l’accessibilité, la  rapidité d'exécution, les traitements et l'analyse représentent un défi et une opportunité pour de nombreuses années à venir.

Il est aussi bon de se rappeler aussi que dans de nombreux cas ce n’est pas la quantité de données qui est importante mais ce que font les organisations avec les données qui compte. Les mégadonnées doivent être analysées pour obtenir des informations qui conduisent à de meilleures décisions et à soutenir la stratégie de l’entreprise.

Sources :

Besoin de savoir si vos données sont exploitables ?

L’audit data quality va vous aider à faire un véritable état des lieux de vos données, à vous assurer qu’elles sont en conformité avec le RGPD et à identifier les évolutions et les actions à mettre en œuvre.

Je demande un Audit Data Quality

Modèles d’attribution : optimiser la mesure de vos actions marketing [+ GUIDE]

Marketeurs, savez-vous quelle campagne, quelle source ou point de ...

Lire la suite

Pour ses 25 ans, l’agence Avanci dévoile sa nouvelle identité !

Nouvelle identité, nouveau site web. 25 ans après sa création, ...

Lire la suite