Accueil > Blog > Solutions Data & CDP > Le Big Data et les 4 V de la donnée

Le Big Data et les 4 V de la donnée

Solutions Data & CDP - Publié le 29 décembre 2020
Par Pierre Baudin

Data Manager

Qu’est-ce que le big data ?

Le terme Big Data se traduit en français par mégadonnées, grosses données ou encore données massives. Il désigne un ensemble très volumineux de données qu’aucun outil aucune machine classique de gestion de base de données ou de gestion de l’information ne peut vraiment travailler.

Ces informations de provenance diverses sont contenues dans les messages que nous nous envoyons, les vidéos que nous publions, les informations climatiques, les signaux GPS, les enregistrements transactionnels d’achats en ligne, nos recherches sur le web, nos outils que nous utilisons dans notre quotidien et bien d'autres sources encore. Ces données sont le Big Data.

Le big data fait de plus en plus partie intégrante de la stratégie des entreprises en matière de gestion, traitement et exploitation des données et nous allons voir les problématiques qui émergent de ces volumes massifs de données.

 

Les 4 V fondamentaux

Les spécialistes du Big Data, notamment chez IBM, définissent le Big Data par les quatre V suivants : Volume, Variété, Vitesse et Véracité. Ces quatre dimensions caractérisent et distinguent les données volumineuses des données ordinaires.

Volume

Le volume est la principale caractéristique du Big Data. Le terme est en effet directement tiré de l’immense masse de données générées au quotidien.

Selon IBM, une moyenne de 2,5 quintillions de bytes de données sont créés chaque jour, soit environ 2,3 trillions de gigabytes. Ces données évoluent à la hausse de jour en jour avec l’ajout constant de source de données. L’exemple de l’essor des objets connectés en est la preuve.

Une analyse montre que d’année en année, la quantité de données augmente considérablement dans les entreprises. Sur l’ensemble de l’année 2020, 40 zettabytes de données seront créés, soit 43 trillions de gigabytes.

Ces données doivent être stockées quelque part et le cloud fait partie des solutions disponibles.

Variété

Par delà la simple quantité, ces données sont également plus diversifiées que jamais. Ce phénomène est lié à la diversification des usages d’internet et du numérique. La provenance des données, leur format, mais également le domaine auquel elles sont liées connaissent une variété sans précédent.

De nouveaux types de données provenant de sources sociales, de machines à machines et mobiles ajoutent de nouvelles dimensions aux données transactionnelles traditionnelles. Cela demande donc des évolutions des modèles d’organisation de la donnée qui ne rentrent plus dans des structures soignées et faciles à consommer (voir Key-Value, Columnar, Document, Graph).

Vitesse

La vitesse et les directions à partir desquelles les données arrivent dans l'entreprise augmentent en raison de l'interconnexion et des progrès de la technologie des réseaux, de sorte qu'elles arrivent parfois plus vite que nous ne pouvons en tirer un sens. Plus les données arrivent rapidement et plus les sources sont variées, plus il est difficile de tirer de la valeur de ces données. Les méthodes de calcul traditionnelles deviennent limitées et dans certains cas ne fonctionnent pas sur les données qui arrivent aux vitesses d'aujourd'hui !

Véracité

Enfin, la véracité des données ou la quantité de données fiables lorsque des décisions clés doivent être prises sur des volumes aussi importants et collectés aussi rapidement est indispensable.

Il est difficile de savoir simplement que les données ne sont en fait pas usurpées, n'ont pas été corrompues ou proviennent d'une source attendue ; cela pourrait provenir, par exemple, de l'une des milliers de caméras de sécurité, chacune produisant plusieurs milliers d'images vidéo par heure.

Schéma des 4V de la donné : volume, variété, vitesse et véracité

 

Dans une moindre mesure, on retrouve d’autres V aussi liés au Big Data :

  • Valeur : pour toutes les informations qui peuvent être extraites de ces données massives
  • Variabilité : pour la stabilité des modèles de données, des liens qui peuvent être fait dans ces montagnes de données.

Avec le développement des technologies de l'Internet des objets (IoT) et la digitalisation en cours dans de nombreux domaines de la société, de la science et des affaires, la quantité de données ne va pas en diminuant.

💡 Le Big Data, comme terme générique, permet de décrire le grand volume de données à la fois structurées et non structurées qui inonde une entreprise au quotidien.

Les problématiques liées aux V du Big data comme le stockage, l’accessibilité, la  rapidité d'exécution, les traitements et l'analyse représentent un défi et une opportunité pour de nombreuses années à venir.

Il est aussi bon de se rappeler que dans de nombreux cas ce n’est pas la quantité de données qui est importante mais ce que font les organisations avec les données qui compte. Les mégadonnées doivent être analysées pour obtenir des informations qui conduisent à de meilleures décisions et à soutenir la stratégie de l’entreprise.

Sources :

 

Cela risque de vous intéresser : 

Augmentez vos ventes grâce au marketing prédictif !

Business intelligence et data visualisation : quels enjeux ?

Méthodologie pour réussir son projet data

[Tidy data] Le concept de données propres

Mesurez votre potentiel data !

Répondez à notre quizz en quelques clics et recevez un diagnostic personnalisé du potentiel de vos données.

Faire le test !

Webinar : 3 use cases IA pour booster votre business

Source d’optimisation du ROI et de réduction des coûts, l’IA ...

Lire la suite

Réservez votre place pour l’Intelligence Marketing Day à Lyon !

Après l'édition 2024 de Rennes, c'est à Lyon que vous pourrez plonger ...

Lire la suite