Le terme Big Data se traduit en français par mégadonnées, grosses données ou encore données massives. Il désigne un ensemble très volumineux de données qu’aucun outil aucune machine classique de gestion de base de données ou de gestion de l’information ne peut vraiment travailler.
Ces informations de provenance diverses sont contenues dans les messages que nous nous envoyons, les vidéos que nous publions, les informations climatiques, les signaux GPS, les enregistrements transactionnels d’achats en ligne, nos recherches sur le web, nos outils que nous utilisons dans notre quotidien et bien d'autres sources encore. Ces données sont le Big Data.
Le big data fait de plus en plus partie intégrante de la stratégie des entreprises en matière de gestion, traitement et exploitation des données et nous allons voir les problématiques qui émergent de ces volumes massifs de données.
Les spécialistes du Big Data, notamment chez IBM, définissent le Big Data par les quatre V suivants : Volume, Variété, Vitesse et Véracité. Ces quatre dimensions caractérisent et distinguent les données volumineuses des données ordinaires.
Le volume est la principale caractéristique du Big Data. Le terme est en effet directement tiré de l’immense masse de données générées au quotidien.
Selon IBM, une moyenne de 2,5 quintillions de bytes de données sont créés chaque jour, soit environ 2,3 trillions de gigabytes. Ces données évoluent à la hausse de jour en jour avec l’ajout constant de source de données. L’exemple de l’essor des objets connectés en est la preuve.
Une analyse montre que d’année en année, la quantité de données augmente considérablement dans les entreprises. Sur l’ensemble de l’année 2020, 40 zettabytes de données seront créés, soit 43 trillions de gigabytes.
Ces données doivent être stockées quelque part et le cloud fait partie des solutions disponibles.
Par delà la simple quantité, ces données sont également plus diversifiées que jamais. Ce phénomène est lié à la diversification des usages d’internet et du numérique. La provenance des données, leur format, mais également le domaine auquel elles sont liées connaissent une variété sans précédent.
De nouveaux types de données provenant de sources sociales, de machines à machines et mobiles ajoutent de nouvelles dimensions aux données transactionnelles traditionnelles. Cela demande donc des évolutions des modèles d’organisation de la donnée qui ne rentrent plus dans des structures soignées et faciles à consommer (voir Key-Value, Columnar, Document, Graph).
La vitesse et les directions à partir desquelles les données arrivent dans l'entreprise augmentent en raison de l'interconnexion et des progrès de la technologie des réseaux, de sorte qu'elles arrivent parfois plus vite que nous ne pouvons en tirer un sens. Plus les données arrivent rapidement et plus les sources sont variées, plus il est difficile de tirer de la valeur de ces données. Les méthodes de calcul traditionnelles deviennent limitées et dans certains cas ne fonctionnent pas sur les données qui arrivent aux vitesses d'aujourd'hui !
Enfin, la véracité des données ou la quantité de données fiables lorsque des décisions clés doivent être prises sur des volumes aussi importants et collectés aussi rapidement est indispensable.
Il est difficile de savoir simplement que les données ne sont en fait pas usurpées, n'ont pas été corrompues ou proviennent d'une source attendue ; cela pourrait provenir, par exemple, de l'une des milliers de caméras de sécurité, chacune produisant plusieurs milliers d'images vidéo par heure.
Avec le développement des technologies de l'Internet des objets (IoT) et la digitalisation en cours dans de nombreux domaines de la société, de la science et des affaires, la quantité de données ne va pas en diminuant.
💡 Le Big Data, comme terme générique, permet de décrire le grand volume de données à la fois structurées et non structurées qui inonde une entreprise au quotidien.
Les problématiques liées aux V du Big data comme le stockage, l’accessibilité, la rapidité d'exécution, les traitements et l'analyse représentent un défi et une opportunité pour de nombreuses années à venir.
Il est aussi bon de se rappeler que dans de nombreux cas ce n’est pas la quantité de données qui est importante mais ce que font les organisations avec les données qui compte. Les mégadonnées doivent être analysées pour obtenir des informations qui conduisent à de meilleures décisions et à soutenir la stratégie de l’entreprise.
Sources :
Cela risque de vous intéresser :