Mégadonnées


(Redirigé depuis Big dataset)

Définition

En français, « big data » se traduit par deux termes acceptables : mégadonnées et données massives. Les données massives ou mégadonnées désignent des ensembles de données devenus si volumineux qu’ils dépassent les capacités humaines d’analyse et même celles des outils informatiques classiques.

En grec, le préfixe méga désigne une quantité d’un million (106). C’est le sens qu’on retrouve dans le terme mégaoctets, qui représente 1 million d’octets (à la différence d’un mébioctet qui vaut exactement 1 048 576 octets). D’autre part, l’usage de méga a été élargi pour représenter quelque chose de très grand. Par exemple, une mégavente ou un mégaprojet. Ainsi, les mégabarrages, de grandes constructions, produisent des mégawatts, des millions de watts. On voit dans cette phrase les deux sens différents du préfixe méga. Dans le sens élargi de méga, pour désigner une grande quantité et non un million, on peut donc parler de mégadonnées.

Par contre, le terme « données massives » est préférable quand on sait qu’il n’est pas rare de traiter des quantités de données qui dépassent le million comme des gigaoctets (109), des téraoctets (1012) ou des pétaoctets (1015).

Compléments

Les outils informatiques classiques ne peuvent traiter ces données de masse: elles ont exigé le développement de nouveaux algorithmes afin de pouvoir les stocker, les classer et les analyser. L'apparition des données massives est liée aux progrès des systèmes de production, de transmission, de stockage, de fouille et d’analyse de l’information numérisée, particulièrement le développement de la Toile et d'Internet. Les mégadonnées ont amené l’émergence de méthodes à visée analytique, qui traitent les données pour en tirer du sens.


D’une façon opérationnelle, lorsque le volume de données analysées dépasse la capacité d’un seul ordinateur serveur, on peut alors parler de données massives. De nos jours, cela survient habituellement quand on dépasse quelques téraoctets de données. Il faut alors procéder au traitement distribué des données sur plusieurs serveurs (distributed processing).

Les mégadonnées ont amené l’émergence de méthodes statistiques, qui traitent les données pour en tirer du sens. C’est donc le point de départ de la science des données, de l’apprentissage automatique et de l’intelligence artificielle.

Français

mégadonnées

données volumineuses

données massives

données de masse

Anglais

big data

massive data

big dataset

massive dataset

Sources

Source: CEA/Médiathèque, « Conférence: voyage au coeur du Big Data » [archive, 5 juillet 2017 (consulté le 4 septembre 2017)]

Source: Glossaire de l'UNESCO, Données de masse.

Source: Wikipedia, Big Data.



101 MOTS DE L' IA
Ce terme est sélectionné pour le livre « Les 101 mots de l'intelligence artificielle »