DataFranca en collaboration avec ses partenaires a préparé des capsules linguistiques et informatives sur les grands thèmes  de l’intelligence artificielle et de la science des données.

Qu’est-ce que les
« données massives »

Patrick Drouin 
Linguiste et terminologue
Professeur titulaire, Université de Montréal

Vous avez probablement entendu parler des données massives. Ce concept correspond au terme anglais big data. En français, big data se traduit par deux termes acceptables : mégadonnées et données massives.

En grec, le préfixe méga désigne une quantité d’un million. C’est le sens qu’on retrouve dans le terme mégaoctets, qui signifie 1 million d’octets ou 106 octets. Rappelons que l’octet en anglais c’est le byte .

D’autre part, l’usage de méga a été élargi pour représenter quelque chose de très grand. Par exemple, une mégavente ou un mégaprojet. Ainsi, les mégabarrages, de grandes constructions, produisent des mégawatts, des millions de watts. On voit dans cette phrase les deux sens différents du préfixe méga.

Dans le sens élargi de méga pour désigner une grande quantité et non un million, on peut donc parler de mégadonnées.

Par contre, le terme données massive est préférable quand on sait qu’il n’est pas rare de traiter des quantités de données qui dépassent le million comme par exemple, des gigaoctets (109), des téraoctets (1012) ou des pétaocets (1015).

Claude Coulombe  
Doctorat en intelligence artificielle
Conseiller scientifique, DataFranca

Sur le plan technique, l’apparition d’énormes volumes de données est liée à l’Internet et aux progrès des systèmes de production, de transmission, de stockage, de fouille et d’analyse des données.  

Ces jeux de données sont devenus si volumineux qu’ils dépassent les capacités humaines d’analyse et celles des outils informatiques classiques. C’est dans ce contexte que l’adjectif massif prend tout son sens.

D’une façon opérationnelle, lorsque le volume de données analysées dépasse la capacité d’un seul ordinateur serveur, on peut alors parler de données massives. De nos jours, cela survient habituellement quand on dépasse quelques téraoctets de données. Il faut alors procéder au traitement distribué des données sur plusieurs serveurs ( distributed processing).

Les mégadonnées ont amené l’émergence de méthodes statistiques, qui traitent les données pour en tirer du sens. C’est donc le point de départ de la science des données, de l’apprentissage automatique et de l’intelligence artificielle.