DataFranca en collaboration avec ses partenaires a préparé des capsules linguistiques et informatives sur les grands thèmes  de l’intelligence artificielle et de la science des données.

Qu’est-ce que « la science des données »

Patrick Drouin 
Linguiste et terminologue
Professeur titulaire, Université de Montréal

La science des données, que l’on nomme en anglais « data science », est un domaine multidisciplinaire qui se situe à la croisée de la statistique, de l’informatique, et d’un domaine d’application. Bien qu’on rencontre parfois des mentions au pluriel du terme, les sciences des données, il s’agit d’un usage incorrect puisque de la même façon qu’on ne dit pas les chimies ou les physiques, la science des données est un domaine en soi.

La science des données s’intéresse aux méthodes et aux pratiques qui permettent d’acquérir des connaissances à partir d’un jeu ou d’un ensemble de données, ce qu’on nomme en anglais « dataset ». 

Le spécialiste de la science des données se nomme, selon l’OQLF, « expert en science des données ». Cependant, le terme « scientifique des données » est régulièrement employé en français, même si on peut le considérer qu’il est fautif puisqu’il s’agit d’un calque du terme anglais « data scientist ».  

Cette appellation désigne une personne ayant des connaissances approfondies sur un sujet particulier, ici les données, plutôt qu’un scientifique ayant comme objectif d’étendre les connaissances dans son domaine d’étude. 

Claude Coulombe  
Doctorat en intelligence artificielle
Conseiller scientifique, DataFranca

Sur le plan pratique, on exclut l’apprentissage automatique ( machine learning ) de la science des données et on le considère comme un domaine autonome. Cela demeure un choix arbitraire, car l’apprentissage automatique se base essentiellement sur les données. 

Ainsi définie, la science des données s’occupe de l’exploration, de la visualisation, de la préparation et de l’analyse des données, incluant la recherche de relations et les statistiques descriptives. 

Les statistiques descriptives, c’est par exemple, le calcul de la fréquence, de la moyenne, de la variance, et de la corrélation. La science des données s’arrête là où débute l’apprentissage automatique proprement dit.

Sur le plan technique, la science des données couvre l’ensemble des domaines liés à l’exploitation, la gestion, la préparation et l’analyse de données massives, structurées et non structurées dans le but d’en extraire de l’information pertinente.