DataFranca en collaboration avec ses partenaires a préparé des capsules linguistiques et informatives sur les grands thèmes  de l’intelligence artificielle et de la science des données.

Patrick Drouin 
Linguiste et terminologue
Professeur titulaire, Université de Montréal

Comme leur nom l’indique, les données sont à la base de la science des données et de tout travail danalyse statistique ou d’apprentissage automatique

Un jeu de données ( dataset ) est un ensemble d’exemples où chaque exemple regroupe des attributs qui qualifient différents aspects ou, en anglais, features. En français, pour traduire le terme feature, on utilise les termes attribut, caractéristique, propriété, trait, ou parfois, en France, variable explicative

Nous recommandons plutôt l’emploi du terme « attribut » que «caractéristique», bien que ce dernier soit assez répandu. 

Cette recommandation a pour but de s’aligner sur la terminologie bien établie en intelligence artificielle, plus particulièrement en représentation des connaissances qui se fonde sur le fameux triplet « objet, attribut, valeur » dont l’emploi remonte aux philosophes grecs. 

 De plus, les deux termes ne sont pas des synonymes parfaits puisqu’une caractéristique est un type d’attribut distinctif, c’est-à-dire qui permet de distinguer une classe d’une autre. 

Par exemple, pour l’être humain, le fait de parler est une caractéristique qui le démarque des animaux.  Dans beaucoup de situations, aucun attribut n’est distinctif en soi, c’est la combinaison des attributs qui l’est. 

 

Claude Coulombe  
Doctorat en intelligence artificielle
Conseiller scientifique, DataFranca

En apprentissage automatique, les attributs sont les variables utilisées pour représenter un objet. Par exemple, pour décrire un arbre, on peut identifier différents attributs comme : la forme de ses feuilles, sa taille, le diamètre de son tronc, la couleur de son écorce, la couleur de ses feuilles, etc .

On distingue plusieurs types d’attributs selon les valeurs qui les caractérisent. En gros, on distinguera entre les attributs qualitatifs et les attributs quantitatifs (i.e. des nombres). 

Une autre distinction sépare les attributs quantitatifs entre les valeurs numériques discrètes (des nombres entiers, 0, 1, 2, 3, etc.) et valeurs numériques continues (des nombres avec décimales, 3.14, 2.6, etc.). 

Les attributs qualitatifs sont le plus souvent des attributs catégoriels et des valeurs discrètes comme par exemple, la couleur: bleu, blanc rouge, vert, etc.

En apprentissage supervisé, on isole un attribut comme étant la classe-cible ou la variable à prédire et on utilisera les autres attributs pour prédire cette classe-cible. Par exemple, dans la description de différents arbres, pour distinguer entre un sapin et un érable, on utilisera les attributs comme la taille, la couleur, la forme de la feuille, etc. Dans un tel cas, un seul attribut, la forme de la feuille, soit la présence d’aiguilles, pourra permettre de trancher. Mais on peut imaginer des scénarios beaucoup plus complexes où c’est une combinaison d’attributs qui permettra d’arriver à une bonne prédiction. 

En apprentissage non supervisé, on utilisera la similarité entre les valeurs des attributs pour créer des groupes. Par exemple, la forme de la feuille en aiguilles pourrait nous permettre de regrouper tous les conifères.