« Nettoyage de données » : différence entre les versions


Aucun résumé des modifications
Balise : Éditeur de wikicode 2017
Aucun résumé des modifications
Ligne 1 : Ligne 1 :
[[Catégorie:GRAND LEXIQUE FRANÇAIS]]
[[Catégorie:GRAND LEXIQUE FRANÇAIS]]
==Définition==
==Définition==
Le '''nettoyage de données''' est l'opération de détection et de correction (ou suppression) d'erreurs présentes sur des données stockées dans des bases de données ou dans des fichiers.
Le nettoyage de données est l'opération de détection et de correction d'erreurs présentes dans des jeux de données brutes stockées dans des bases de données ou dans des fichiers. Ces données peuvent avoir plusieurs types d'erreurs comme des erreurs de frappe, de format, de syntaxe etc. Le processus de nettoyage identifie les données erronées et les corrige automatiquement avec un programme informatique. Une fois traitées, ces données peuvent être présentées dans un format normalisé, ce qui aide les humains et les ordinateurs à les interpréter. Les nettoyeurs de type ETL ont été les premiers à voir le jour.
 
Le nettoyage de données est un des problèmes majeurs des entrepôts de données1.
 
Les données présentes dans les bases de données peuvent avoir plusieurs types d'erreurs comme des erreurs de frappe, des informations manquantes, des imprécisions etc. La partie impropre de la donnée traitée peut être remplacée, modifiée ou supprimée. Le processus de nettoyage identifie les données erronées et les corrige automatiquement avec un programme informatique ou les propose à un humain pour qu'il effectue les modifications.
 
Le nettoyage de données est différent de la validation de données. La validation de données est l'étape qui consiste à vérifier et rejeter les données qui ne respectent pas certaines règles avant l'ajout en base de données, alors que le nettoyage intervient après (sur des données déjà présentes en base de données).
 
En apprentissage automatique et en entreposage des données,  prétraitement préalable d'un jeu de données brutes  pour en détecter et en corriger des enregistrements corrompus ou incohérents.  Il fait référence à l'identification de parties incomplètes, incorrectes, inexactes ou non pertinentes des données, puis au remplacement, à la modification, ou la suppression les données incohérentes ou de formats hétéroclites. Une fois traitées, ces données peuvent être stockées dans un format normalisé, ce qui aide les humains et les ordinateurs à les interpréter, notamment au moment d'élaborer des algorithmes.  
 
Les nettoyeurs de type ETL ont été les premiers à voir le jour.


==Français==
==Français==
'''nettoyage de données'''  <small>loc. nom. masc.</small>
'''nettoyage de données'''  <small>loc. nom. masc.</small>
'''prétraitement de données''' <small>loc. nom. masc.</small> <sup>(1)</sup>
==Anglais==
==Anglais==
''' Data cleansing'''
''' Data cleansing'''

Version du 21 avril 2020 à 17:14

Définition

Le nettoyage de données est l'opération de détection et de correction d'erreurs présentes dans des jeux de données brutes stockées dans des bases de données ou dans des fichiers. Ces données peuvent avoir plusieurs types d'erreurs comme des erreurs de frappe, de format, de syntaxe etc. Le processus de nettoyage identifie les données erronées et les corrige automatiquement avec un programme informatique. Une fois traitées, ces données peuvent être présentées dans un format normalisé, ce qui aide les humains et les ordinateurs à les interpréter. Les nettoyeurs de type ETL ont été les premiers à voir le jour.

Français

nettoyage de données loc. nom. masc.

Anglais

Data cleansing

Data cleaning

Data scrubbing

Data Cooking (familier)


Source: en.wikipedia, Data cleansing.

(1) Source: Christion Gagné, Université Laval, Prétraitement et analyse de données, Introduction à l'apprentissage machine, Université Laval, 2018.

Source: Techopedia, Cooked Data.