« Moissonnage du Web » : différence entre les versions


Aucun résumé des modifications
Aucun résumé des modifications
Ligne 1 : Ligne 1 :
== Définition ==
== Définition ==
Procédé manuel ou automatisé qui consiste à recueillir et à recopier des informations disponibles sur la Toile, pour ensuite les analyser ou les utiliser dans un autre contexte.
Procédé manuel ou automatisé qui consiste à recueillir et extraire des informations disponibles sur la Toile, pour ensuite les analyser ou les utiliser dans un autre contexte.


== Compléments ==
== Compléments ==
Ligne 7 : Ligne 7 :


== Français ==
== Français ==
'''moissonnage de la Toile'''
'''moissonnage du Web'''
'''moissonnage du Web'''


Ligne 21 : Ligne 23 :


'''content-scraping'''
'''content-scraping'''
<small>
<small>
[https://www.statcan.gc.ca/fra/nos-donnees/ou/moissonnage-web  Source : Statistique Canada ]
[https://www.statcan.gc.ca/fra/nos-donnees/ou/moissonnage-web  Source : Statistique Canada ]

Version du 16 février 2023 à 13:58

Définition

Procédé manuel ou automatisé qui consiste à recueillir et extraire des informations disponibles sur la Toile, pour ensuite les analyser ou les utiliser dans un autre contexte.

Compléments

L'information sur la Toile est mise en forme et annotée selon le langage de balisage hypertexte HTML (en anglais, HyperText Markup Language). Pour extraire les images et certains éléments textuels des pages web, vous utiliserez des bibliothèques d'outils Python comme Selenium, pour simuler les interactions que fait un humain avec un site web, Beautiful Soup ainsi que les expressions régulières, pour extraire des informations des pages web. Pour élargir vos recherches à plusieurs sites en suivant les hyperliens entre les sites, vous pouvez ajouter un moteur d'indexation comme Scrapy.

Français

moissonnage de la Toile

moissonnage du Web

moissonnage de données

moissonnage de contenu

Anglais

Web scraping

data scraping

content scraping

content-scraping Source : Statistique Canada

Source : Le grand dictionnaire terminologique

Source: Cours VIARENA EDUlib