« Moissonnage du Web » : différence entre les versions
m (JBM a déplacé la page Content Scraping vers Moissonnage de données) |
m (Remplacement de texte : « ↵<small> » par « ==Sources== ») |
||
(19 versions intermédiaires par 4 utilisateurs non affichées) | |||
Ligne 1 : | Ligne 1 : | ||
== Définition == | == Définition == | ||
Procédé manuel ou automatisé qui consiste à recueillir et | Procédé manuel ou automatisé qui consiste à recueillir et extraire des informations disponibles sur la Toile, pour ensuite les analyser ou les utiliser dans un autre contexte. | ||
== Compléments == | |||
L'information sur la Toile est mise en forme et annotée selon le langage de balisage hypertexte [[HTML]]. Pour extraire les images et certains éléments textuels des pages web, vous utiliserez des bibliothèques d'outils Python comme [https://selenium-python.readthedocs.io/ Selenium], pour simuler les interactions que fait un humain avec un site web, [https://www.crummy.com/software/BeautifulSoup/bs4/doc/ Beautiful Soup] ainsi que les [[expression rationnelle|expressions régulières]], pour extraire des informations des pages web. Pour élargir vos recherches à plusieurs sites en suivant les hyperliens entre les sites, vous pouvez ajouter un moteur d'indexation comme [https://scrapy.org/ Scrapy]. | |||
== Français == | == Français == | ||
'''moissonnage de | '''moissonnage de la Toile''' | ||
'''moissonnage du Web''' | '''moissonnage du Web''' | ||
'''moissonnage de données''' | |||
'''moissonnage de contenu''' | '''moissonnage de contenu''' | ||
== Anglais == | == Anglais == | ||
'''Web scraping''' | |||
'''data scraping''' | '''data scraping''' | ||
'''content scraping''' | '''content scraping''' | ||
'''content-scraping''' | '''content-scraping''' | ||
==Sources== | |||
[https://www.statcan.gc.ca/fra/nos-donnees/ou/moissonnage-web Source : Statistique Canada ] | [https://www.statcan.gc.ca/fra/nos-donnees/ou/moissonnage-web Source : Statistique Canada ] | ||
[http://gdt.oqlf.gouv.qc.ca/ficheOqlf.aspx?Id_Fiche=26507119 Source : Le grand dictionnaire terminologique ] | [http://gdt.oqlf.gouv.qc.ca/ficheOqlf.aspx?Id_Fiche=26507119 Source : Le grand dictionnaire terminologique ] | ||
[[Catégorie: | [https://catalogue.edulib.org/fr/cours/VIARENA/ Source: Cours VIARENA EDUlib] | ||
[[Catégorie:GRAND LEXIQUE FRANÇAIS]] |
Dernière version du 28 janvier 2024 à 10:31
Définition
Procédé manuel ou automatisé qui consiste à recueillir et extraire des informations disponibles sur la Toile, pour ensuite les analyser ou les utiliser dans un autre contexte.
Compléments
L'information sur la Toile est mise en forme et annotée selon le langage de balisage hypertexte HTML. Pour extraire les images et certains éléments textuels des pages web, vous utiliserez des bibliothèques d'outils Python comme Selenium, pour simuler les interactions que fait un humain avec un site web, Beautiful Soup ainsi que les expressions régulières, pour extraire des informations des pages web. Pour élargir vos recherches à plusieurs sites en suivant les hyperliens entre les sites, vous pouvez ajouter un moteur d'indexation comme Scrapy.
Français
moissonnage de la Toile
moissonnage du Web
moissonnage de données
moissonnage de contenu
Anglais
Web scraping
data scraping
content scraping
content-scraping
Sources
Contributeurs: Claude Coulombe, Imane Meziani, Jean Benoît Morel, wiki