« Moissonnage du Web » : différence entre les versions

Dernière version du 28 janvier 2024 à 11:31

Définition

Procédé manuel ou automatisé qui consiste à recueillir et extraire des informations disponibles sur la Toile, pour ensuite les analyser ou les utiliser dans un autre contexte.

Compléments

L'information sur la Toile est mise en forme et annotée selon le langage de balisage hypertexte HTML. Pour extraire les images et certains éléments textuels des pages web, vous utiliserez des bibliothèques d'outils Python comme Selenium, pour simuler les interactions que fait un humain avec un site web, Beautiful Soup ainsi que les expressions régulières, pour extraire des informations des pages web. Pour élargir vos recherches à plusieurs sites en suivant les hyperliens entre les sites, vous pouvez ajouter un moteur d'indexation comme Scrapy.

Français

moissonnage de la Toile

moissonnage du Web

moissonnage de données

moissonnage de contenu

Anglais

Web scraping

data scraping

content scraping

content-scraping

Sources

Source : Statistique Canada

Source : Le grand dictionnaire terminologique

Source: Cours VIARENA EDUlib

@@ Ligne 1 : / Ligne 1 : @@
-==en construction==
 == Définition ==
-XXXXXXXXX
+Procédé manuel ou automatisé qui consiste à recueillir et extraire des informations disponibles sur la Toile, pour ensuite les analyser ou les utiliser dans un autre contexte.
-== Français ==
+== Compléments ==
-''' XXXXXXXXX '''
-== Anglais ==
+L'information sur la Toile est mise en forme et annotée selon le langage de balisage hypertexte [[HTML]]. Pour extraire les images et certains éléments textuels des pages web, vous utiliserez des bibliothèques d'outils Python comme [https://selenium-python.readthedocs.io/ Selenium], pour simuler les interactions que fait un humain avec un site web, [https://www.crummy.com/software/BeautifulSoup/bs4/doc/ Beautiful Soup] ainsi que les [[expression rationnelle|expressions régulières]], pour extraire des informations des pages web. Pour élargir vos recherches à plusieurs sites en suivant les hyperliens entre les sites, vous pouvez ajouter un moteur d'indexation comme [https://scrapy.org/ Scrapy].
-'''content scraping'''
-'''content-scraping'''
+== Français ==
+'''moissonnage de la Toile'''
-'''data scraping'''
+'''moissonnage du Web'''
-'''web scraping'''
+'''moissonnage de données'''
+'''moissonnage de contenu'''
-Content scraping is an illegal way of stealing original content from a legitimate website and posting the stolen content to another site without the knowledge or permission of the content's owner. Content scrapers often attempt to pass off stolen content as their own, and fail to provide attribution to the content’s owners.
+== Anglais ==
+'''Web scraping'''
-Content scraping can be accomplished via manual copy and paste, or may use more sophisticated techniques, such as using special software, HTTP programming or HTML or DOM parsers.
+'''data scraping'''
+'''content scraping'''
-<small>
+'''content-scraping'''
+==Sources==
-https://www.techopedia.com/definition/27564/content-scraping
+[https://www.statcan.gc.ca/fra/nos-donnees/ou/moissonnage-web  Source : Statistique Canada ]
-https://www.techopedia.com/definition/33132/data-scraping
-https://www.techopedia.com/definition/16597/screen-scraping
+[http://gdt.oqlf.gouv.qc.ca/ficheOqlf.aspx?Id_Fiche=26507119  Source : Le grand dictionnaire terminologique ]
+[https://catalogue.edulib.org/fr/cours/VIARENA/ Source: Cours VIARENA EDUlib]
-[[Catégorie:vocabulary]]
+[[Catégorie:GRAND LEXIQUE FRANÇAIS]]