« Moissonnage du Web » : différence entre les versions
Aucun résumé des modifications |
Aucun résumé des modifications |
||
Ligne 4 : | Ligne 4 : | ||
== Compléments == | == Compléments == | ||
<p>L'information sur la Toile est mise en forme et annotée selon le langage de balisage hypertexte HTML (en anglais, HyperText Markup Language). Pour extraire les images et certains éléments textuels des pages web, vous utiliserez des bibliothèques d'outils Python comme [https://selenium-python.readthedocs.io/ | <p>L'information sur la Toile est mise en forme et annotée selon le langage de balisage hypertexte HTML (en anglais, HyperText Markup Language). Pour extraire les images et certains éléments textuels des pages web, vous utiliserez des bibliothèques d'outils Python comme [Selenium|https://selenium-python.readthedocs.io/], pour simuler les interactions que fait un humain avec un site web, <a href="https://www.crummy.com/software/BeautifulSoup/bs4/doc/" target='_blank'>Beautiful Soup</a> ainsi que les expressions régulières<sup>2</sup>, pour extraire des informations des pages web. Pour élargir vos recherches à plusieurs sites en suivant les hyperliens entre les sites, vous pouvez ajouter un moteur d'indexation comme <a href="https://scrapy.org/" target='_blank'>Scrapy</a>.</p> | ||
== Français == | == Français == |
Version du 16 février 2023 à 13:49
Définition
Procédé manuel ou automatisé qui consiste à recueillir et à recopier des informations disponibles sur la Toile, pour ensuite les analyser ou les utiliser dans un autre contexte.
Compléments
L'information sur la Toile est mise en forme et annotée selon le langage de balisage hypertexte HTML (en anglais, HyperText Markup Language). Pour extraire les images et certains éléments textuels des pages web, vous utiliserez des bibliothèques d'outils Python comme [Selenium|https://selenium-python.readthedocs.io/], pour simuler les interactions que fait un humain avec un site web, <a href="https://www.crummy.com/software/BeautifulSoup/bs4/doc/" target='_blank'>Beautiful Soup</a> ainsi que les expressions régulières2, pour extraire des informations des pages web. Pour élargir vos recherches à plusieurs sites en suivant les hyperliens entre les sites, vous pouvez ajouter un moteur d'indexation comme <a href="https://scrapy.org/" target='_blank'>Scrapy</a>.
Français
moissonnage du Web
moissonnage de données
moissonnage de contenu
Anglais
Web scraping
data scraping
content scraping
content-scraping
Contributeurs: Claude Coulombe, Imane Meziani, Jean Benoît Morel, wiki