Un robot d'indexation (en anglais web crawler ou web spider, littéralement araignée du Web) est un logiciel qui explore automatiquement le Web. Il est généralement conçu pour collecter les ressources (pages Web, images, vidéos, documents Word, PDF ou PostScript, etc.), afin de permettre à un moteur de recherche de les indexer.
Fonctionnant sur le même principe, certains robots malveillants (spambots) sont utilisés pour archiver les ressources ou collecter des adresses électroniques auxquelles envoyer des courriels.
En français, depuis 2013, crawler est remplaçable par le mot collecteur.
Il existe aussi des collecteurs analysant finement les contenus afin de ne ramener qu'une partie de leur information. Des frameworks tout faits comme Scrapy existent pour écrire de tels robots.
https://fr.wikipedia.org/wiki/Robot_d%27indexation
Une petite vidéo explicative :
https://youtu.be/VG7Eu1DbUio
Le rôle des robots d'indexation
Règles du forum
Ce forum est destiné aux discussions sur phpBB.
Pour un problème dans l'utilisation de phpBB merci d'utiliser les forums de support.
Ce forum est destiné aux discussions sur phpBB.
Pour un problème dans l'utilisation de phpBB merci d'utiliser les forums de support.
-
- Fondateur
- Messages: [3456]
- Enregistré depuis: 4 ans 11 mois
- Identité: Fred Rimbert
- Forum phpBB: https://caforum.fr
- Localisation: Le Lude - Pays de la Loire
- Intérêt: GitHub
Le rôle des robots d'indexation
Mettre à jour son forum | Mettre à jour son style perso | Sauvegarde des fichiers du forum | Extra CSS
"Les logiciels propriétaires n'ont aucune éthique"
- Richard Stallman