Explorateur du web et du web profond |
Explorer récursivement le Web à partir des ressources bien choisies est le procédé de base programmée dans les robots d’indexation des moteurs de recherches. Près de 4 milliards de ressources ont été indexées par les moteurs de recherche en 2004.
Le Web profond ou Web invisible est la partie non indexée du Web et qui est donc introuvables avec les moteurs de recherche généralistes. Cette partie invisible représente plus de 99% du Web selon des études. Le Web profond comprend notamment les ressources suivantes:
|
- les ressources inaccessibles au public, donc aux robots, notamment les pages administratives ou payantes, protégées par un mot de passe;
|
|
- les ressources qui ne sont pas communiquées par des protocoles de communication pris en charge par les robots (souvent ils ne prennent en charge que HTTP et HTTPS);
|
|
- les ressources dont le format de données n'est pas pris en charge par le robot (seul le format HTML est toujours pris en charge);
|
|
- les ressources listées dans un fichier d’exclusion des robots;
|
|
- les ressources exclues par le robot car elles sont conçues pour abuser du référencement (spamdexing);
|
|
- les ressources exclues par le robot car elles sont considérées comme trop peu pertinentes (par exemple si un site contient des millions de ressources qui ne sont liées par aucun autre site);
|
|
- les ressources vers lesquelles les hyperliens sont créés dynamiquement en réponse aux interrogations des visiteurs.
|
Ces dernières ressources proviennent en général des bases de données et constituent la partie la plus importante du Web profond.
|