COMMENT FONCTIONNENT LES OUTILS DE RECHERCHE?


UNE TRIPLE TACHE
COLLECTE DE
DONNÉES
Un robot visite les pages web, les lit et suit les liens. Il collecte de l'information sur les URL, les titres, les mots-clés, le texte, etc.
*Pour les annuaires, cette tâche est manuelle et porte sur tout le site.
INDEXATION DES
DONNÉES
Toute l'information collectée par le robot se retrouve dans une base de données. Celle-ci effectue des activités d'indexation, de stockage, d'ajout, de mise à jour, de suppression, etc.
Il est à noter qu'il peut y avoir un délai entre la cueillette de données et la mise à jour.
LOGICIEL
DE RECHERCHE
Programme faisant une recherche dans sa base de données suite à une requête de l'usager. Cette recherche n'est pas "live" sur le web mais sur une base de données qui n'est pas nécessairement une copie conforme du web.


POURQUOI une même recherche avec des moteurs différents ne
donne-t-elle pas les mêmes résultats?


La réponse la plus simple est que leur base de données est différente...Mais qu'est-ce qui les fait varier ainsi?

pointeurLa fréquence et la rapidité des visites du robot influencent le nombre de pages indexées et le type de mise à jour. Par exemple, en Mai 98, Alta Vista a 140 millions de pages indexées pour 70% du web alors que WebCrawler en a 2 millions pour 1% du web.





pointeurFréquence de l'indexation et des mises à jour.

pointeurCe qui est retenu et indexé à part de l'URL.

      3 patterns se dégagent:
1) Titres et entêtes, les 20 premières lignes, les 100 mots les plus fréquents et
les liens vers d'autres sites. (Ex. Lycos)
2) Pages entières, tous les mots sont indexés en fonction de leur position
géographique et contextuelle. (Ex. Alta Vista)
3) Page entière, tous les mots sont indexés et jaugés en fonction du code HTML. (Ex. Open Text)

pointeur Type de pages retenues: Certains ne suivent pas les liens inclus dans les "cadres" ou les images cliquables.

pointeurCertains moteurs analysent la popularité de la page en comptabilisant les liens pointant vers elle et peuvent refuser d'indexer une page jugée "non-populaire".

pointeurUne page subissant fréquemment des changements risque d'être visitée plus souvent. Ainsi, certains moteurs de recherche les privilégient.

pointeurMalgré qu'un robot scrute le web et éventuellement indexe votre page web, si vous envoyez une requête d'indexation....le résultat sera plus rapide. Ainsi, si vous envoyez seulement une requête à Lycos , vous risquez d'apparaître dans cette base de données avant celle d'AltaVista.


Pour en savoir davantage sur le fonctionnement des moteurs de recherche:

Search Engine Features Chart
Les outils de recherche
Mémoire gégé Internet
Le Guide: Promouvoir et référencer votre site web
Un Nouveau guide Internet (UNGI)
Analyse et comparaison de quelques moteurs de recherche sur le WEB