| UNE TRIPLE TACHE | |
| COLLECTE DE DONNÉES |
Un robot visite les pages web, les lit et suit les liens. Il collecte de l'information sur les URL, les titres,
les mots-clés, le texte, etc. *Pour les annuaires, cette tâche est manuelle et porte sur tout le site. |
| INDEXATION DES DONNÉES |
Toute l'information collectée par le robot se retrouve dans une base de données. Celle-ci effectue des activités d'indexation,
de stockage, d'ajout, de mise à jour, de suppression, etc. Il est à noter qu'il peut y avoir un délai entre la cueillette de données et la mise à jour. |
| LOGICIEL DE RECHERCHE |
Programme faisant une recherche dans sa base de données suite à une requête de l'usager. Cette recherche n'est pas "live" sur le web mais sur une base de données qui n'est pas nécessairement une copie conforme du web. |


3 patterns se dégagent:
1) Titres et entêtes, les 20 premières lignes, les 100 mots les plus fréquents et
les liens vers d'autres sites. (Ex. Lycos)
2) Pages entières, tous les mots sont indexés en fonction de leur position
géographique et contextuelle. (Ex. Alta Vista)
3) Page entière, tous les mots sont indexés et jaugés en fonction du code HTML. (Ex. Open Text)