|
|
|
Principe de fonctionnement La forme du Web
Après une analyse des liens tissés entre 200 millions de pages, la répartition des pages des chercheurs ressemble à un noeud de papillon. Le Coeur est constitué de pages hyperconnectées, qui se citent mutuellement. Cet espace est facile à parcourir avec des robots. Les pages IN citent mais ne sont pas cités (la moitié d'entre elles, les dendrites, pointent vers le coeur), contrairement aux pages OUT, qui sont citées mais qui ne citent pas. Enfin, les pages déconnectées ne sont pas citées et ne citent pas. Aspirateur Un moteur de recherche, contrairement à un annuaire, fonctionne avec des robots, dont le but est de rechercher le plus de pages possibles, en suivant les liens d'un site à l'autre. Mais il est impensable de faire cette opération qui nécessiterait des semaines pour chaque requête d'un internaute. C'est pourquoi les résultats sont au préalables stockés dans une immense base de donnée constamment mise à jour par des robots. Plus la vitesse de rafraîchissement de cette base est importante, plus vous obtiendrez une représentation fidèle du Web. Cette tache de recherche est confiée à des robots, aussi appelés crawlers (rampeurs) ou encore spider (araignées). Nous dirons plutôt, pour une meilleur compréhension qu'il s'agit d'aspirateurs. Un aspirateur donc est un programme qui cherche des pages en passant de site en site et le plus rapidement possible. Cette opération nécessite un logiciel et un ordinateur très performants ainsi qu'une connexion Internet ultra rapide. Les aspirateurs actuels visualisent dans les 100 pages par seconde pour les meilleurs. Il faudra donc disposer de plusieurs aspirateur pour être performant (ou se contenter d'une remise à jour de l'index tous les trimestres, ce qui est beaucoup trop lent vu l'évolution du Web actuel). Mais les aspirateurs ne visualisent pas toute la page, comme nous la
voyons. Seul des balises comme le titre, ou encore la description et les
mots clefs sont prises en compte, si elles existent, ainsi que le début
du texte de la page généralement. Bien sur, lorsqu'il passe par une page déjà visitée il y a peu de temps, celle-ci est ignorée. Dans le cas contraire, elle est placée dans la file d'attente des pages restant à visiter. Toutes ces informations ont étés prisent à la volé, et ne figurent pas encore dans la base de donnée du moteur de recherche. Il faut d'abord traiter ces pages (par exemple déterminer sa langue, repérer les mots importants qui seront décisifs lors d'une recherche), l'aspirateur cède alors sa place à l'indexeur. Indexeur Le but premier de l'indexeur est d'analyser les pages envoyées continuellement par l'aspirateur. La première étape consiste à identifier la langue du document. Pour cela, l'indexeur, qui est un programme rappelons le, ne peut pas faire autrement que d'utiliser une méthode statistique, en recherchant les mots ou les lettres qui reviennent souvent dans une langue. Essayer de comprendre le sens de chaque mot nécessiterait beaucoup plus de temps et s'avèrerait très complexe. Dans le même contexte, l'indexeur peut choisir d'ignorer certaines pages inopportunes, à caractère pornographique ou raciste par exemple, en se basant sur une liste de mots interdits. Une fois cette lourde tache effectuée, il faut préparer les informations contenues dans les pages pour êtres stockées dans une base de donnée. La première chose à faire, dans un soucie de performance, est d'éliminer tout ce qui est inutile dans la page, comme les mots courts (les articles par exemple), ainsi que les signes de ponctuation (seul les points sont conservés). L' opération suivante est de classer les mots de la page par ordre
d'importance. Ainsi un mot étant répété souvent ou précocement (dans le
titre par exemple) dans la page sera considéré comme important. Ce système pose néanmoins un problème de taille : quelqu'un souhaitant voir sa page en première position dans un moteur de recherche pour le mot "mp3" n'hésitera pas à le répéter dans la page pour lui donner plus d'importance. Cette technique s'appelle le spam indexing. Une des méthodes employées par les webmasters consiste à répéter dans mots dans la page en leur donnant la même couleur que l'arrière plan de celle-ci, et ainsi les camoufler aux yeux des internautes. A noter que cette vieille technique est déjà contrée par tous les robots. Cela pose évidemment un autre problème à l'indexeur, qui ne doit pas
se faire duper par les webmasters. Plusieurs techniques sont mises en
oeuvre pour limiter cette tricherie. Enfin, les pages ainsi traités peuvent être enregistrées dans la base de données du moteur de recherche. Guichetier Le guichetier est en quelque sorte un intermédiaire entre vous et la base de donnée du moteur : c'est le lui qui se charge de rechercher dans l'index les pages correspondantes aux mieux à vos critères de recherche et à les classer par ordre de pertinence. La principale difficulté est de sélectionner les bons sites. Pour
cela, l'internaute peut utiliser des opérateurs logiques, comme ET, OU,
SANS, PROCHE... Le guichetier peut également classer les résultats en fonction du choix des internautes. Par exemple, si un site classé initialement en troisième position pour un certain mot clef est choisit le plus souvent en premier, il aura de forte chance de grimper à la deuxième, voir la première place. Cependant, un site ayant un titre et une description attrayante ne contiendra pas forcément l'information finalement recherchée, et pourra gagner des places sur d'autres sites contenant eux la bonne information. Il ne faut pas oublier non plus que certain moteur sont plus performants que d'autres dans certains domaines et d'autres dans d'autres. Pour faire une bonne recherche, il faut donc savoir utiliser et interpréter les résultats de plusieurs moteurs de recherches. Cet article est inspiré du dossier "Les secrets des moteurs de recherches" parut dans le Science & Vie de novembre 2000 (N° 998).
|