ACCUEIL

RETOUR

 

Principe de fonctionnement

La forme du Web

Après une analyse des liens tissés entre 200 millions de pages, la répartition des pages des chercheurs ressemble à un noeud de papillon. Le Coeur est constitué de pages hyperconnectées, qui se citent mutuellement. Cet espace est facile à parcourir avec des robots. Les pages IN citent mais ne sont pas cités (la moitié d'entre elles, les dendrites, pointent vers le coeur), contrairement aux pages OUT, qui sont citées mais qui ne citent pas. Enfin, les pages déconnectées ne sont pas citées et ne citent pas.

Aspirateur

Un moteur de recherche, contrairement à un annuaire, fonctionne avec des robots, dont le but est de rechercher le plus de pages possibles, en suivant les liens d'un site à l'autre. Mais il est impensable de faire cette opération qui nécessiterait des semaines pour chaque requête d'un internaute. C'est pourquoi les résultats sont au préalables stockés dans une immense base de donnée constamment mise à jour par des robots. Plus la vitesse de rafraîchissement de cette base est importante, plus vous obtiendrez une représentation fidèle du Web. Cette tache de recherche est confiée à des robots, aussi appelés crawlers (rampeurs) ou encore spider (araignées). Nous dirons plutôt, pour une meilleur compréhension qu'il s'agit d'aspirateurs.

Un aspirateur donc est un programme qui cherche des pages en passant de site en site et le plus rapidement possible. Cette opération nécessite un logiciel et un ordinateur très performants ainsi qu'une connexion Internet ultra rapide. Les aspirateurs actuels visualisent dans les 100 pages par seconde pour les meilleurs. Il faudra donc disposer de plusieurs aspirateur pour être performant (ou se contenter d'une remise à jour de l'index tous les trimestres, ce qui est beaucoup trop lent vu l'évolution du Web actuel).

Mais les aspirateurs ne visualisent pas toute la page, comme nous la voyons. Seul des balises comme le titre, ou encore la description et les mots clefs sont prises en compte, si elles existent, ainsi que le début du texte de la page généralement.
Il ne faut pas oublier à ça l'URL de la page, qui doit être enregistrée, ainsi que les liens se trouvant sur cette page, permettant d'arriver à d'autres pages et de les aspirer à leur tour.

Bien sur, lorsqu'il passe par une page déjà visitée il y a peu de temps, celle-ci est ignorée. Dans le cas contraire, elle est placée dans la file d'attente des pages restant à visiter.

Toutes ces informations ont étés prisent à la volé, et ne figurent pas encore dans la base de donnée du moteur de recherche. Il faut d'abord traiter ces pages (par exemple déterminer sa langue, repérer les mots importants qui seront décisifs lors d'une recherche),  l'aspirateur cède alors sa place à l'indexeur.

Indexeur

Le but premier de l'indexeur est d'analyser les pages envoyées continuellement par l'aspirateur. La première étape consiste à identifier la langue du document. Pour cela, l'indexeur, qui est un programme rappelons le, ne peut pas faire autrement que d'utiliser une méthode statistique, en recherchant les mots ou les lettres qui reviennent souvent dans une langue. Essayer de comprendre le sens de chaque mot nécessiterait beaucoup plus de temps et s'avèrerait très complexe.

Dans le même contexte, l'indexeur peut choisir d'ignorer certaines pages inopportunes, à caractère pornographique ou raciste par exemple, en se basant sur une liste de mots interdits.

Une fois cette lourde tache effectuée, il faut préparer les informations contenues dans les pages pour êtres stockées dans une base de donnée. La première chose à faire, dans un soucie de performance, est d'éliminer tout ce qui est inutile dans la page, comme les mots courts (les articles par exemple), ainsi que les signes de ponctuation (seul les points sont conservés).

L' opération suivante est de classer les mots de la page par ordre d'importance. Ainsi un mot étant répété souvent ou précocement (dans le titre par exemple) dans la page sera considéré comme important.
Pour un exemple pratique de ce à quoi peut ressembler cette opération pour un moteur, je vous suggère de tester la page "Analyse des balises méta", qui se charge de noter les mots importants de la page, avec un certain poids pour chacun.
Un autre critère important pris en compte est la popularité des pages. Plus elles sont populaires (cités par d'autres pages), mieux elles seront classées.

Ce système pose néanmoins un problème de taille : quelqu'un souhaitant voir sa page en première position dans un moteur de recherche pour le mot "mp3" n'hésitera pas à le répéter dans la page pour lui donner plus d'importance. Cette technique s'appelle le spam indexing. Une des méthodes employées par les webmasters consiste à répéter dans mots dans la page en leur donnant la même couleur que l'arrière plan de celle-ci, et ainsi les camoufler aux yeux des internautes. A noter que cette vieille technique est déjà contrée par tous les robots.

Cela pose évidemment un autre problème à l'indexeur, qui ne doit pas se faire duper par les webmasters. Plusieurs techniques sont mises en oeuvre pour limiter cette tricherie.
Une autre forme d'arnaque consiste à augmenter la popularité d'une page "artificiellement", en créant des pages bidons, optimisées chacune pour certains mots clefs, qui redirigent automatiquement l'internaute et le robot vers celle-ci. On parle alors de pages "Fantômes". Dans ce cas, l'indexeur n'hésitera pas à supprimer simplement la page citée abusivement par des pages fantômes.

Enfin, les pages ainsi traités peuvent être enregistrées dans la base de données du moteur de recherche.

Guichetier

Le guichetier est en quelque sorte un intermédiaire entre vous et la base de donnée du moteur : c'est le lui qui se charge de rechercher dans l'index les pages correspondantes aux mieux à vos critères de recherche et à les classer par ordre de pertinence.

La principale difficulté est de sélectionner les bons sites. Pour cela, l'internaute peut utiliser des opérateurs logiques, comme ET, OU, SANS, PROCHE...
Mais le principale problème est qu'un moteur classique est incapable de comprendre le langage naturel que nous parlons. Bien que certains moteurs permettent ce type d'approche, les résultats sont encore assez hasardeux.

Le guichetier peut également classer les résultats en fonction du choix des internautes. Par exemple, si un site classé initialement en troisième position pour un certain mot clef est choisit le plus souvent en premier, il aura de forte chance de grimper à la deuxième, voir la première place. Cependant, un site ayant un titre et une description attrayante ne contiendra pas forcément l'information finalement recherchée, et pourra gagner des places sur d'autres sites contenant eux la bonne information.

Il ne faut pas oublier non plus que certain moteur sont plus performants que d'autres dans certains domaines et d'autres dans d'autres. Pour faire une bonne recherche, il faut donc savoir utiliser et interpréter les résultats de plusieurs moteurs de recherches.

Cet article est inspiré du dossier "Les secrets des moteurs de recherches" parut dans le Science & Vie de novembre 2000 (N° 998).