ACCUEIL

RETOUR

Techniques, conseils

Palier au problème des frames

Les frames, vous le savez déjà sans doute, posent pas mal de problèmes à votre site pour un référencement correcte. Cela est du au fait que la plupart des moteurs ne visitent pas ce qui ce trouve dans les cadres. Pour palier à ce problème, vous devez utiliser la balise <noframe> :

La balise <body> se trouve dans la balise <noframe> qui elle-même se trouve dans le FRAMESET.

<html>
<head>
         
Titre et autres balises méta dans le HEAD
</head>

<frameset rows="64,*">
          <frame
name="banniere" scrolling="no" noresize target="sommaire">
          <frameset
cols="150,*">
                    <frame
name="sommaire" target="principal">
                    <frame
name="principal">
          </frameset>

          <noframes>
          <body>

C'est ici que vous devez placer l'équivalent de votre page d'accueil (texte descriptif résumant au mieux le contenu de votre site) ainsi que les liens permettant de contourner les frames.
<a href="">
<a href="">

          </body>
          </noframes>

</frameset>
</html>

N'oubliez pas de placer dans le NOFRAMES les liens qui permettront aux robots d'indexer les autres pages du site !

Cette technique vous permettra en partie de contrer le ce problème que posent les frames. Néanmoins, vous devez garder à l'esprit que certains moteurs font immédiatement demi-tour lorsqu'ils lisent le mot frames...

 

Le fichier robots.txt (exclusion de certaines pages)

Je tiens d'abord à préciser quelque chose concernant l'emploi du fichier robots.txt : ce fichier ne permet en aucun cas d'optimiser un référencement ou de tromper un moteur. Le seul but de ce fichier et de permettre d'interdire d'accès à à certaines pages de votre site aux robots. Notez que ce fichier n'est pas supporté par tous les robots.

Le fichier doit obligatoirement s'appeler "robots.txt". Voici un exemple de ce qu'il peut contenir :

# Syntaxe de robots.txt

User-agent: webcrawler
Disallow:

User-agent: lycra
Disallow: /

User-agent: *
Disallow: /tmp
Disallow: /logs
Disallow: /page.htm

  • La première ligne commence par un "#", ce qui signifie qu'il s'agit d'un commentaire (non interprété par le robot).
  • Le premier paragraphe signifie que le robot appelé "webcrawler" n'a aucune restriction, il peut donc aller partout.
  • Le second paragraphe indique que le robot appelé "lycra" ne pourra visiter aucune URL commençant par "/". Étant donné que toutes les URLs relatives sur un serveur commencent par "/", le site sera entièrement fermé au robot.
  • Le dernier paragraphe indique que tous les autres robots ne pourront pas visiter les URLs commençant pas /tmp et /logs ainsi que la page "page.htm" (donc ne pourra pas indexer les fichiers se trouvant dans ces deux répertoires). Le * veut dire "tous" (en fait, tous les robots n'ayant pas encore étés cités auparavant).

Erreurs fréquentes :

  • Le * n'est pas supporté dans "Disallow: /tmp/*" pour dire tous les fichiers. Vous ne devez que écrire "Disallow: /tmp".
  • Vous ne pouvez pas spécifier plus d'un répertoire sur une ligne "Disallow:".

Malgré un effort de standardisation de la syntaxe du fichier robots.txt, il se peut que certains robots ne le comprennent pas et ignorent votre site. Si vous désirez rendre certaines parties de votre site privées, mieux vaut exploiter un système de mot de passe (.htpasswd).

Pour plus d'informations sur l'utilisation de ce fichier (l' exemple ci-dessus à été traduit de ce site), The Web Robots FAQ (en anglais).

 

Le spam indexing : jusqu'où peut-on aller ?

Avant de commencer, un petit rappel s'impose : le spam indexing désigne toutes les techniques ayant pour but de tromper les robots. Ces procédés sont en général très mal vus, surtout par les concepteurs des moteurs de recherches, qui se trouvent obligés de trouver sans cesse des nouvelles parades contre ces techniques.

La première méthode couramment utilisée consiste à mettre des mots clefs dans la même couleur que le fond de la page, de façon à les rendre invisibles à l'internaute. Cette solution n'est plus envisageable tel quelle, les moteurs comparant désormais systématiquement la couleur du texte à la couleur du fond de la page. Mais les variantes sont nombreuses : une couleur approchante - l'utilisation d'un style - du texte dans un tableau de même couleur que le texte...

Une autre technique, proscrite, consistait à répéter plusieurs fois les mêmes mots clefs, ou même plusieurs fois les mêmes balises métas. Je n'ais qu'une chose à dire : à éviter !
En effet, les robots sont très sensibles à ce spam et n'hésiteront pas à purement éliminer la page de leur indexe.
Pour garantir une bonne appréciation des moteurs, ne gardez qu'un nombre restreint de mots clefs que vous répéterez à des intervalles réguliers dans la page. Une répétition tous les 50 mots semble correcte ; mais encore une fois, il faut rester extrêmement prudent avec le spam indexing.

Vous devez rester conscients que je ne peut pas garantir l'exactitude de mes affirmations. Il est en effet très difficile de comprendre le fonctionnement des moteurs de recherches.