|
Techniques, conseils
Palier au problème des frames
Les frames, vous le savez déjà sans doute, posent pas mal de problèmes
à votre site pour un référencement correcte. Cela est du au fait que la
plupart des moteurs ne visitent pas ce qui ce trouve dans les cadres. Pour
palier à ce problème, vous devez utiliser la balise <noframe> :
La balise <body> se trouve dans la
balise <noframe> qui elle-même se trouve dans le FRAMESET.
<html>
<head>
Titre et autres balises méta dans le HEAD
</head>
<frameset rows="64,*">
<frame name="banniere"
scrolling="no"
noresize target="sommaire">
<frameset cols="150,*">
<frame name="sommaire"
target="principal">
<frame name="principal">
</frameset>
<noframes>
<body>
C'est ici que vous devez placer l'équivalent de votre page
d'accueil (texte descriptif résumant au mieux le contenu de votre
site) ainsi que les liens permettant de contourner les frames.
<a href="">
<a href="">
</body>
</noframes>
</frameset>
</html> |
N'oubliez pas de placer dans le
NOFRAMES les liens qui permettront aux robots d'indexer les autres pages
du site !
Cette technique vous permettra en partie de contrer le ce problème que
posent les frames. Néanmoins, vous devez garder à l'esprit que certains
moteurs font immédiatement demi-tour lorsqu'ils lisent le mot frames...
Le fichier robots.txt (exclusion de certaines pages)
Je tiens d'abord à préciser quelque chose concernant l'emploi du
fichier robots.txt : ce fichier ne permet en aucun cas d'optimiser un
référencement ou de tromper un moteur. Le seul but de ce fichier et de
permettre d'interdire d'accès à à certaines pages de votre site aux
robots. Notez que ce fichier n'est pas supporté par tous les robots.
Le fichier doit obligatoirement s'appeler "robots.txt". Voici un
exemple de ce qu'il peut contenir :
| # Syntaxe de robots.txt
User-agent: webcrawler
Disallow:
User-agent: lycra
Disallow: /
User-agent: *
Disallow: /tmp
Disallow: /logs
Disallow: /page.htm |
- La première ligne commence par un "#", ce qui signifie qu'il s'agit
d'un commentaire (non interprété par le robot).
- Le premier paragraphe signifie que le robot appelé "webcrawler" n'a
aucune restriction, il peut donc aller partout.
- Le second paragraphe indique que le robot appelé "lycra" ne pourra
visiter aucune URL commençant par "/". Étant donné que toutes les URLs
relatives sur un serveur commencent par "/", le site sera entièrement
fermé au robot.
- Le dernier paragraphe indique que tous les autres robots ne pourront
pas visiter les URLs commençant pas /tmp et /logs ainsi que la page "page.htm"
(donc ne pourra pas indexer les fichiers se trouvant dans ces deux
répertoires). Le * veut dire "tous" (en fait, tous les robots n'ayant
pas encore étés cités auparavant).
Erreurs fréquentes :
- Le * n'est pas supporté dans "Disallow: /tmp/*" pour dire tous les
fichiers. Vous ne devez que écrire "Disallow: /tmp".
- Vous ne pouvez pas spécifier plus d'un répertoire sur une ligne "Disallow:".
Malgré un effort de
standardisation de la syntaxe du fichier robots.txt, il se peut que
certains robots ne le comprennent pas et ignorent votre site. Si vous
désirez rendre certaines parties de votre site privées, mieux vaut
exploiter un système de mot de passe (.htpasswd).
Pour plus d'informations sur l'utilisation de ce fichier (l' exemple
ci-dessus à été traduit de ce site),
The Web Robots FAQ (en anglais).
Le spam indexing : jusqu'où peut-on aller ?
Avant de commencer, un petit rappel s'impose : le spam indexing
désigne toutes les techniques ayant pour but de tromper les robots. Ces
procédés sont en général très mal vus, surtout par les concepteurs des
moteurs de recherches, qui se trouvent obligés de trouver sans cesse des
nouvelles parades contre ces techniques.
La première méthode couramment utilisée consiste à mettre des mots
clefs dans la même couleur que le fond de la page, de façon à les rendre
invisibles à l'internaute. Cette solution n'est plus envisageable tel
quelle, les moteurs comparant désormais systématiquement la couleur du
texte à la couleur du fond de la page. Mais les variantes sont nombreuses
: une couleur approchante - l'utilisation d'un style - du texte dans un
tableau de même couleur que le texte...
Une autre technique, proscrite, consistait à répéter plusieurs fois les
mêmes mots clefs, ou même plusieurs fois les mêmes balises métas. Je n'ais
qu'une chose à dire : à éviter !
En effet, les robots sont très sensibles à ce spam et n'hésiteront
pas à purement éliminer la page de leur indexe.
Pour garantir une bonne appréciation des moteurs, ne gardez qu'un nombre
restreint de mots clefs que vous répéterez à des intervalles réguliers
dans la page. Une répétition tous les 50 mots semble correcte ; mais
encore une fois, il faut rester extrêmement prudent avec le spam
indexing.
Vous devez rester conscients que je ne peut pas garantir l'exactitude
de mes affirmations. Il est en effet très difficile de comprendre le
fonctionnement des moteurs de recherches.
|