La chasse aux liens cassés

Gilles LAMIRAL

$Revision: 1.10 $ $Date: 2004/03/15 19:09:35 $
La chasse aux liens cassés

Version HTML générée le Lundi 15 mars 2004

Vous trouverez la dernière version du présent document à l'adresse:
http://www.linux-france.org/prj/lfoyer

Index des documents

1. 404 et 301

2. Outils

3. Un gros morceau, carte.html

4. Autres outils


1. 404 et 301

La plupart des erreurs sont des 600 (hors HTTP), 404 ou des 301. Les 600 c'est que le nom du serveur n'existe même plus (contact impossible). Les 404, ç'est pénible pour les lecteurs. Plus de 10% des requêtes sur lfo sont des 404, par exemple 345921/3282816 en février 2004 : http://www.linux-france.org/stats/usage_200402.html.

404: Not Found         (c'est grave, l'utilisateur est frustré)
301: Moved Permanently (moins grave, mais allonge les requêtes)

Il y a de nombreux 301 dus simplement à des url sans "/" final sur des répertoires.

2. Outils

Pour chaque responsable de rubrique, il y a un lancement en crontab de bin/chasse404_from_authsync le 1er de chaque chaque mois à minuit. Cela génère un fichier nommé chasse404z.txt pour chaque zone de de responsable ayant l'option --delete. Vous pouvez accéder à ces fichiers par l'intermédiaire de l'url http://www.linux-france.org/maint/authsync.log.html.

3. Un gros morceau, carte.html

Le fichier carte.html passe en revue l'ensemble des index.html du site. Un relevé des liens cassés à partir de ce fichier est un bon début pour détecter les liens cassés et surtout les corriger.

Le relevé recursif de profondeur 1, sur carte.html : http://www.linux-france.org/chasse404z.txt

Ce relevé est fait en crontab (lf/memo/cl_carte) le 1er de chaque chaque mois à minuit.

4. Autres outils

Etienne Herlent a créé un vérificateur:
http://webperso.easyconnect.fr/eherlent/linuxmac_verifurl.html

Le programme utilisé sur lfo est cl-1.0.1.pl : http://www.jmarshall.com/tools/cl/