La chasse aux liens cassés Gilles LAMIRAL $Revision: 1.10 $ $Date: 2004/03/15 19:09:35 $ La chasse aux liens cassés Version HTML générée le Lundi 15 mars 2004 Vous trouverez la dernière version du présent document à l'adresse: Index des documents 1. 404 et 301 La plupart des erreurs sont des 600 (hors HTTP), 404 ou des 301. Les 600 c'est que le nom du serveur n'existe même plus (contact impossible). Les 404, ç'est pénible pour les lecteurs. Plus de 10% des requêtes sur lfo sont des 404, par exemple 345921/3282816 en février 2004 : . 404: Not Found (c'est grave, l'utilisateur est frustré) 301: Moved Permanently (moins grave, mais allonge les requêtes) Il y a de nombreux 301 dus simplement à des url sans "/" final sur des répertoires. 2. Outils Pour chaque responsable de rubrique, il y a un lancement en crontab de bin/chasse404_from_authsync le 1er de chaque chaque mois à minuit. Cela génère un fichier nommé chasse404z.txt pour chaque zone de de responsable ayant l'option --delete. Vous pouvez accéder à ces fichiers par l'intermédiaire de l'url . 3. Un gros morceau, carte.html Le fichier carte.html passe en revue l'ensemble des index.html du site. Un relevé des liens cassés à partir de ce fichier est un bon début pour détecter les liens cassés et surtout les corriger. Le relevé recursif de profondeur 1, sur carte.html : Ce relevé est fait en crontab (lf/memo/cl_carte) le 1er de chaque chaque mois à minuit. 4. Autres outils Etienne Herlent a créé un vérificateur: Le programme utilisé sur lfo est cl-1.0.1.pl :