Indexation des documents de www.linux-france.org
Gilles Lamiral
Mardi 20 août 2002 $Revision: 1.8 $
Indexation des documents de www.linux-france.org
Vous trouverez la dernière version du présent document à l'adresse:
L'indexation des documents a fait l'objet d'une discussion sur la
liste de diffusion mlfo des contributeurs. Voici une proposition qui
tente de concilier l'ensemble des points de vues.
1. Existant
·
·
2. Contraintes
· Les documents publiés sont majoritairement au format HTML.
· D'autres formats existent: ASCII, pdf, Postcript, TeX, MSWord etc.
· Les types de source des documents sont multiples: ASCII, SGML (HTML
x, DocBook x, linuxdoc, (n|t)roff, (La)TeX, m4 etc.
· Le site doit pouvoir être mis en miroir sans complication pour ceux
qui gèrent le miroir.
· Le site doit pouvoir être déployé à partir d'une archive au format
tar.gz et permettre une navigation dans un système de fichiers
normal.
3. Projets
Des dicussions sur mlfo ont suggéré la création d'une base de données,
XML, DocBook, Zope, ghtml, wml, sdf, divers outils de création de
site. Je n'ai rien contre et je ne m'oppose pas à ces possibilités. Je
ne vois pas de consensus général. Si vous en voyez un, je suis
impatient de le connaître.
Une série d'index des documents triés par auteur, par date de dernière
modification, par thème, par type (html, ascii, pdf, postscript,
msword, framemaker, keuseje) serait salvateur dans bien des cas de
recherche, de mise à jour et de collaboration. Ce travail, en partie
automatisable, s'affranchie du format des documents sources s'il est
basé sur le titre (HTML), la date des documents, leur type.
4. Index, Header, Readme ?
Un défaut (parfois une qualité) de la présence d'un fichier index.html
est qu'il masque le comportement d'indexation à la volée du serveur
web.
Lorsqu'il n'existe pas de fichier index.html dans un répertoire, les
sous-répertoires et fichiers sont présentés sous forme de liens, triés
par nom, par date, par poids, voir même par leur description.
C'est très pratique si l'arborescence est bien faîte.
Ce comportement peut-être maintenu en utilisant le nom HEADER.html ou
README.html à la place de index.html. Le fichier HEADER.html sera
présenté avant l'indexation à la volée. Le fichier README.html sera
présenté après l'indexation à la volée. Les deux peuvent être utilisés
en même temps.
Problème temporaire : tree.pl ne prend en compte que le nom
index.html, pas les autres.
5. Petit travail pour Grand résultat
Donnez un titre pertinent aux documents HTML principaux et nommez les
index.html directement ou par un simple lien symbolique. Le titre
apparaîtra alors sur le grand index général carte.html
sous forme d'un lien qui mène
au document. Il apparaîtra aussi sur le grand index trié par date de
dernière modification carte_classee.html .