Droit Francophone : de catalogue à portail


04.11.2004

Dès le milieu des années 80, l’Agence intergouvernementale de la francophonie (AIF) compris l’importance de la diffusion libre et gratuite de la documentation juridique pour le développement de ses États membres.

C’est d’abord dans le cadre du projet Collecte, gestion et diffusion du droit (COGEDI) qu’elle entrepris de rassembler les textes juridiques fondamentaux des États francophones, et cela afin de les mettre à la disposition de tous. Malheureusement, ce programme ne permis pas d’atteindre l’ensemble des objectifs escomptés, en particulier auprès des États francophones émergents. Aussi, au cours des dernières années, avec le développement d’Internet et des technologies de l’information, un écart est apparu entre l’accès au droit des États anglophones et celui des États s’exprimant en français. C’est dans ce contexte et avec l’appui de LexUM que l’AIF a décidé de revoir sa stratégie en matière de diffusion du droit.

Le principal résultat de cette remise en question fut la mise en chantier, au cours de l’hiver 2003, du site WebDroit francophone. L’objectif initial de Droit francophone était d’améliorer le référencement des ressources Web juridiques des États émergents de l’AIF, et cela le plus rapidement possible. Cette étape fut franchie au printemps 2004, lors de la mise en ligne d’un répertoire du Web juridique francophone à l’adressehttp://droit.francophonie.org. Ce répertoire compte aujourd’hui plus de 3500 références évaluées et commentées.
Suite à ce premier succès, Droit francophone fut sélectionné pour devenir la plateforme de rediffusion des collections documentaires récoltées par l’AIF dans le cadre du programme COGEDI. Ces travaux aboutirent, à l’automne 2004, à la mise en ligne de plusieurs milliers de documents provenant d’une vingtaine d’États francophones émergents.
Toutefois, même après avoir complété ces deux phases de développement, il apparaissait clairement que Droit francophone ne possédait toujours pas les fonctionnalités nécessaires pour remplir pleinement le rôle de portail qui lui était dévoué. En effet, dans la mesure où centraliser la documentation juridique de la cinquantaine d’États francophones sur un seul site Web paraît impossible, un meilleur accès à ces documents passe d’abord par leur mise en valeur là où ils sont disponibles, c’est-à-dire sur les milliers de ressources Web juridiques francophones existantes. Or, le répertoire en place, bien qu’il soit utile pour identifier les ressources existantes, ne permet pas de repérer un document en particulier.
Aussi, permettre la recherche par mot-clefs sur l’ensemble du Web juridique francophone paraît la seule solution adéquate pour garantir un accès efficace et rapide à cette grande quantité d’information disséminée aux quatre coins de la terre. Pour y arriver, la première étape consiste à télécharger et indexer l’ensemble des pages Web de ce domaine à l’aide d’un moteur de balayage. Par la suite, l’implantation d’un moteur de recherche doit permettre d’effectuer des requêtes sur cet ensemble de données et de retourner des résultats pertinents.
C’est avec l’objectif d’atteindre ce résultat que LexUM amorça la troisième phase de développement de Droit francophone au printemps 2004. Phase3 est le nom retenu pour le moteur de recherche Web qui a été développé. Celui-ci s’appuie sur deux logiciels libres existant : le moteur de balayage Nutch et le moteur de recherche Lucene. Il permet, dès à présent, d’effectuer des recherches sur la quasi totalité de la documentation juridique francophone disponible en ligne.

Droit francophone : Qu’est-ce que c’est ?

Pour favoriser la diffusion du droit en français, et cela principalement dans les pays émergents, Droit francophone s’appuie sur quatre orientations principales :
l’accès libre et gratuit au droit ;
l’utilisation de technologies fondées sur les logiciels libres ;
le recours à des actions décentralisées ;
la décentralisation des savoir-faire.
Ces quatre orientations se reflètent dans la mise en oeuvre des principaux objectifs du site qui sont :
accroître la visibilité des ressources juridiques francophones en ligne ;
permettre une diffusion efficace de la documentation juridique francophone ;
permettre une gestion distribuée.
Plusieurs fonctionnalités de Droit francophone sont orientées vers l’augmentation de la visibilité des ressources référencées dans son répertoire. Tout d’abord, en plus de la recherche, deux types d’accès au contenu sont mis à la disposition des usagers, soit un accès par catégorie et un accès géographique. L’accès par catégorie permet de mettre en relief l’ensemble des ressources ayant des points en commun alors que l’accès géographique permet de repérer rapidement les ressources pertinentes dans une juridiction donnée. De façon similaire, la disponibilité d’une description, d’un critère de pertinence et d’autres méta-informations pour chacune des ressources du répertoire permet une identification aisée de celles qui sont le plus susceptibles de répondre aux besoins d’un usager. Finalement, la possibilité de trier les ressources en fonction de différents critères (par ordre alphabétique ou par pertinence) facilite leur repérage spécifique lorsque cela s’avère nécessaire.
En ce qui concerne la diffusion de collections documentaires, Droit francophone constitue une plateforme de publication complète. Les documents y sont classés par collection, dont les statistiques sont mises à disposition. Des index chronologiques permettent de naviguer entre les documents, ceux-ci étant toujours diffusés au format HTML et parfois au format PDF (uniquement lorsque le document utilisé aux fins de publication était disponible dans sa version originale). Certaines des collections qui y sont diffusées sont gérées directement sur Droit francophone alors que d’autres résultent d’un processus de syndication. En effet, les données de Droit francophone peuvent être ajoutées manuellement par un éditeur ou automatiquement par un robot qui récupère l’information nécessaire sur d’autres ressources Web distantes partenaires. Enfin,Droit francophone permet d’accéder à la vaste majorité des constitutions des États membres de la francophonie ainsi qu’à des textes décrivant la situation juridique nationale de chacun d’entre eux. Il va de soit qu’un moteur de recherche plein texte permet de chercher et de trouver l’ensemble de ces documents.
La gestion distribuée de Droit francophone est rendue possible par l’existence d’un interface de gestion Web sécurisé. Celui-ci permet aux éditeurs de Droit francophone d’ajouter, modifier et parfois de supprimer la presque totalité des éléments du site, soit les ressources et les documents, les catégories, les États, les collections et les nouveautés. Cet interface est doté de plusieurs niveaux de vues, ce qui permet de créer des usagers ayant plus ou moins de permissions d’utilisation. De plus, les processus de publication y sont automatisés autant que cela est possible, ce qui facilite la tâche des éditeurs. À titre d’exemple, l’ajout d’un document législatif ou jurisprudentiel se réalise en attachant simplement un fichier lisible par Microsoft Word à un formulaire Web. Par la suite, l’ensemble des processus de conversion, d’insertion dans la base de données et de génération des pages sont réalisés automatiquement sans intervention humaine. Par ailleurs, un certain nombre de documents ont été rédigés afin de faciliter la compréhension de ces outils par les éditeurs, dont une politique éditoriale et un guide de l’éditeur.
Toutes ces fonctionnalités contribuent à faire de Droit francophone l’un des pivots de l’accès au droit en français sur Internet. Malheureusement, malgré tous les avantages associés à la mise en ligne du répertoire de ressources et des collections documentaires, une large portion de l’Internet juridique francophone demeure toujours hors de portée de Droit francophone et ne peut donc être mis en valeur. Il s’agit de l’ensemble des documents hébergés par les ressources du répertoire. Toutefois, compte tenu des travaux déjà effectués, cette information possède l’avantage d’être facilement identifiable.

La recherche juridique sur le Web

Une grande quantité de documents juridiques fondamentaux sont accessibles gratuitement et sans contrainte sur le Web. Évidemment, sont exclus les ressources dont l’accès est restreint, ce qui concerne principalement les éditeurs juridiques qui cherchent à financer leurs opérations par ce moyen. Ceci exclu également l’information cachée, c’est-à-dire celle vers laquelle il n’existe aucun hyperlien. Pour accéder à tout le reste de la documentation juridique en ligne, il semble que quatre grandes catégories de ressources peuvent être identifiées :
les sites d’institutions productrices d’information juridique ;
les sites agglomératifs ;
les répertoires de liens ;
les moteurs de recherche Web.
Ces ressources ne sont pas uniquement utiles au grand public, mais bien à tous les consommateurs de documentation juridique, qu’il s’agisse de juristes, de magistrats, du personnels de l’administration publique, d’étudiants ou d’éditeurs juridiques.
La première catégorie de ressources recoupe l’ensemble des institutions ayant prises en charge la diffusion de leur documentation juridique publique sur Internet. C’est d’ailleurs souvent vers ces ressources que se tournent les usagers lorsqu’ils connaissent préalablement la source d’un document recherché. Elles ont l’avantage de garantir un degré élevé de fiabilité aux documents qui s’y trouvent puisque ceux-ci demeurent sous le contrôle de leur source. Toutefois, bien que ces institutions aient la possibilité de diffuser des collections documentaires exhaustives, la qualité de la diffusion souffre souvent des faibles capacités techniques qui les caractérisent. À titre d’exemple, il est possible de mentionner le site Web de la Cour de cassation française où l’on ne retrouve qu’une sélection d’arrêts, dont très peu ont été rendus avant l’année 2000.
À ces ressources institutionnelles s’ajoutent un grand nombre de sites Web agglomératifs, c’est-à-dire qui diffusent, ou rediffusent, des documents émanant de plusieurs institutions différentes. Parfois, ce regroupement d’information est fondé sur un critère géographique lié aux juridictions, parfois il est d’ordre thématique. L’apport principal de ces ressources est de rassembler dans un seul et unique endroit, des documents qui autrement seraient dispersés et donc plus difficile à trouver. De plus, ces ressources étant généralement dirigées par des groupes dont la circulation de l’information juridique constitue le mandat, une meilleure maîtrise des technologies y accompagne des fonctionnalités plus poussées. D’un autre point de vue, bien que le champ d’action de ces ressources soit nécessairement limité, la mise en ligne de collections exhaustives est beaucoup plus difficile à atteindre en suivant ce modèle. Malgré tout, c’est ce que les instituts d’information juridique, réseau dont fait partie Droit francophone, tentent de réaliser depuis déjà plusieurs années, avec un certain succès.
D’autres ressources juridiques participent à la circulation de l’information juridique en facilitant l’accès aux sources de la documentation, sans en diffuser elles mêmes. Les répertoires de liens permettent à leurs usagers d’identifier les ressources susceptibles d’héberger l’information qu’ils recherchent. Pour ces derniers, le principal bénéfice réside dans l’évaluation qui leur est fournis de la valeur et de la crédibilité des ressources référencées, ce qui permet de sauver plusieurs visites inutiles sur des Web qui ne sont pas fiables, ou tout simplement non pertinents. Malgré tout, le recours aux répertoire de liens implique plusieurs étapes de recherche. Par dessus tout, les renseignements présentés sur ces ressources ne reflètent pas toujours l’état actuel des choses, selon la fréquence de leur mise à jour, et ne garantissent aucunement la disponibilité de l’information qui est recherchée.
Enfin, pour être en mesure d’effectuer une recherche juridique globale, ou non conventionnelle, seuls les moteurs de recherche Web possèdent les qualités requises. Or, les ressources de ce types spécifiques au domaine juridique sont pratiquement inexistante. En fait, jusqu’à maintenant, seul le moteur de recherche du catalogue de WorldLII semble offrir un tel service. Il est vrai que considéré individuellement, ce type de ressource fournis peu de guides à l’usager et risque d’entraîner un surplus d’information. Pourtant, en plus de permettre la recherche plein texte sur l’ensemble du contenu indexé, les moteurs de recherche Web ont l’avantage de tenir compte des ajouts et modifications constamment apportés à l’information juridique disponible sur Internet.
Somme toute, les moteurs de recherche Web ont un rôle à jouer dans la recherche juridique sur le Web. Malheureusement, il n’existe encore aucun moteur spécialisé pour le droit destiné à servir la communauté juridique francophone. En conséquence, les usagers francophones se tournent vers les moteurs de recherche généralistes, tel que Google. Or, bien que ces outils conviennent parfaitement à la recherche sur le Web à plusieurs égards, ils possèdent des faiblesses lorsqu’il s’agit de trouver des documents juridiques. Ainsi, ils ne permettent pas l’utilisation de critères de recherche spécifique au droit, par exemple limiter les résultats par type de document. De plus, le contenu indexé étant extrêmement large, les résultats des moteurs de recherche généralistes inclus beaucoup de bruit, soit des documents qui correspondent à la requête effectuée, mais qui traitent d’un sujet qui n’a rien de juridique. Enfin, le tri des résultats de ces moteurs de recherche ne tient compte d’aucun critère propre à la documentation juridique, tel que la valeur légale ou la fiabilité de l’information.
Pour toutes ces raisons, le développement d’un moteur de recherche du Web juridique francophone parait essentiel. Or, Droit francophone constitue la plateforme idéale pour héberger un tel outil, d’autant plus que le site combine déjà les caractéristiques d’un site agglomératif et d’un répertoire de liens. Bien que cette tâche puisse paraître difficile à réaliser, les innovations récentes en matière de recherche et d’extraction de l’information la rendaient possible.

Les innovations récentes en matière de recherche et d’extraction de l’information

Le projet de développement d’un moteur de recherche du Web juridique francophone aurait été beaucoup plus difficile à réaliser il y a à peine 3 ou 4 ans. En effet, au cours des dernières années, un certain nombre d’innovations ont rendu envisageable la réalisation d’un projet d’une telle ampleur avec un minimum d’investissements. Parallèlement à la baisse des coûts, l’expansion des logiciels libres permet aujourd’hui de construire sur des outils existant, ce qui évite d’avoir à réinventer la roue.
C’est d’abord grâce à la baisse des coûts des disques durs, des processeurs et des barrettes de mémoire vive que la mise en place d’un moteur de recherche Web est maintenant à la portée de tous. Ceci s’explique par la large quantité d’information que doit nécessairement être capable de gérer un tel outil. Celui-ci doit d’abord être en mesure de stocker l’ensemble des pages Web pertinentes, pour ensuite les traiter et effectuer des requêtes sur le résultat.
L’amélioration de la bande passante qui caractérise les dernières années à également un grand rôle à jouer dans cet état de fait. Puisque le Web doit être téléchargé et centralisé pour être traité, beaucoup de données doivent transiter sur le réseau entre les serveurs qui les hébergent et les serveurs destinés au moteur de recherche. Le recours aux technologies de la fibre optique, du câble ainsi que la mise à niveau constante des infrastructures réseau facilite grandement cette opération.
L’apparition de langage de programmation plus conceptuel est une autre innovation contribuant à mettre en place les conditions nécessaires au développement de projets logiciels complexes du type d’un moteur de recherche Web. Ainsi, un langage tel que Java permet d’augmenter la modularité d’un projet tout en bénéficiant de librairies plus avancées, ce qui facilite le déboguage des erreurs.
De plus, de nombreux outils de développement contribuent aujourd’hui à réduire le temps nécessaire à la production logicielle. Il s’agit d’outils de gestion, tel que CVS, qui a pour utilité d’organiser les différentes versions d’un logiciel au cours de son développement. Il s’agit également de logiciels d’édition, tel qu’Eclipse, qui est spécifiquement conçu pour la programmation Java. Certaines ressources jouent un rôle similaire en favorisant l’échange d’information entre les programmeurs, qu’il s’agisse de listes de discussions, de forums, ou tout simplement de sites Web.
Un autre élément non négligeable contribuant à faciliter la recherche et l’extraction de l’information sur le Web est le développement des standards d’Internet, qui permettent désormais d’aborder l’information distante beaucoup plus aisément. Ceci est particulièrement vrai en ce qui concerne le standard HTML, développé au niveau du W3C. Aujourd’hui il est beaucoup plus facile d’ignorer les balises d’origine propriétaire qui sont parfois insérées dans le code. De la même façon, l’évolution du standard HTML a entraîné une meilleure structuration du contenu diffusé sur le Web.
Finalement, l’apparition de logiciels libres spécialisés dans la recherche et l’extraction de l’information est sans doute la principale innovations favorisant le développement d’un moteur de recherche du Web juridique francophone. Il est aujourd’hui possible de bénéficier des travaux de centaines de programmeurs s’étant investit dans la conception de moteurs de balayage, d’analyseurs syntaxiques et de moteurs de recherche. Le code de ces logiciels peut être téléchargé en ligne et leurs licences permettent leur utilisation, leur modification et leur distribution. En contre-partie, chacun des contributeurs s’attend à bénéficier du travail des autres. Dans la mesure où une importante communauté de développement gravite autour de ces projets, les logiciels qui en résultent sont en constante évolution et progressent sans interruptions.
C’est donc sur la base de ces outils que le développement de Phase3 s’est amorcé.

Nutch et Lucene

Compte tenu des innovations technologiques récentes, la conception d’un moteur de recherche du Web juridique francophone n’implique pas le démarrage des travaux à partir du néant. Aussi, après une étape de recherche initiale, deux logiciels furent identifiés pour servir de fondement à Phase3. Il s’agit du moteur de balayage Nutch et du moteur de recherche Lucene.
Nutch a pour principales fonctions de balayer le Web, en suivant les hyperliens, a un rythme de plusieurs milliards de page par mois et de maintenir un index de ces pages. Les documents HTML qui sont téléchargés étant composés de balises inutiles aux fins de la recherche, Nutch a également pour tâche de retirer ces balises de l’index et de mettre le résultat à la disponibilité du moteur de recherche. En plus de cela, Nutchfournis certaines données au moteur de recherche afin d’influencer le tri final des résultats. Il s’agit, à titre d’exemple, du nombre d’hyperliens pointant vers ce document ayant pu être détectés. Finalement, Nutch joue un dernier rôle lorsqu’il affiche les résultats de recherche après les avoir reçus du moteur de recherche.
Nutch fut sélectionné pour plusieurs raisons. Tout d’abord, il s’agit de l’un des principaux projets de développement de moteur de balayage libre à l’heure actuelle. Dans ces conditions, celui-ci bénéficie d’une mise-à-jour très rapide. De plus, la compétence des développeurs impliqués dans le projet ne peut être mise en doute, Doug Cutting en étant l’instigateur, Yahoo Labs et Internet Archive y participant activement. L’implication de ces deux derniers partenaires a d’ailleurs permis de garantir l’efficacité de Nutch sur de grande masse de données. Ensuite, dans la mesure où Doug Cutting est également l’auteur principal de Lucene, cela garantis la prise en compte des limites du moteur de recherche par le moteur de balayage. Enfin, l’objectif qui motive les travaux sur Nutch, c’est-à-dire concevoir un moteur de recherche dont les résultat ne peuvent être biaisés par des considérations commerciales, a également contribué à assurer son choix.
Cependant, Nutch possède certaines faiblesses lorsqu’il est considéré dans le contexte de la réalisation dePhase3. Ayant été conçu pour indexer tout le Web, celui-ci ne possède pas les fonctionnalités nécessaires pour limiter son opération à une sélection de ressources Web, voir de pages précises sur l’une d’entre elles. En d’autres mots, Nutch possède peu de critères de restriction, et ceux disponibles s’avèrent inadaptés au contexte du site Droit francophone. Cela s’avère pourtant essentiel pour restreindre son activité de balayage aux ressources du répertoire de liens de Droit francophone. Un autre élément que Nutch est incapable de prendre en compte est le paramétrage particulier des sites indexés. Or, dans la mesure où des métadonnées sont déjà disponibles sur Droit francophone relativement à chacun des ressources du répertoire, il semble pertinent d’en tenir compte. Bien que ces problèmes ne possèdent pas la même importance, il faut aussi considérer le fait que l’interface de recherche de Nutch est peu avancé et que ses activités ne sont pas complètement automatisées.
Lucene, quant à lui, est un moteur de recherche libre conçu pour effectuer des requêtes plein texte. Celui-ci repère les termes recherchés à l’intérieur du texte fournis par le moteur de balayage et transmet, en retour, une liste de résultats bruts aux fins de l’affichage. Lucene effectue le tri des résultats en fonctions de différents critères :
le nombre d’occurrences des mots ;
la proportion des occurrences par rapport à la taille du document ;
l’écart (en nombre de mots) entre les occurrences ;
les données fournies par le moteur de balayage.
Par ailleurs, Lucene tient compte d’une liste d’exclusion, qui comprend les mots beaucoup trop communs pour être pris en compte dans une requête.
Lucene dispose de l’avantage d’avoir été grandement utilisé et testé, en particulier dans le cadre d’une collaboration avec le groupe Apache. Il s’agit d’un moteur de recherche extrêmement performant, tant au niveau de sa rapidité d’exécution que de la qualité de ses résultats. En sommes Lucene possède toutes les qualités requises pour créer un moteur de recherche Web complet.
Toutefois, malgré l’état de perfectionnement de ces logiciels, un travail important fut nécessaire pour assurer leur intégration avec Droit francophone et ainsi atteindre les résultats escomptés. En particulier, plusieurs adaptations étaient nécessaires pour limiter le champ d’action du moteur de recherche Web aux seuls ressources relatives au droit s’exprimant en français. Ces efforts n’ont pas été investit en vain puisque le moteur de recherche du Web juridique francophone est maintenant opérationnel.

L’indexation du Web juridique francophone sur Droit francophone

Droit francophone bénéficiait déjà, depuis son lancement, d’un répertoire composé de plus de 3500 hyperliens commentés et évalués vers les ressources juridiques francophones en ligne. Ce répertoire est entretenu par une équipe d’éditeurs qui s’assurent de son exhaustivité et de sa mise à jour. Dans ce contexte, l’objectif d’indexer l’ensemble des documents diffusés sur chacune de ces ressources s’est imposé de par lui-même.
Pour atteindre cet objectif, l’établissement d’un processus en plusieurs étapes s’avérait essentiel. Celui retenu peut être décomposé de la sorte :
balayer chacune des ressources du répertoire en tenant compte de certaines règles d’exclusion ;
sauvegarder les données recueillies sur les serveurs de Droit francophone ;
effectuer l’analyse syntaxique de l’index afin d’en retirer l’information inutile aux fins de la recherche ;
insérer dans l’index les métadonnées disponibles pour chacun des ressources du répertoire de liens ;
répartir la masse de données entre un nombre de serveurs suffisant pour son traitement ;
concevoir un interface graphique adapté au site Droit francophone ;
traiter les requêtes des usagers ;
afficher les résultats de recherche en ligne.
La réalisation de chacune de ces tâches pose un certain nombre de difficultés.
L’une de celle-ci est que le balayage du Web requiert une large bande passante. Or, bien que LexUM dispose de la bande passante nécessaire, son utilisation massive en période de pointe n’était pas souhaitable. Aussi, afin de réduire les inconvénients que le moteur de balayage aurait pu causer aux opérations quotidiennes deLexUM, un programme ordonnanceur fut développé. Celui-ci démarre le balayage du Web chaque jour, en fin de journée, et le stoppe le matin. Dans la mesure où cela est possible, celui-ci tient également compte du fuseau horaire dans lequel se trouve les sites à télécharger. En plus de ces fonctions, l’ordonnanceur automatise les opérations de Nutch, tient compte du dynamisme de la liste de ressources fournis par Droit francophone et effectue un ordonnancement prioritaire fondé sur le taux de pertinence attribué à chacune des ressources du répertoire de liens. Finalement, dans la mesure où le téléchargement d’une ressource serait interrompu en cours d’opération, l’ordonnanceur s’assure de conserver cette information, pour être en mesure de compléter son activité à un moment ultérieur.
Nutch n’étant pas conçu pour être limité à une sélection de sites, beaucoup d’effort ont également été investis à implémenter un balayage en profondeur, plutôt qu’en largeur. Cela permet à Phase3 de suivre les hyperliens internes de chacune des ressources, tout en ignorant ceux pointant vers d’autres domaines ou même vers des sous-domaines. Ce processus est réalisé en prenant en compte le chemin d’accès complet d’une ressource, ce qui permet de limiter l’indexation à un répertoire particulier. Ceci s’avère nécessaire lorsque plusieurs ressources différentes sont hébergées sous un même domaine.
La nécessité de sauvegarder et traiter la masse de données qui résulte de ce balayage pose une difficulté supplémentaire. La taille du Web juridique francophone a été estimé par LexUM à environ 300 Gigaoctets. Or, pour effectuer les requêtes des usagers sur tous ces documents et retourner une réponse dans un délais raisonnable (moins d’une seconde), un seul serveur standard est nettement insuffisant. En conséquence, le partage des index de recherche entre cinq serveurs fonctionnant en parallèle fut retenu. De cette façon, chaque ordinateur est responsable du traitement d’environ 60 Gigaoctets de données, ce qui semble raisonnable vu la rapidité de leurs processeurs. De plus, un système de fichiers fut développé afin de garantir la continuité des opérations en cas de panne. Celui-ci répartis l’information transmise par le moteur de balayage sur les serveurs restant dans l’hypothèse où l’un d’entre eux ne répondrait plus.
Un autre élément devant être considéré est que les outils utilisés pour l’analyse syntaxique, dont Nutch, sont principalement orientés vers le traitement du HTML. Ceci s’avère adéquat dans la mesure où le HTML est le format de diffusion standard sur le Web. Toutefois, une large quantité de textes juridiques sont diffusés dans d’autres formats, les principauxétant le PDF et le le format natif de Microsoft Word. Aussi, un traitement limité au format HTML résulterait dans la création d’index incomplets pour les besoins des juristes. Pour cette raison, le recours à des librairies spécialisées dans l’analyse syntaxique de ces fichiers est essentiel. Les librairies retenues pour Phase3 sont PDFBox pour le format PDF et POI pour le format Word.
Une dernière difficulté ayant été résolue a trait aux critères pour déterminer le tri des résultats. Cette question est cruciale car la force d’un moteur de recherche réside précisément dans sa capacité à placer les résultats les plus pertinents dans le haut des listes de résultats. Par défaut, Lucene classe les résultats en fonction de critères de recherche textuel seulement. Toutefois, il est possible de modifier ces résultats à l’aide d’un algorithme prenant d’autres critères en compte. Dans le contexte de Droit francophone, il fut décidé d’utiliser à cette fin le taux de pertinence, attribué par les éditeurs à chacun des ressources du répertoire de liens. Ceci a pour effet d’avantager les ressources jugées les plus pertinentes d’un point de vue juridique. Ainsi, dans la mesure où deux ressources diffusent le même document, c’est celui hébergé sur la ressource considérée la plus pertinente qui s’affichera d’abord.
En ce qui concerne la conception de l’interface graphique du moteur de recherche, seul quelques ajustements étaient nécessaires, Droit francophone disposant déjà d’un interface de recherche pour accéder au contenu diffusé précédemment. La recherche globale sur l’ensemble du Web juridique francophone peut désormais être effectuée sur les deux types d’interface de recherche du site, soit les interfaces simplifiés et l’interface avancé. L’interface simplifié est présent sur toutes les pages du site. L’interface avancé, quant à lui, se trouve à l’adresse suivante : http://droit.francophonie.org/index.epl ?type=recherche. Dans les deux cas, la possibilité est offerte aux usagers de limiter leurs requêtes au site Droit francophone ou de l’étendre à l’ensemble du Web juridique francophone. La recherche avancée offre, quant à elle, la possibilité supplémentaire de limiter la recherche sur le Web par catégorie, par État et par pertinence.
En plus de ces fonctionnalités, la recherche sur Droit francophone est toujours contextuelle, c’est-à-dire qu’elle tient compte de la section du site à partir de laquelle la requête est effectuée. Ainsi, une requête lancée à partir de la page consacrée au Burkina Faso sera automatiquement limitée aux ressources burkinabées, sauf indication contraire de la part de l’usager.
Toutefois, peu importe l’interface ou la section du site à l’origine d’une requête, l’affichage des résultats est toujours composés des mêmes éléments. Le tri des résultats y est déterminé par Lucene. Chacun d’entre eux est représenté par son titre, son URL, ainsi qu’un extrait du texte ayant contribué à sa sélection. Ce court extrait, permet de préciser le contenu du document affiché, ce qui qui facilite une présélection par l’usager sans même nécessiter une consultation. De plus, lorsque plusieurs résultats de recherche différents proviennent d’une seule et même ressource, seuls les deux documents les plus pertinents s’affichent. Il est alors possible de consulter les autres documents de ce site en suivant l’hyperlien prévu à cet effet. Enfin, si le nombre de résultats de recherche est supérieur à dix, ceux-ci sont découpés sur plusieurs pages, dans le but de faciliter la navigation entre eux. Tous ces éléments ont été développés dans l’objectif de fournir une interface graphique ressemblant le plus possible à celle de Google, qui est sans aucun doute le moteur de recherche Web le plus connu et utilisé. De cette façon, la recherche sur le Web juridique francophone devrait s’en trouver facilitée.
Une fonctionalité supplémentaire ayant été développée pour les pages d’affichage des résultats de recherche concerne les occurrences des termes de la requête. Phase3 permet d’afficher une version du document sélectionné où les termes de la requêtes sont surlignés. Contrairement à Google cette fois, cette page n’est pas une copie locale cachées du document. Elle est plutôt générée dynamiquement sur le champ a partir de la version disponible en ligne. Ceci a pour avantage de garantir que la version surlignée du document tient compte des dernières mises-à-jour qui auraient pu lui être apportées. D’un autre côté, cette technique n’est pas infaillible. En effet, les occurrences ne peuvent être affichées de cette façon pour les pages HTML contenant des cadres, des positions absolues ou des redirections.
En plus de l’interface destiné aux usagers de Droit francophone, une interface dont l’accès est restreint a également dû être conçue afin de permettre aux éditeurs de paramétrer Phase3. Ce paramétrage a principalement pour fonction de permettre le choix des fichiers d’une ressource devant être balayés ou non. Ceci s’avère nécessaire car plusieurs ressources répertoriées sur Droit francophone sont d’ordre général, c’est-à-dire que leur contenu comprend une large quantité d’information non juridique. Par ailleurs, il est possible que certains webmestres demandent à ce que des pages soient retirées des index de Droit francophone. La solution retenue pour venir à bout de ces difficultés est de prévoir la possibilité d’associer des règles d’inclusion et d’exclusion à chacune des ressources du répertoire de Droit francophone.
Évidemment, les règles d’inclusion et d’exclusion dont il est question ne peuvent être générées automatiquement. Pour cette raison, une analyse fut nécessaire pour identifier les ressources les plus susceptibles d’héberger du contenu non pertinent pour les fins du moteur de recherche du Web juridique francophone. Les chemins d’accès identifiés comme non pertinents furent ensuite insérés dans la base de données grâce à l’interface de gestion en ligne de Droit francophone. Ce processus sera complété avec la mise-à-jour des ressources du répertoire et les commentaires reçu des usagers.
L’interface de gestion en ligne de Droit francophone permet également de spécifier plusieurs options de téléchargement de Phase3. Le premier de ces éléments est la fréquence à laquelle une ressource doit être téléchargée. Dans la mesure où certaines d’entre elles sont misent à jour plus régulièrement que d’autres, les index de recherche devraient pouvoir être adaptés en conséquence. Cela prend d’autant plus d’importance que quelques unes de ces ressources contiennent plusieurs gigaoctets de données, ce qui implique plusieurs heures de traitement. Dans le même ordre d’idées, il est possible de spécifier le délais minimum devant s’écouler entre deux requêtes vers un même site ainsi que le nombre de requêtes simultanées. Ainsi, le téléchargement d’une ressource peut être adapté à ses capacités en matière de bande passante. Les autres options implémentées impliquent la possibilité de forcer un téléchargement de façon manuelle et passer outre les fichiers d’exclusion des robots Web. Cette dernière possibilité est envisagée uniquement dans la mesure où une entente serait intervenu à ce sujet entre Droit francophone et le webmestre de la ressource concernée.
Malgré l’implémentation de toutes ces fonctionnalités, ce nouveau moteur de recherche du Web juridique francophone est tout de même grevé de quelques limites. En effet, il subsiste toujours certaines ressources et certains documents ne peuvant être téléchargés et ajoutés à ses index de recherche. Il s’agit principalement de :
les ressources ne possédant pas d’index permettant d’accéder aux fichiers ;
les ressources fondées sur l’utilisation de technologies propriétaires ;
les documents dont la taille est excessive ;
les ressources fondées sur l’utilisation de protocoles différents que HTTP.
Les ressources ne possédant pas d’index comprenant des hyperliens vers le contenu qui y est hébergé ne peuvent être indexées par aucun moteur de balayage. Appliqué au domaine juridique, cela regroupe l’ensemble des ressources reposant uniquement sur l’utilisation d’un moteur de recherche pour l’accès à leurs documents. Dans le monde francophone, l’exemple par excellence en la matière est Legifrance, qui contient pourtant une quantité importante de documents juridiques essentiels. Pour cette raison, une entente particulière est en cours de discussion avec les opérateurs de Legifrance à ce sujet. Dans une telle situation, la solution la plus avantageuse semble être la génération d’un index uniquement accessible aux moteurs de balayage.
En ce qui a trait aux ressources fondées sur l’utilisation de technologies propriétaires, l’impossibilité d’indexer leur contenu s’explique par le non respect des standards du Web. Les hyperliens de ces sites étant cachés à l’intérieur de code inconnu, il est impossible pour le moteur de balayage de les détecter. À l’heure actuelle, cette limitation concerne principalement les sites ayant recours à la technologie Flash de Macromedia.
Les documents dont la taille excède plusieurs centaines de kilooctets posent également problème. En effet, il est nécessaire de fixer une taille maximum aux documents susceptibles d’être téléchargés car les capacités de stockage de Droit francophone pourront rapidement être dépassées. La seule et unique solution à ce problème semble consister à arrêter une taille maximum raisonnable assurant l’inclusion de la quasi totalité de la documentation juridique.
Enfin, le moteur de balayage de Phase3 étant limité au protocole HTTP, les ressources HTTPS, voir FTP, ne peuvent être indexées. Cette limitation résulte d’un choix éditorial, car le moteur de balayage aurait été en mesure de traiter ce type de ressources. HTTPS étant un protocole sécurisé, il est peu probable que les webmestres y ayant recours désirent voir le contenu indexé par un moteur de recherche Web. En ce qui concerne FTP, l’objectif est plutôt de limiter l’ajout de fichiers non pertinents à l’index de recherche alors que du contenu textuel est visé.
Toutefois, dans l’ensemble, ces problèmes concernent une faible proportion des ressources du repertoire de liens. Dans certains cas, particulièrement en ce qui a trait à la limitation des protocoles, aucune d’entre elle n’est touchée.

* * *

Depuis quelques temps, toutes les conditions sont réunies pour favoriser le développement d’un moteur de recherche du Web juridique francophone. En effet, les ressources existantes relatives à la recherche juridique sur le Web laissent entrevoir un besoin pour les usagers à ce niveau. De plus, les innovations technologiques des dernières années ont fait baisser le coût de la mise en place d’un tel outil et permis l’apparition de logiciels libres capables de livrer les résultats attendus.
C’est dans ces conditions que s’est déroulé le développement de Phase3, lancé officiellement par LexUM et l’AIF dans le cadre de la 6e Conférence internationale Internet pour le droit, se déroulant à Paris du 3 au 5 novembre 2004. En plus d’offrir l’ensemble des fonctionnalités déjà mentionnées, le moteur de recherche pour le Web est maintenant intégré, avec une seule et même interface, au répertoire de liens et aux collections documentaires de Droit francophone. Ainsi, ce dernier possède désormais tous les éléments nécessaires pour devenir le point de passage incontournable pour tout les francophones qui cherchent de l’information juridique. Droit francophone est donc réellement en mesure d’assurer son titre de portail du droit s’exprimant en français sur Internet.
Tout comme l’ensemble des logiciels permettant la génération du site Droit francophone, le moteur de recherche du Web juridique francophone est développé sous une licence libre. Il est donc possible d’obtenir une copie de son code en contactant LexUM. De cette façon, toute personne désirant bâtir sur la base des développements effectués dans le cadre de ce projet est susceptible de le faire. Il est permis d’espérer que ces outils contribueront au développement de l’informatique juridique, voir même à d’autres champs d’activité.

Document original ici.