Les informations qui naissent de façon électronique aujourd’hui sont généralement accessibles en ligne et donc mieux préservées qu’il y a 20 ans, avant que le Web ne facilite grandement cette opération. Avant que le Web ne révolutionne les technologies de l’information, le contenu qui était rédigé électroniquement avec des outils de traitement de texte était principalement conservé sur papier et non numériquement. Les fichiers natifs était souvent remplacés par du contenu plus récent afin d’économiser de l’espace mémoire, ce qui à l’époque permettait, dans plusieurs environnements bureautiques, de sauvegarder… des disquettes.
Aussi surprenant que cela puisse paraître aujourd’hui, il s’agissait à l’époque d’une gestion normale de l’information et les cours et tribunaux n’étaient pas différents des autres institutions. La plupart des décisions rendues avant le milieu des années 90 n’étaient conservées que sous forme imprimée, même si elles avaient été initialement préparées par voie électronique.
Il n’y a pas si longtemps, rendre ces décisions disponibles en ligne était assez coûteux. Aujourd’hui, en utilisant les dernières technologies et des processus améliorés, rajeunir les vieilles décisions est devenu beaucoup plus abordable.
La numérisation des textes imprimés est souvent surnommée «reconnaissance optique de caractères» (OCR), mais cette caractérisation efface le fait qu’elle ne consiste pas simplement à transférer des données du papier vers des supports électroniques. La numérisation de la jurisprudence implique également l’extraction et la réorganisation des informations afin qu’elles puissent être exploitées par des systèmes informatiques au profit des utilisateurs souhaitant rechercher et récupérer efficacement les décisions.
Les décisions conservées sur papier se trouvent généralement dans l’une des deux catégories suivantes: rapportées ou non rapportées. Les premières sont disponibles dans les recueils de jurisprudence, les secondes sont disponibles dans les archives judiciaires. Deux sources de documents, deux ensembles de problèmes très différents.
La numérisation des décisions directement à partir du dossier judiciaire est, sans surprise, une entreprise des plus difficiles. Même lorsque le système de dossiers du tribunal est organisé de manière à pouvoir identifier facilement les motifs de décision, les données d’identification des décisions peuvent être difficiles à extraire. Même un élément aussi important que la date de la décision pourrait ne pas figurer dans la version papier conservée dans le dossier, car elle n’était souvent tamponnée que sur les versions imprimées distribuées aux parties. Dans les cours d’appel où les motifs sont rendus par un collège de plus d’un juge, les «opinions» des différents juges peuvent être dispersées dans le dossier papier et confondues comme constituant des décisions autonomes où elles devraient être lues à la suite. Souvent, ces différentes opinions ne portent pas la même date, ce qui peut ajouter à la confusion. Enfin, comme ces documents n’étaient pas destinés à être diffusés en ligne au moment de leur publication, ils pourraient être soumis à des restrictions légales à la publication ou à l’application d’une politique judiciaire qui minimise la publication en ligne d’informations personnelles.
Pour atténuer ces problèmes liés aux décisions numérisées à partir de dossiers judiciaires, l’administration du tribunal a un rôle à jouer. Dans un projet de numérisation réalisé pour les tribunaux de l’Alberta il y a quelques années, les officiers de justice ont trié les décisions à partir de leurs dossiers et, pour chacun, ont ajouté une nouvelle page de couverture aux images des décisions fournies à Lexum. La page de couverture présente les données d’identification d’une décision telles que le nom du tribunal, la date, les noms des parties, les noms des juges, etc. Les huissiers de justice qui connaissent leurs dossiers sont les mieux placés pour trouver les informations manquantes et les pages de couverture qu’ils ont préparées ont été crtiales à la bonne réalisation du projet dans les délais et le budget prévus.
La numérisation de décisions à partir de reccueils de jurisprudence présente d’autres défis. Le premier qui me vient à l’esprit concerne le droit d’auteur. Lexum a récemment traité 42 années de décisions rendues dans la Revue légale du Centre d’accès à l’information juridique (CAIJ), pour lesquelles l’éditeur Wilson & Lafleur a autorisé la reproduction des entêtes. Cependant, ce n’est pas ainsi que cela se déroule dans la plupart des projets. Lorsque les droits de reproduction des décisions rapportées ne peuvent pas être obtenus, il faut trouver des moyens pour ne conserver que les motifs lors du traitement des documents, sans aucune information propriétaire provenant de l’entête (résumé, mots-clés, etc.). Cela conduit à un deuxième défi important. Même pour les décisions rapportées plus anciennes qui tombent dans le domaine public, une analyse minutieuse des pratiques éditoriales de chaque reccueil est requise afin d’extraire correctement les informations d’identification des décisions (métadonnées telles que la date, le dossier, la citation, etc.) incluses dans l’entête. Au fur et à mesure que vous remontez dans le temps, les pratiques diffèrent au point où les éléments de base tels que les noms des affaires et les dates de décision diffèrent selon les éditeurs. C’est pourquoi la numérisation de décisions à partir d’une grande variété de reccueils imprimés publiés dès les années 1870 ne peut pas être réduite à de l’OCR. Les informations doivent être extraites efficacement, réorganisées et parfois corrigées (par exemple, une décision de 1880 rapportée dans le SCR était «officiellement» datée du 31 juin…). L’utilisation de fonctionnalités de traitement de texte telles que des styles pour baliser les métadonnées, est essentielle pour rationaliser l’extraction des métadonnées des décisions, minimiser les interventions manuelles et réduire les coûts de traitement.
L’expérience permet de connaître les pratiques antérieures des éditeurs et de trouver des techniques optimales pour gérer leur diversité. Au cours de la dernière décennie, Lexum a numérisé plus de 50 000 décisions dans les deux langues officielles provenant des principaux reccueils de jurisprudence canadiens, dont certains remontent au 19e siècle. Cela a été rendu possible grâce au soutien des fondations judiciaires et juridiques de l’Alberta, de la Saskatchewan, de l’Ontario, de Terre-Neuve-et-Labrador et, plus récemment, de la Cour suprême du Canada.
Le coût de la numérisation a diminué d’un facteur 10, grâce à la technologie et à des processus améliorés. Les cours et tribunaux peuvent désormais se permettre de rajeunir leurs anciennes décisions et de les rendre disponibles en ligne, et Lexum est plus que jamais prêt à bien les servir.