Une nouvelle approche de publication des documents PDF est en cours de déploiement dans l’ensemble des produits de Lexum. Nous lançons présentement un nouveau format de publication PDF répondant à des exigences de publication numérique sophistiquées (comprendre «riche en fonctionnalités») mais rendu disponible à un prix abordable.
Actuellement il existe deux options couramment utilisées afin de publier des documents sur le Web. La première consiste à publier des documents au format PDF. Le PDF permet de publier avec facilité et à moindre coût, tout en reproduisant parfaitement le formatage original des documents. Cependant, le format PDF ne permet pas de tirer profit de plusieurs fonctionnalités requises afin d’effectuer des recherches sophistiquées et des références croisées. Les métadonnées disponibles sont souvent peu nombreuses et la recherche est loin d’être optimale (si vous n’êtes pas déjà convaincu des inconvénients de la publication au format PDF, vous devriez certainement lire cet article). Une deuxième option consiste à convertir les fichiers PDF en version HTML, ce qui implique l’extraction et le traitement du contenu PDF. Ce processus permet d’optimiser l’utilisation qui est faite des documents, en particulier en améliorant les fonctionnalités de recherche. Cependant, en réalisant ce processus d’extraction vous perdez la plus grande partie de la mise en forme du document original et, bien sûr, masser le code HTML afin de le rendre identique au fichier original génère des coûts et des délais plus élevés.
Notre nouvelle approche fusionne le meilleur de ces deux approches. Lorsqu’un fichier PDF est soumis, Lexum utilise maintenant à la fois l’image du fichier pour l’affichage à l’écran et une version XML du contenu à des fins d’indexation, le tout assemblé dans un fichier HTML. Puisque le contenu XML est superposé de façon invisible par-dessus l’image, le texte peut être sélectionné par les utilisateurs de façon complètement transparente. De plus, des métadonnées personnalisées peuvent être extraites et ajoutées au fichier HTML, ce qui facilite l’indexation par les moteurs de recherche. Vous obtenez ainsi un affichage parfait caractéristique des fichiers PDF, combiné avec des capacités de recherche supérieures offertes par le format XML, telles que le référencement croisé, l’indexation et l’utilisation complète des métadonnées.
Voici quelques illustrations de fonctionnalités que cette nouvelle approche nous permet d’intégrer à l’ensemble de nos services d’édition:
Conservation de la mise en page originale : Voir Faryna c. Chorny, 1951 CanLII 252 (BC CA), une décisions initialement publiée dans les Dominion Law Reports, maintenant disponible sur CanLII. Elle a conservé la numérotation des pages de la publication originale, permettant ainsi une navigation rapide par numéro de page.
Les mots séparés sur deux lignes sont correctement indexés et consultables : Une recherche du mot « sincerity » trouve le mot réparti sur deux lignes à la page 357 de la décision. Une recherche similaire à l’intérieur d’un fichier PDF n’aurait pas identifié ce résultat.
Des liens peuvent être ajoutés aux citations juridiques : Ces liens peuvent pointer sur du contenu disponible sur CanLII dans le contexte canadien, ou sur Fastcase dans le contexte américain. La superposition du contenu XML nous permet d’insérer des liens sur les citations reconnues dans le corps du texte. Ceci est particulièrement utile lorsque le format de la citation d’origine est préservé dans l’image du PDF.
Le «chargement paresseux» permet une navigation plus rapide et plus efficace : Seul un nombre limité d’images de pages est chargé à la fois, bien que l’utilisateur puisse effectuer une recherche dans l’ensemble du document à tout moment. Voir «La préparation, la référence et la distribution des décisions canadiennes» sur Qweri, qui est accessible à partir d’une table des matières à chargement rapide, plutôt qu’en téléchargeant l’entiereté du document d’un seul coup.
Lexum travaille actuellement à déployer cette nouvelle approche à l’ensemble de ses produits et services d’édition. Elle a déjà été intégrée à la version 1.18 de Qweri et remplacera le PDF embarqué actuel dans la prochaine version de Decisia. Elle est également disponible aux clients intéressés par des services éditoriaux personnalisés, tels que le traitement d’archives pour fins de publication dans une base de données tierce. Cette nouvelle approche ajoute une option située à mi-marché permettant aux organisations de toutes tailles d’entreprendre une publication de haute qualité de leurs archives à une fraction des coûts qui prévalaient jusqu’ici.