mercredi 28 mars 2012

BIBLIO ML

Le BiblioML (Bibliographic Markup Language) est un format standardisé d’échange de notices bibliographiques créé en 1999 en France par le ministère de la culture. Son objectif initial était de mettre en place un outil commun à toutes les structures culturelles (musées, bibliothèques…) afin de faciliter le référencement bibliographique des applications XML. Ce format est standardisé et est basé sur le XML, ce qui permet de faciliter son exportation et son partage. Cet atout le différencie notamment du format UNIMARC, qui est la version FR du format MARC.
Utilisé par la BnF, c’est un format très complet (comprenant de nombreuses métadonnées bibliographiques), mais très lourd et donc difficilement exportable. C'est pourquoi il s'est ressenti le besoin de trouver un autre moyen d’exporter les notices. En effet, l'interopérabilité est devenue un enjeu déterminant de la qualité d'un format pour la recherche documentaire. Le BiblioML est donc une tentative de réponse à cette problématique.


Pour illustrer le problème posé par d'interopérabilité, voici un exemple : on peut voir ici l’exemple d’un format binaire utilisé par le logiciel Microsoft Word®

ÐÏ à¡± á    >   þÿ !  #       þÿÿÿ  ÿÿ%    ð ¿      a     bjbj%ç%ç                 
 Extensible Markup Language
 XML  (Extensible Markup Language)
   i      8  @ñÿ  8     N o r m a l     
  CJ  _H  aJ  mH  sH  tH  N  @    N     T i t r e   1      
 ÿ
 [informations binaires]
 ÿ
 ÿÿÿÿ      À  F    Document Microsoft Word  MSWordDoc    Word.Document.8 ô9²q

Nous pouvons constater que le texte est illisible par l’homme, mais aussi par les autres logiciels de traitement de texte.
En effet, le format se soucie d'abord d'être fiable et performant, mais pas toujours de simplicité et d'interopérabilité.
L'exemple utilisé ici, à savoir le format d'enregistrement natif du traitement de texte Word n'est pas lisible par l'humain, le texte est difficile à extraire et le lien avec sa structuration (gras, italique…) est difficile à reconstruire. Théoriquement, seul le logiciel qui le produit est capable de le lire.

Voici maintenant un exemple de langage XML 
<?xml version="1.0" encoding="UTF-8"?>
  <!-- Commentaire -->
  <ex:collection
    xml:lang="fr"
    xmlns:ex="http://exemple.org">
    <élément>Texte</élément>
    <dc:title>Astérix le Gaulois</dc:title>
    <ex:livre attribut="valeur" type="BD">
      <dc:title>Astérix chez les Belges</dc:title>
      <dc:creator>René Goscinny</dc:creator>
      <dc:creator>Albert Uderzo</dc:creator>
      <dc:description>
        <b>Astérix chez les Belges</b> est un album de
        <a href="http://fr.wikipedia.org/wiki/Bande_dessinée">bande dessinée</a>
        de la série Astérix le Gaulois créée par René Goscinny et Albert Uderzo.
        Cet album publié en 1979 est le dernier de la série écrit par René Goscinny.
      </dc:description>
    </ex:livre>
  </ex:collection>

On peut remarquer que ce langage est plus structuré ; les balises définissant les termes sont claires et explicites.
Penchons-nous alors sur le format XML ; nous allons voir pourquoi c’est un format apte à l’export de notices bibliographiques, pour mieux comprendre son mécanisme (et donc celui du BiblioML)


Le format XML

Le XML (Extensible Markup Language, « langage de balisage extensible ») est un langage informatique de balisage générique.
Il est issu du SGML, qui est un langage de balisage, employé dans les industries de la documentation et de l'édition.
L'objectif initial est de faciliter l'échange automatisé de contenus complexes (arbres, texte riche…) entre systèmes d'informations hétérogènes (l'interopérabilité). Un document XML est entièrement transformable dans un autre document XML, et sa structure est définie et validable par un schéma, appellé feuille de style.
Le HTML était très rigide et le besoin se ressentait d'apporter de nouvelles possibilités, à cause du nombre de balises limité et de l’impossibilité d’adapter les balises au contenu, celles-ci étant déjà définies. Après l'échec de l'XHTML, le World Wide Web Consortium (W3C, consortium chargé d'établir des normes sur internet) inventa le XML, plus souple et permettant à l’utilisateur de fabriquer ses propres balises, étendant ainsi les possibilités.



Le format BiblioML

Un autre problème de l'UNIMARC est la limitation de la hiérarchie des éléments à deux niveaux, en champs et sous-champs. Il y a donc une rigidité et une limitation des champs fixes, ce qui rappelle les défauts du HTML. Le BiblioML est une DTD (Document Type Definition), c'est-à-dire un document permettant de décrire un modèle de document XML (donc par des metadonnées). Le XML fonctionne avec des balises libres, et le DTD permet d'expliciter ces balises pour les partager/exporter.
Le BiblioML est adapté à internet par son format issu du XML et dans certaines balises, il existe la possibilité d’introduire un lien hypertexte externe. Ses modèles de caractères sont également basés sur Unicode, qui est un codage universel : toutes les écritures sont représentables sans ambigüité, à la différence d'UNIMARC qui utilise un langage de norme ISO (2022) difficile à exporter.
A la différence du format MARC, le BiblioML n’est pas limité donc extensible au possible, la taille des documents ou des zones est infini (exemple : description détaillée du contenu, table des matières, index, données locales).

Quel avenir pour ce format ?

Etudions maintenant la postérité de ce format. Il n’y a eu que peu d’utilisations du BiblioML et elles sont pour une partie au point mort ou abandonnées. Ce format est utilisé par la Bibliographie nationale française qui utilise en interne une application java afin de convertir les notices du dépôt légal de l'Unimarc au format BiblioML pour générer les pages statiques en html. Le CIFEG (Centre International pour la Formation et les Echanges en Géosciences) utilise ce format pour certains de ses programmes. Enfin il est aussi utilisé pour les dossiers d'artistes regroupant les adresses, oeuvres, biographies, etc. du Centre de Documentation l'Institut d'Art Contemporain. A l’international, l'université de l'Arizona utilise aussi ce format.


CONCLUSION

Ce format, né de l’enjeu de l'interopérabilité et de l'exportation des données dans le but de faire travailler les structures plus efficacement en réseau et puissent partager les notices. Cependant, on peut remarquer que la mise en place de ce format s’est finalement soldée par un échec. En effet, le format Biblio ML est rentré directement en concurrence avec le MARC 21 et n’a pas pu tenir la distance. Il est très peu utilisé est n'est plus d'actualité. Il devient peu à peu obsolète, à tel point qu’il nous a été difficile de trouver beaucoup de sources récentes à son sujet. La plupart datent du début des années 2000, quand elles n'ont pas tout simplement été supprimées, à l'instar du site officiel du BiblioML (http://www.biblioml.org/) et d'autres (notamment des projets liés au BiblioML, comme http://www.biblioml.org/bibx/)


Quelques dates…
1965 : création du format MARC
 1986 : Création du SGML
 1989 – 1992 : Création du HTML
 1995 : début des travaux sur le XML
 1998 : le langage XML devient une recommandation W3C
 1999 : Création du BiblioML
 Juillet 2001 : Utilisation de BiblioML par la Bibliographie nationale française

Sources ;
Wikipédia

DTD - EAD


Historique :

La DTD est un standard qui définit l'ensemble des règles et des propriétés que doit suivre un document édité au format XML ou SGML, tout document de ces formats ont besoin d’une DTD pour être crées et gérés. La DTD permet de déterminer et de hiérarchiser les balises d’encodage du texte contenu dans le document. Ainsi, tout utilisateur doit préalablement définir une DTD avant de concevoir un document XML ou SGML. Pour être valide, le document considéré devra respecter les règles spécifiques définies par la DTD. Fort heureusement dans ce domaine, les DTD sont prédéfinies, elles ont été élaborées au regard des standards internationaux de description archivistique. Il s’agit de l’EAD (Description archivistique encodée - Encoded Archival Description) qui intègre les standards de l’ISAD-G et de l’EAC (CPF)(Contexte archivistique encodé (Collectivités, personnes et familles) - Encoded Archival Context Corporates bodies, Persons and Families)) qui intègre les standards de l’ISAAR (CPF) et de l’ICA-ISDF.
Le développement et le suivi de ces DTD sont assurés conjointement par la Bibliothèque du Congrès et la Société des archivistes américains (SAA).


L'EAD (Encoding Archive Description ou en français Description Archivistique Encodée) est un format.  L'EAD a été créé en 1993 à l'initiative de la bibliothèque de l'Université Berkeley qui se situe en Californie. Ils se sont inspirés du modèle de la Text Encoding Initiative qui est un format XML. Ainsi, l'EAD est basé sur ce langage. La structure proposée est relativement souple et peut s'adapter à différents types d'instruments de recherche, tels des répertoires, inventaires, états des fonds, voire même des catalogues. L'EAD est utilisé en particulier par les services d’archives, bibliothèques et musées pour décrire des fonds d'archives, des collections de manuscrits et des collections hiérarchisées de documents ou d’objets (photographies, microfilms, pièces de musée).
L’objectif principal était de créer un standard d’encodage des descriptions de documents d'archives qui puisse être interprété par un ordinateur mais d’une part, avec des notices beaucoup plus riches que celles traditionnellement utilisée au format MARC (Machine Readable Cataloging) et d’autre part, avec de meilleures capacité d’interrogation et de recherche.

Les autres objectifs étaient alors :
                    de développer un modèle permettant de traiter les instruments de recherche existants, dans leur diversité de forme et de structure.
                    de restituer l'organisation hiérarchisée des instruments de recherche (reflet de la structure des fonds décrits) et les relations entre les composants
                    de conserver le principe d'héritage des informations entre les niveaux (sauf mention contraire, une information relative à un niveau supérieur s'applique également aux niveaux qui lui sont subordonnés).

En janvier 1996 la Bibliothèque du Congrès s'est engagée à assurer la maintenance informatique et la diffusion de l’information sur la DTD. Développée initialement en SGML, la DTD EAD a été rendue conforme à l’XML afin de permettre une meilleure diffusion sur le web. La version EAD 1.0 a été publiée à la fin d’août 1998 et une seconde version, EAD 2002, en décembre 2002 qui intègre la norme ISAD-G (International Standard Archival Description-General). Cette version n'est pas très différente de la première, mais elle apporte quelques simplifications qui la rendent intéressante. 

Elle est depuis quelques années fréquemment utilisée en France, aux Archives nationales ou dans certains services d'archives départementaux. L'EAD est également et de plus en plus utilisé pour produire les instruments de recherche en XML.
Comme l'EAD est basé sur le langage XML, elle est en phase avec les développements informatiques actuels.
Le document XML construit selon le modèle EAD comprend :
       des éléments d'identification et d'informations relatifs à l'instrument de recherche lui-même : contexte de création de l'instrument de recherche, mentions de responsabilité intellectuelle,  informations administratives, techniques et de gestion ;
       des éléments d'identification et de description du fonds ou de la collection : identifiant, localisation, producteur et contexte de production, caractéristiques matérielles, contenu et organisation, modalités d'accès ;
       des éléments de description de chacun des composants et sous-composants ;
       des éléments d'informations complémentaires : documents en relation, références bibliographiques ;
       des éléments d'indexation.

Chaque terme a un code correspondant appelé « élément » et ces éléments  sont contenus dans des balises (il y en  a 146). Il existe un dictionnaire de 266 pages des balises ou « tag library » qui recense tous les termes et les langages associés. Par exemple :
                    <chronitem> Élément d'une frise chronologique </chronitem>
                    <date> Date </date>

Par exemple :

<date type="inclusive">1937-1992</date>

Ici le type= est un attribut. Des attributs sont associés à la plupart des éléments contenus dans l'EAD. Chaque attribut a un nom qui correspond à une propriété d'un élément. Il a une valeur, selon le contexte dans lequel il apparaît. Afin d’attacher à un élément un ou plusieurs attributs, on doit inclure le nom de chaque attribut à l’intérieur de la balise ouvrante, avec la valeur qu’il doit prendre. Certains attributs sont obligatoires, les autres sont donc facultatifs. Dans le dictionnaire, pour chaque élément, nous avons les attributs qui peuvent y être associés.

Ainsi, "inclusive" est la valeur de l'attribut. Et 1937-1992 est la valeur de la balise <date>.

L’EAD : pour qui et pour quoi faire ?


Ce format est utilisé en particulier par les services d’archives ainsi que par les bibliothèques et certains musées afin de pouvoir décrire des fonds d’archives, des collections de manuscrits ou encore des collections hiérarchisées de documents ou bien d’objets tels que des photographies, des microfilms, des pièces de musées…
L’EAD a souvent été utilisé par les BM ainsi que par les BU avec Calames (le catalogue des archives et des manuscrits des BU françaises et des établissements internationaux). Ce catalogue est vivant et continue de s’enrichir de jour en jour.
Le format EAD a été rendu conforme à l’XML, par conséquent, il permet une meilleure diffusion sur le web. On trouve d’abord l’EAD 1.0 en 1998 et en 2002, l’EAD 2002, beaucoup plus performant.
Il faut noter que la création de ce format résulte d’un grand besoin d’informatisation des inventaires détaillés d’archives et de catalogues de manuscrits, au-delà de la notice descriptive du fonds ou de la collection qui était permise avec le format MARC.
L’EAD permet d’utiliser une profondeur de 12 niveaux hiérarchiques pour la description des fonds et propose donc une interrogation très fine des sources, localement et à distance. Il faut également souligner la dimension collective puisque l’EAD permet d’envisager la mise au point de bases de données collectives. Ce standard permet le traitement rétrospectif des documents et s’étend aujourd’hui au niveau international.
Le domaine des archives est apparu particulièrement actif dans le cadre de l’expérimentation de l’EAD pour la recherche des fonds patrimoniaux car les archives, contrairement aux bibliothèques médiathèques, ne disposaient pas souvent de catalogues informatisés.

Des normes archivistiques à respecter


L’EAD est conçu pour être utilisé avec deux normes essentielles en archivistique :
-                     L’ISAD(G) (norme générale et internationale de description archivistique) : décrit les documents grâce à des liens hiérarchiques pour que l’information ne soit pas redondante mais efficace.
-                     L’ISAAR (norme internationale sur les notices d’autorité archivistiques relatives aux collectivités, personnes et familles) : donne une présentation esthétique des notices d’autorité concernant les personnes.
L’EAD définit en tout 146 éléments mais seulement 2 éléments sont obligatoires afin d’arriver à l’obtention d’un document XML valide.

Quels sont les avantages du format ?


Les avantages de ce format sont :
-                     Le respect des fonds et la richesse de l’information : la hiérarchie permet de passer de l’information générale à la plus particulière : l’information est donc appropriée à chaque niveau et mise en évidence)
-                     La pérennité et l’interopérabilité : il y a une certaine souplesse car les règles d’utilisation sont peu contraignantes. De plus, la diffusion sur le net s’effectue très facilement.
-                     Les deux normes ISADG et ISAAR permettent de donner une forme identique à tous les contenus ce qui facilite la communication des informations entre plusieurs utilisateurs. Les contenus sont ainsi échangés, diffusés dans un délai rapide et un document XML est lu universellement.
-                     La fonction multimédia : des liens hypertextes peuvent être structurés et on peut inclure des sons, images…ce qui est un véritable atout pour les bases de données en ligne.

Conclusion


En guise de conclusion, nous pouvons dire que ce choix de format semble approprié aux collectivités et très pertinent pour les services d’archives et bibliothèques à caractère patrimonial.
Un Guide des bonnes pratiques de l’EAD en bibliothèque a même vu le jour grâce au Ministère de l’enseignement supérieur et de la recherche. Ce groupe est composé de professionnels des bibliothèques et donne des recommandations sur l’utilisation du format. Des précisions sur la mise à jour des catalogues collectifs sont également apportées.
Cependant, on cherche toujours à améliorer ce format afin de le rendre encore plus efficace. En effet, depuis août 2010, un groupe international travaille à une révision de l’EAD et ils espèrent publier une nouvelle version pour août 2013.




Sources :
http://www.archivistes-experts.fr/reglementation_pratique_archives.pdf