Le BiblioML (Bibliographic Markup Language) est un format standardisé d’échange de notices bibliographiques créé en 1999 en France par le ministère de la culture. Son objectif initial était de mettre en place un outil commun à toutes les structures culturelles (musées, bibliothèques…) afin de faciliter le référencement bibliographique des applications XML. Ce format est standardisé et est basé sur le XML, ce qui permet de faciliter son exportation et son partage. Cet atout le différencie notamment du format UNIMARC, qui est la version FR du format MARC.
Utilisé par la BnF, c’est un format très complet (comprenant de nombreuses métadonnées bibliographiques), mais très lourd et donc difficilement exportable. C'est pourquoi il s'est ressenti le besoin de trouver un autre moyen d’exporter les notices. En effet, l'interopérabilité est devenue un enjeu déterminant de la qualité d'un format pour la recherche documentaire. Le BiblioML est donc une tentative de réponse à cette problématique.
Pour illustrer le problème posé par d'interopérabilité, voici un exemple : on peut voir ici l’exemple d’un format binaire utilisé par le logiciel Microsoft Word®
► ÐÏ à¡± á > þÿ ! # þÿÿÿ ÿÿ% ð ¿ a bjbj%ç%ç
Extensible Markup Language
XML (Extensible Markup Language)
i 8 @ñÿ 8 N o r m a l
CJ _H aJ mH sH tH N @ N T i t r e 1
ÿ
[informations binaires]
ÿ
ÿÿÿÿ À F Document Microsoft Word MSWordDoc Word.Document.8 ô9²q
Nous pouvons constater que le texte est illisible par l’homme, mais aussi par les autres logiciels de traitement de texte.
En effet, le format se soucie d'abord d'être fiable et performant, mais pas toujours de simplicité et d'interopérabilité.
L'exemple utilisé ici, à savoir le format d'enregistrement natif du traitement de texte Word n'est pas lisible par l'humain, le texte est difficile à extraire et le lien avec sa structuration (gras, italique…) est difficile à reconstruire. Théoriquement, seul le logiciel qui le produit est capable de le lire.
Voici maintenant un exemple de langage XML
<?xml version="1.0" encoding="UTF-8"?>
<!-- Commentaire -->
<ex:collection
xml:lang="fr"
xmlns:dc="http://purl.org/dc/ elements/1.1/"
xmlns="http://www.w3.org/1999/ xhtml"
xmlns:ex="http://exemple.org">
<élément>Texte</élément>
<dc:title>Astérix le Gaulois</dc:title>
<ex:livre attribut="valeur" type="BD">
<dc:title>Astérix chez les Belges</dc:title>
<dc:creator>René Goscinny</dc:creator>
<dc:creator>Albert Uderzo</dc:creator>
<dc:description>
<b>Astérix chez les Belges</b> est un album de
<a href="http://fr.wikipedia.org/ wiki/Bande_dessinée">bande dessinée</a>
de la série Astérix le Gaulois créée par René Goscinny et Albert Uderzo.
Cet album publié en 1979 est le dernier de la série écrit par René Goscinny.
</dc:description>
</ex:livre>
</ex:collection>
On peut remarquer que ce langage est plus structuré ; les balises définissant les termes sont claires et explicites.
Penchons-nous alors sur le format XML ; nous allons voir pourquoi c’est un format apte à l’export de notices bibliographiques, pour mieux comprendre son mécanisme (et donc celui du BiblioML)
Le format XML
Le XML (Extensible Markup Language, « langage de balisage extensible ») est un langage informatique de balisage générique.
Il est issu du SGML, qui est un langage de balisage, employé dans les industries de la documentation et de l'édition.
L'objectif initial est de faciliter l'échange automatisé de contenus complexes (arbres, texte riche…) entre systèmes d'informations hétérogènes (l'interopérabilité). Un document XML est entièrement transformable dans un autre document XML, et sa structure est définie et validable par un schéma, appellé feuille de style.
Le HTML était très rigide et le besoin se ressentait d'apporter de nouvelles possibilités, à cause du nombre de balises limité et de l’impossibilité d’adapter les balises au contenu, celles-ci étant déjà définies. Après l'échec de l'XHTML, le World Wide Web Consortium (W3C, consortium chargé d'établir des normes sur internet) inventa le XML, plus souple et permettant à l’utilisateur de fabriquer ses propres balises, étendant ainsi les possibilités.
Le format BiblioML
Un autre problème de l'UNIMARC est la limitation de la hiérarchie des éléments à deux niveaux, en champs et sous-champs. Il y a donc une rigidité et une limitation des champs fixes, ce qui rappelle les défauts du HTML. Le BiblioML est une DTD (Document Type Definition), c'est-à-dire un document permettant de décrire un modèle de document XML (donc par des metadonnées). Le XML fonctionne avec des balises libres, et le DTD permet d'expliciter ces balises pour les partager/exporter.
Le BiblioML est adapté à internet par son format issu du XML et dans certaines balises, il existe la possibilité d’introduire un lien hypertexte externe. Ses modèles de caractères sont également basés sur Unicode, qui est un codage universel : toutes les écritures sont représentables sans ambigüité, à la différence d'UNIMARC qui utilise un langage de norme ISO (2022) difficile à exporter.
A la différence du format MARC, le BiblioML n’est pas limité donc extensible au possible, la taille des documents ou des zones est infini (exemple : description détaillée du contenu, table des matières, index, données locales).
Quel avenir pour ce format ?
Etudions maintenant la postérité de ce format. Il n’y a eu que peu d’utilisations du BiblioML et elles sont pour une partie au point mort ou abandonnées. Ce format est utilisé par la Bibliographie nationale française qui utilise en interne une application java afin de convertir les notices du dépôt légal de l'Unimarc au format BiblioML pour générer les pages statiques en html. Le CIFEG (Centre International pour la Formation et les Echanges en Géosciences) utilise ce format pour certains de ses programmes. Enfin il est aussi utilisé pour les dossiers d'artistes regroupant les adresses, oeuvres, biographies, etc. du Centre de Documentation l'Institut d'Art Contemporain. A l’international, l'université de l'Arizona utilise aussi ce format.
CONCLUSION
Ce format, né de l’enjeu de l'interopérabilité et de l'exportation des données dans le but de faire travailler les structures plus efficacement en réseau et puissent partager les notices. Cependant, on peut remarquer que la mise en place de ce format s’est finalement soldée par un échec. En effet, le format Biblio ML est rentré directement en concurrence avec le MARC 21 et n’a pas pu tenir la distance. Il est très peu utilisé est n'est plus d'actualité. Il devient peu à peu obsolète, à tel point qu’il nous a été difficile de trouver beaucoup de sources récentes à son sujet. La plupart datent du début des années 2000, quand elles n'ont pas tout simplement été supprimées, à l'instar du site officiel du BiblioML (http://www.biblioml.org/) et d'autres (notamment des projets liés au BiblioML, comme http://www.biblioml.org/bibx/)
Quelques dates…
1965 : création du format MARC
1986 : Création du SGML
1989 – 1992 : Création du HTML
1995 : début des travaux sur le XML
1998 : le langage XML devient une recommandation W3C
1999 : Création du BiblioML
Juillet 2001 : Utilisation de BiblioML par la Bibliographie nationale française
Sources ;
Wikipédia