La stratégie de préservation de la BnF face au PSD
Par Alix Bruys, Bertrand Caron, Yannick Grandcolas, Thomas Ledoux, & Anne Paounov. Journée mondiale de la préservation numérique 2021.
[Note : This blog is a French version of “If we want things to stay as they are, things will have to change” ]
Dans les épisodes précédents…
Ce billet de blog décrit la poursuite des travaux menés dans le cadre du groupe Formats de données et de métadonnées pour la préservation numérique de la BnF, décrits dans un précédent billet publié le 5 novembre 2020 et dans le webinaire de l’OPF présenté le 14 avril 2021. Dans les épisodes précédents, le groupe avait publié la politique de la BnF vis-à-vis des formats de données pour la préservation : comment elle les évaluait, comment elle analysait les fichiers, quels formats elle préférait, ce qu’elle en connaissait – et, en creux, ce qu’elle en ignorait.
Dans le document de politique formats de la BnF, on mentionne également les stratégies adoptées par la BnF lorsque les données arrivent dans un format autre que celui qu’elle préfère. Idéalement, la politique de l’établissement consiste à engager le dialogue avec le producteur afin de s’accorder sur un format maîtrisé par les deux parties.
Néanmoins, il arrive dans certains cas que la négociation ne soit pas possible, en raison de la charge de travail que cela peut engendrer pour le producteur, ou parce que ce dernier n’est pas disponible. Il est alors nécessaire pour la BnF d’envisager une transformation des données. Les premières instructions menées en ce sens avaient amené la BnF à la conclusion que la stratégie à adopter dépendait de nombreux critères, et que la décision de transformer ou non les données devait être prise au cas par cas. Un cas d’école s’est alors présenté sous la forme de fichiers PSD fournis, dans un intervalle de temps réduit, dans trois fonds distincts.
Notons que dans cet article, on utilise les termes “transformer” / “transformation”, au détriment de leurs équivalents “convertir” / “conversion” et “migrer” / “migration”, dans leur sens défini par l’OAIS (1) : la modification de l’Information de contenu dans un but de préservation, avec l’objectif que le résultat puisse remplacer l’original.
Le contexte métier : les trois fonds
Dans le courant de l’année 2020, trois responsables de collections, répartis dans différents services de la BnF, travaillent simultanément sur trois fonds ayant récemment rejoint les collections patrimoniales de la bibliothèque. Traités dans le cadre de la filière « acquisitions et dons de documents numériques », au même titre que l’ensemble des fonds numériques reçus en don ou en acquisition par la BnF, ces trois fonds ont en commun le fait de comporter des images numériques, destinées à être consultées dans la bibliothèque numérique Gallica. Voici un aperçu des principales caractéristiques de ces fonds, telles qu’on les connaissait avant de détecter la présence des fichiers PSD.
Les archives du cinéaste Amos Gitaï, dites « fonds Gitaï »
Reçu en don par le département des Arts du spectacle, ce fonds est composé de plus de 150 000 fichiers produits dans le cadre de la création du film Le dernier jour d’Yitzhak Rabin ; outre les contenus son et vidéo, il comprend près de 2 000 photographies de repérage des lieux de tournage et du tournage lui-même ; prises en 2015 par trois photographes différents, ces photos se présentent majoritairement au format JPEG.
Les affiches du graphiste Philippe Apeloig, dites « fonds Apeloig »
Reçu en don par le département des Estampes et de la photographie, ce fonds porte sur la création d’affiches pour la Fête du livre d’Aix-en-Provence entre 1997 et 2015, par Philippe Apeloig. En plus des affiches et des esquisses imprimées, il comporte près de 300 esquisses numériques, principalement aux formats PDF, TIFF et JPEG ; on identifie également les fichiers source de l’affiche finale imprimée, aux formats TIFF ou PDF.
Les photographies de Michèle Laurent, dites « fonds Laurent »
Acquis en 2008 par le département des Arts du spectacle, ce fonds mixte (numérique et papier) comporte quelques centaines de fichiers représentant les spectacles de l’acteur Philippe Caubère, essentiellement au format TIFF.
La présence de fichiers PSD, très minoritaires dans les trois fonds, parfois même « cachés » derrière une extension .tif, a été révélée par un outil développé en interne appelé Frontin. Mis à la disposition des responsables de collections qui trient des fonds numériques, cet outil identifie et caractérise le format des fichiers analysés et émet un premier diagnostic sur l’acceptation des fichiers lors du versement.
Figure 1. Résultat d’analyse d’un lot de fichiers par l’outil Frontin
A partir de là, trois options ont rapidement été éliminées :
- demander une relivraison dans un format accepté par la BnF (cette option s’est révélée impossible) ;
- exclure les fichiers (cela n’avait pas de sens pour ces fonds destinés à la recherche) ;
- accepter les fichiers tels quels (ils n’étaient pas compatibles avec la politique de la BnF en matière de formats).
En définitive, la BnF se voyait contrainte de réaliser la transformation elle-même.
L’instruction
L’instruction, qui a réuni les experts de préservation et les responsables de collection des départements concernés par les fonds, a commencé par un rappel de la nature, des particularités et des usages du logiciel propriétaire Adobe Photoshop. Il s’agit en effet d’un outil de création mais aussi de retouche de photographies. Il n’est en revanche pas conçu pour la création d’affiches, bien qu’il ait pu être utilisé dans ce but de manière détournée. L’outil permet d’enregistrer dans un format qui lui est propre (PSD) un projet d’édition d’images comprenant généralement plusieurs « calques », c’est-à-dire plusieurs couches d’images, matricielles ou vectorielles, et/ou de textes, pouvant être transparentes, dont la superposition ordonnée compose une image. Il est ainsi possible de modifier séparément chacun des calques. Le format PSD, dans les versions récentes de Photoshop, peut également conserver la trace des modifications successives les plus récentes.
Figure 2. Document Photoshop multi-calques (fonds Apeloig)
Recevoir un fichier PSD, format de production et non de diffusion, peut donc être une chance si l’on s’intéresse à la genèse de l’image. Par ailleurs, puisque le format peut conserver des couches de texte et d’images vectorielles, les éléments de ce type peuvent être imprimés en grand format sans dégradation de qualité. Toutes ces informations sont perdues lorsque l’on produit une version finale dans un format d’image matricielle (JFIF/JPEG, TIFF, PNG, etc.). Dans le cas où l’on produit une sortie en PDF, ce dernier format conserve séparément les couches transparentes, textuelles et vectorielles, mais non les traces du processus de création contenues dans le fichier PSD.
Figure 3. Document Photoshop comprenant des éléments textuels (fonds Apeloig)
Dans le processus de définition d’une stratégie de préservation, nos experts tentent généralement de trouver un format cible préféré pour le type de contenu donné, ainsi qu’une méthode pour le produire, qui permette de capturer l’ensemble des informations et fonctionnalités de l’original. Ce travail a été commencé pour les images issues de la numérisation et pour les photographies numériques. Or les contenus en PSD réceptionnés étaient fondamentalement différents, parce qu’il s’agissait de créations graphiques originales (fonds Apeloig) et/ou parce qu’ils étaient dans un état de production intermédiaire, où l’intention du créateur peut encore évoluer vers des réalisations finales très différentes (fonds Apeloig et fonds Gitaï). Entre un fichier PSD et un fichier TIFF, un regard profane ne voit que des extensions distinctes. L’examen des fichiers PSD a été l’occasion d’apprendre, collectivement, à adopter une position plus avisée : il y a potentiellement autant de différences entre ces fichiers qu’entre un croquis au fusain et une huile sur toile.
Un exemple ? L’opération de fusion des différents calques présents dans un fichier PSD, incontournable pour produire une version dans un format d’image matricielle final, n’est pas si anodine qu’il y paraît. Ainsi, un des fichiers du fonds Gitaï présentait une couche alpha (transparente) utilisée, assez étrangement, pour recadrer l’image d’origine, mais cet élément était désactivé (2). Un export direct dans ce cas n’aurait pas pris en compte le recadrage. Quel élément faut-il alors privilégier pour réaliser l’export ? La présence d’une couche visant à recadrer l’image ou le fait que cette dernière n’est pas activée dans le fichier reçu ?
Figure 4. Document Photoshop comprenant une couche transparente (fonds Gitaï)
Cette incertitude quant au rendu final que le créateur aurait souhaité conduit la plupart des institutions patrimoniales à privilégier la collecte de contenus figés dans leur état définitif et dans un format de diffusion (3) voire, comme la Bibliothèque du Congrès, sans calques (unlayered).
Malgré une connaissance et une compétence encore en cours d’élaboration, un choix devait être fait. Après de longues et passionnantes considérations sur la richesse de l’information contenue dans le format PSD et les difficultés de trouver un format et une méthode capables de capturer toute l’information présente dans l’original, la parole a été donnée aux responsables de collection.
- Les responsables de collection chargés du fonds Apeloig, souhaitaient permettre à leurs chercheurs d’explorer les traces du processus de création (calques, métadonnées internes, historique de modification). La capacité à imprimer l’image à sa taille d’origine était jugée importante seulement pour le fichier destiné à produire l’affiche finale, et non pour les esquisses. Le PDF a donc d’abord été envisagé comme format cible, par souci d’homogénéité car il était le format le plus représenté dans le fonds, et le plus adapté aux affiches dans une version imprimable. Mais une exigence supplémentaire de la responsable de collection emporta la décision : la mise en ligne devait être rapide, donc utiliser les mécanismes de diffusion déjà existants, et la navigation, via Gallica, la bibliothèque numérique de la BnF, entre les différentes esquisses regroupées par paquet, devait rester facile et efficace. C’est donc le format JFIF/JPEG qui a été choisi.
Figure 5. Un lot d’images (fonds Apeloig) visualisé dans Gallica
- En revanche, pour les documents du fonds Gitaï, les photographies numériques étaient elles-mêmes un témoignage du processus créatif du film ; conserver les traces de leur production était secondaire. Nos responsables de collections auraient préféré une version dans un format final de diffusion. En outre, le nommage des fichiers PSD suggérait que leur source était un fichier JFIF qui avait été retouché. Le format JFIF/JPEG, là aussi, a donc été choisi.
- Quant aux images du fonds Michèle Laurent, dans la mesure où elles étaient issues d’une numérisation et ne présentaient aucun historique de production exploitable, leur intérêt ne dépassait pas le flux image de l’unique calque contenu dans le fichier. La transformation vers le format TIFF, majoritaire dans ce fonds, s’imposait.
- Dans tous les cas, le caractère irréversible de la transformation et la certitude de la perte d’information, qu’on puisse la mesurer ou non, ont déterminé la BnF à conserver le fichier original dans le même Paquet d’informations.
À défaut d’une stratégie de préservation permettant de retrouver dans le fichier cible toute la richesse du fichier source, dans un format qui satisfasse nos exigences (ouvert, compact, stable, répandu, etc.), on a donc préféré chercher une politique de compromis. Il s’agissait de concilier un format cible accepté par la BnF, un résultat qui puisse rendre compte de l’intention du producteur et une méthode applicable de manière cohérente et homogène sur les autres fichiers du fonds. Ce compromis impliquait d’accepter la perte d’information consécutive à la transformation, ce qui était d’autant moins difficile que l’on conservait le fichier original au cas où une meilleure méthode de transformation se présenterait à l’avenir.
Ainsi, les préoccupations des experts — tout à fait légitimes au demeurant — pour trouver un format cible maîtrisé par la BnF qui permettrait de capturer l’intégralité des informations contenues dans le PSD ont été utilement restreintes par l’intervention des responsables de collection à ce qui était réellement pertinent pour le métier, montrant ainsi combien le rôle du responsable de collection est fondamental. Quand bien même ce dernier serait totalement dépourvu d’expertise technique, il/elle est toujours en mesure d’exprimer son intention de préservation.
La réalisation et le contrôle
Pour assurer le minimum de dérive et compte tenu de la faible volumétrie à traiter, les transformations ont été réalisées manuellement par une experte de l’imagerie à l’aide de l’outil propriétaire à l’origine du format : Photoshop, de préférence à un outil « étranger » dont la vocation n’est pas la gestion du format .psd. La BnF n’étant pas en mesure de maintenir chaque version du logiciel, la version utilisée pour les traitements diffère de celle ayant servi aux artistes pour créer leurs fichiers. Les experts sont en effet partis du principe qu’il était moins risqué de convertir un .psd via une version de Photoshop plus récente que celle d’origine. La version utilisée a été Photoshop 21.1.0.
L’intervention de l’experte a garanti que le paramétrage et la manipulation du logiciel étaient réalisés dans les meilleures conditions avec les précautions d’usage.
Une fois la transformation réalisée, un premier contrôle technique a permis de s’assurer de l’absence de dérive chromatique et de la bonne représentativité de l’image cible. Puis les responsables de collection ont pu examiner visuellement les images et valider les nouveaux fichiers pour s’assurer de leur adéquation avec le versement.
Les Paquets d’informations ont ensuite été constitués en intégrant les deux versions (version originale et version de conservation) sachant que seules les versions transformées seront directement accessibles et visualisables par les utilisateurs. Plusieurs commentaires, sous forme d’événements PREMIS, ont également été ajoutés à l’historique de traitement des fichiers pour d’une part garder trace de ces transformations et d’autre part en informer l’utilisateur.
Figure 6. Événement PREMIS documentant la transformation
Conclusion
Ce cas concret de traitement d’un format propriétaire particulier pour lequel la BnF n’a pas jugé opportun d’investir sur le long terme est riche d’enseignements en matière de traitement de l’information numérique. Il apparaît clairement que la résolution satisfaisante du problème passe par une collaboration étroite et un dialogue approfondi entre d’une part les responsables de collection qui contextualisent le fonds et explicitent l’intention de préservation et d’autre part les experts de préservation qui fournissent des outils et des évaluations objectives tant des formats que des transformations.
Ce dialogue est largement redevable de la notion d’« intention de préservation » à Trevor Owens, qui le détaille ainsi dans son livre The Theory and Craft of Digital Preservation (4) :
« Une déclaration d’intention de préservation indique avec précision pourquoi le contenu a été collecté et quelles sont les caractéristiques de ce contenu qui doivent être prises en compte pour que le contenu puisse être utilisé dans le but pour lequel il a été collecté. »(5)
C’est par l’explicitation de cette intention de préservation que la perte d’informations induite par la transformation est acceptable et ceci d’autant plus facilement qu’elle ouvre la voie à une trajectoire de préservation et d’accès sur le long terme pour l’objet transformé.
L’exemple relaté dans cet article n’est que le premier pas d’un processus en cours de formalisation pour permettre de systématiser le traitement de cas similaires que nous aurons l’occasion de développer dans une future communication.
Pour finir, il nous paraît important d’insister sur trois points-clés :
- Les décisions de préservation doivent être prises et assumées par le métier ;
- Le rôle des experts est de seconder le métier, de l’instruire et de lui présenter les options les plus adaptées à son intention de préservation ;
- Même sans connaissance technique particulière, un responsable de collection est capable d’exprimer et de faire valoir son intention de préservation.
(1) La transformation est, selon l’OAIS, une « Migration numérique au cours de laquelle l’Information de contenu ou l’Information de pérennisation (PDI) d’un Paquet d’informations archivé (AIP) est modifiée. » [Modèle de référence pour un Système ouvert d’archivage d’information (OAIS). Traduction française (octobre 2017) de la version 2 (juin 2012), CCSDS 650.0-M-2 (F)].
(2) Les calques non activés ne sont pas affichés dans l’aperçu principal du logiciel et ne seront pas pris en compte dans l’impression ou l’opération de fusion des calques.
(3) Donc plutôt au format PDF que PSD, ou DOCX pour les contenus textuels, bien que le caractère figé et inaltérable du PDF soit tout relatif.
(4) Voir sur cette notion :
– Oh, you wanted us to preserve that?!, Colin Webb, David Pearson, Paul Koerbin, D-Lib Magazine, 2013. https://www.dlib.org/dlib/january13/webb/01webb.html
– Le chapitre 5 de The Theory and Craft of Digital Preservation, Trevor Owens, Baltimore : John Hopkins University Press, 2018.
(5) Ibid., p. 82.