Lignes directrices sur les formats de fichier à utiliser pour transférer des ressources documentaires
Sur cette page
1. Entrée en vigueur
Les présentes lignes directrices ont été approuvées par le directeur général principal de la Direction générale de l’innovation et du Dirigeant principal de l'information. Elles entrent en vigueur le 1er octobre 2014.
2. Application
Les présentes lignes directrices donnent des conseils sur les formats de fichier des ressources documentaires à valeur continue (RDVC) transférées à Bibliothèque et Archives Canada (BAC).
Elles s’appliquent à toute personne ou organisation transférant des RDVC numériques à BAC (ci après le « donateur »).
Elles remplacent le document intitulé : Registre local de formats numériques – Lignes directrices concernant les formats de fichier pour la préservation et l’accès à long terme, version 1.0 (2010).
3. Définitions
Voir l’annexe A.
4. Contexte
Les présentes lignes directrices font partie du Cadre de politique d’intendance de BAC (2013) et de la Politique de gestion des collections (en cours d’élaboration) qui l’accompagne. Ces documents mentionnent que les RDVC acquises et gérées par BAC doivent être accessibles au fil du temps et qu’il faut tenir compte des besoins relatifs à l’intendance et des ressources disponibles. La durabilité des RDVC est donc prise en considération dans le cadre de toutes les activités d’acquisition, d’intendance et de réévaluation.
Sous le régime du paragraphe 8(2) et de l’article 10 de la Loi sur la Bibliothèque et les Archives du Canada et des paragraphes 2(a) et (b) du Règlement sur le dépôt légal de publications, les présentes lignes directrices décrivent les formats de fichier appropriés pour soumettre à BAC les publications numériques visées par le dépôt légal. Bien que le paragraphe 10(4) de la Loi sur la Bibliothèque et les Archives du Canada autorise BAC à recueillir toutes les versions ou les formes d’un titre publié, l’institution préfère actuellement acquérir les publications dans les formats de fichier numériques qui sont définis dans les présentes lignes directrices.
Sur la base des articles 7, 12 et 13 de la Loi sur la Bibliothèque et les Archives du Canada, les présentes lignes directrices donnent un aperçu des formats de fichier permettant de soutenir toute entente conclue entre BAC et les institutions fédérales au sujet du transfert des RDVC numériques. Si un transfert de documents est régi par un accord existant prévoyant l’utilisation d’un format de fichier numérique qui n’est pas mentionné dans les présentes lignes directrices, l’institution fédérale doit consulter BAC avant de préparer le transfert.
Les présentes lignes directrices s’appliqueront aussi à d’autres accords d’acquisition dans lesquels les représentants de BAC précisent les formats de fichier des RDVC à transférer.
5. Objectif
Pour assurer la durabilité, les présentes lignes directrices autorisent uniquement la soumission des formats de fichier que BAC croit pouvoir préserver et rendre accessibles à long terme.
6. Expected Results
Le respect des présentes lignes directrices aidera BAC à :
- collaborer avec les donateurs pour gérer et préserver les RDVC à long terme;
- acquérir seulement les formats de fichier numériques durables;
- transférer les RDVC numériques d’une manière cohérente,transparente et fiable qui favorise la responsabilisation globale;
- se conformer aux pratiques exemplaires internationales en matière de préservation numérique.
7. Approche
Les formats de fichier sont des structures particulières qui organisent et définissent les données. Certains d’entre eux contiennent un seul train de données non compressées, d’autres peuvent contenir des codecs qui codent et compressent les données, et d’autres peuvent prendre en charge plusieurs sortes de médias.
En plus des formats de fichier, il y a les formats contenants, ou formats d’encapsulation. Ceux ci peuvent contenir et prendre en charge différents types ou couches de données et de métadonnées. Chacun de ces formats peut être traité par différents programmes, processus ou matériel, mais pour que le train de données soit interprété adéquatement, les renseignements doivent être encapsulés.
Notre capacité à utiliser l’information est en danger si le matériel et les logiciels nécessaires pour consulter l’information ne sont plus disponibles ou si les spécifications du format ne sont pas accessibles. Il est donc essentiel d’utiliser des formats de fichier appropriés pour assurer la préservation à long terme. Un ensemble d’enjeux techniques et pratiques font en sorte que certains formats de fichier conviennent mieux que d’autres pour la préservation.
Les présentes lignes directrices font des recommandations fondées sur l’expérience de BAC dans le domaine de la collecte et de la préservation du contenu numérique et sur les pratiques exemplaires reconnues à l’échelle internationale1. En élaborant les présentes lignes directrices, BAC a tenté d’atteindre un équilibre entre les exigences liées à la qualité, à la stabilité, à la longévité possible et à l’acceptation de l’industrie. Dans la mesure du possible, la préférence a été accordée aux normes internationales et nationales non exclusives ou, si aucune norme non exclusive n’est accessible, aux formats respectant la norme de fait de l’industrie. Ce type de format est largement utilisé et reconnu et il est devenu le standard de l’industrie, non pas parce qu’il a été approuvé officiellement par des organismes de normalisation, mais bien en raison de son utilisation et de son acceptation universelles. BAC s’est aussi réservé le droit de choisir des formats qui, à son avis, seront bientôt largement adoptés.
La durabilité de chaque format a été évaluée en fonction des critères suivants :
-
Ouverture et transparence
- La facilité relative de la familiarisation avec le format de fichier et son information technique.
-
Adoption en tant que norme de préservation
- La mesure dans laquelle l’adoption officielle du format s’est répandue à l’échelle internationale au sein des bibliothèques et des archives nationales et des autres institutions de mémoire.
-
Durabilité et compatibilité
- Le niveau de rétrocompatibilité et de postcompatibilité.
- Le niveau de protection contre la corruption des fichiers.
- La fréquence relative de parution des versions plus récentes ou des versions de remplacement au fil du temps.
-
Dépendances et interopérabilité
- La mesure dans laquelle le format a fait l’objet d’un processus rigoureux et officiel de normalisation.
8. Champ d’application
Les présentes lignes directrices définissent de grandes catégories de contenu s’appliquant à toutes les RDVC numériques acquises par BAC et formulent des recommandations sur le transfert des formats de fichier dans chaque catégorie. Les formats de fichier visés par le présent document sont divisés dans les catégories2 et les sous catégories suivantes :
- Texte
- Présentations
- Courriel
-
Images fixes
- Photos numériques
- Texte numérisé
- Audio numérique
-
Images en mouvement numériques
- Cinéma numérique
- Vidéo numérique
- Données géospatiales
- Conception assistée par ordinateur
- Ensembles de données
Les formats de fichier pour le transfert entrent dans une des catégories suivantes :
- Favorisé pour le transfert
- Acceptable pour le transfert
Les formats favorisés sont faciles à utiliser. Aux yeux de BAC, ils sont très viables à long terme. Les efforts de gestion immédiats qui sont nécessaires pour obtenir un niveau de préservation satisfaisant sont négligeables ou inexistants.
Les formats acceptables répondent aux critères minimaux de BAC en matière de durabilité. Ils peuvent obliger BAC à prendre des mesures de préservation au moment de l’acquisition afin d’assurer la viabilité à long terme.
Les autres formats sont inacceptables, car ils ne respectent pas les critères minimaux de BAC et, à ce titre, ils ne sont pas considérés comme durables.
BAC n’accepte généralement que les formats de fichier mentionnés dans les présentes lignes directrices. Le donateur doit veiller à ce que les RDVC soient enregistrées dans un format de fichier favorisé ou acceptable. BAC se réserve le droit de refuser tout fichier ne faisant pas partie des formats favorisés ou acceptables et de demander la migration des fichiers vers un de ces formats. Des exemptions ponctuelles peuvent être accordées après une consultation avec les représentants de BAC travaillant dans le secteur fonctionnel responsable de l’acquisition.
Les présentes lignes directrices n’abordent pas les normes de création, de migration et de saisie. Les Normes de numérisation de BAC (en cours d’élaboration) fournissent de l’information sur la production de RDVC numériques.
Les présentes lignes directrices ne traitent pas de la génération de métadonnées dans le cadre du processus de création des documents. Pour en savoir plus à ce sujet, voir les Normes sur les métadonnées de BAC (en cours d’élaboration).
Les présentes lignes directrices n’expliquent pas comment transférer physiquement ou électroniquement les RDVC. Vous pouvez discuter de la logistique des transferts avec le représentant de BAC responsable.3
9. Exigences du transfert
Pour transférer des RDVC numériques, découvrez quelle catégorie de contenu s’applique, puis soumettez les documents dans un format favorisé ou acceptable. Les formats sont classés par nom et comprennent une référence aux spécifications pertinentes qui définissent les méthodes d’encodage appropriées. Dans chaque section, le classement des formats suit un ordre alphabétique; il ne manifeste nullement une préférence pour l’un ou l’autre format. Cependant, BAC préfère toujours les formats favorisés aux formats acceptables.
Au besoin, les tableaux des catégories de format comprennent une colonne précisant le codec à utiliser avec chacun des formats. Les donateurs doivent soumettre des fichiers conformes au format et au codec énumérés.
Le donateur doit parfois prendre des mesures supplémentaires pour veiller à ce que les fichiers puissent être préservés à long terme :
- désactiver le chiffrement du fichier;
- désactiver les technologies de gestion des droits numériques;4
- intégrer, dans chaque document, toutes les polices de caractère nécessaires pour interpréter l’information;5
- fournir les métadonnées6 dans le document lui même ou dans un fichier distinct.
Formats texte
9.2 Formats présentation
9.3 Formats de courriel7
9.4 Formats des images fixes
Cette catégorie de contenu comprend deux sous catégories : les photos numériques et les textes numérisés.
9.4.1 Photos numériques
9.4.2 Texte numérisé
9.5 Formats audio numérique
9.6 Formats d’images en mouvement numériques
Cette catégorie de contenu comprend deux sous catégories : cinéma numérique et vidéo numérique.
9.6.1 Cinéma numérique
Formats acceptables
|
Codecs acceptables
|
Spécifications du format
|
Digital Cinema Package (DCP) Unencrypted Interop or SMPTE compliant
|
JPEG 2000 (as outlined by the DCI specifications)
|
Digital Cinema Initiatives, DCI Specification Version 1.2, 2012 (anglais seulement)
|
9.6.2 Vidéo numérique
9.7 Formats de données géospatiales
Formats favorisés
|
Spécifications du format
|
Band Interleaved by Line (BIL)
|
BIL, BIP, and BSQ raster files (anglais seulement)
|
Band Interleaved by Pixel
|
BIL, BIP, and BSQ raster files (anglais seulement)
|
Band Interleaved Sequential (BSQ)
|
BIL, BIP, and BSQ raster files (anglais seulement)
|
Digital Elevation Model (DEM)
|
USGS, partie 1 : General et partie 2 : Specifications, Standards Digital Elevation Model (anglais seulement)
|
Environmental Systems Research Institute (ESRI) Arc/Info ASCII Grid
|
ESRI ASCII Raster Format:
|
Environmental Systems Research Institute (ESRI) Shapefile (SHP)
|
ESRI Shapefile Technical Description (anglais seulement)
|
GeoTiff
|
GeoTiff Format Specification, Version 1.8.2, Revision 1.0, 2000 (anglais seulement)
|
Geography Markup Language (GML)
|
ISO 19136:2007 & Version 3.2, OpenGIS Geography Markup Language (GML) Encoding Standard 07-036 (anglais seulement)
|
Keyhole Markup Language (KML)
|
Open Geospatial Consortium Inc. OGC KML 07-147r2: (anglais seulement)
|
9.8 Formats de conception assistée par ordinateur
9.9 Formats d’ensembles de données
Les données tabulaires stockées dans des bases de données et des feuilles de calcul électroniques doivent respecter les exigences suivantes :
- Chaque document doit comprendre un indicateur de fin de document.
- Tous les champs d’un fichier doivent avoir la même largeur fixe.
- Tous les documents doivent avoir la même longueur d’enregistrement logique.
- Tous les champs d’un document stocké dans une base de données, ou tous les tuples d’une base de données relationnelle, ont le même format logique.
- Les documents n’ont pas de groupes de données répétitifs imbriqués.
- Tout fichier est accompagné de documents précisant les noms et les définitions des champs.8
10. Rôles et responsabilités
Les directeurs généraux des secteurs fonctionnels concernés sont chargés d’administrer les présentes lignes directrices.
Les directeurs sont responsables de la mise en œuvre des présentes lignes directrices dans leurs secteurs de gestion respectifs.
Le personnel de BAC participant à l’acquisition, à l’intendance et à la réévaluation des RDVC numériques est responsable de la communication et de l’application des présentes lignes directrices.
Les donateurs doivent respecter les présentes lignes directrices et consulter BAC chaque fois qu’un enjeu risque de nuire à leur capacité de les respecter.
11. Suivi, évaluation et revue
Le secteur fonctionnel responsable des acquisitions surveillera l’application des présentes lignes directrices et produira un rapport sur la conformité.
Des représentants des directions générales responsables des acquisitions et de l’intendance évalueront et examineront les présentes lignes directrices tous les trois ans, ou plus fréquemment si la haute direction l’exige.
12. Conséquences
Le non respect des présentes lignes directrices affectera les activités d’acquisition, d’intendance et de réévaluation et leurs résultats.
Le non respect des présentes lignes directrices peut entraîner le refus initial ou complet des transferts de fichiers proposés ou la prise de mesures correctrices, selon ce que décideront les employés de BAC responsables de l’acquisition des RDVC. Les mesures correctrices peuvent comprendre toute action jugée appropriée et raisonnable dans un contexte particulier.
13. Information
Veuillez faire parvenir vos questions au sujet des présentes lignes directrices à l’adresse suivante :
Directrice générale
Direction générale de l’évaluation et de l’acquisition
Bibliothèque et Archives Canada
550, boulevard de la Cité
Gatineau (Québec) K1A 0N4
Annexe A : Définitions
- Audio numérique : Formats de fichier qui convertissent les ondes sonores en signaux numériques afin d’encoder les enregistrements sonores dans des fichiers lisibles par une machine. Les formats audio numériques sont généralement composés d’un format contenant et d’une méthode d’encodage ou d’un codec. L’encodage des fichiers audio est indépendant du format de fichier du contenant audio.
- Chiffrement : Utilisation d’un algorithme pour rendre un fichier illisible. Une clé de déchiffrement est nécessaire pour défaire le travail réalisé par un algorithme.
- Cinéma numérique : Le cinéma numérique regroupe tant les productions cinématographiques créées en format numérique que les fichiers d’images en mouvement produits par la numérisation de films.
- Codec : Matériel ou logiciel capable d’encoder ou de décoder un flux de données en vue de la transmission. Lorsqu’il est employé avec un enregistrement audio ou vidéo numérique, le codec est un signal numérique encapsulé dans un contenant.
- Compression : Encodage d’information exigeant moins de bits que la version originale. On distingue deux méthodes de compression de données : sans perte et avec perte. La technique de compression sans perte n’écarte aucune information. Elle cherche des moyens plus efficaces de représenter les données, mais elle ne fait aucun compromis sur l’exactitude. La compression avec perte accepte une certaine dégradation des données pour obtenir des fichiers plus petits. La compression avec perte est à éviter en raison de la diminution de la qualité qu’elle provoque.
- Conception assistée par ordinateur (CAO) : Création d’animations représentant des objets inanimés en deux ou trois dimensions à l’aide de programmes vectoriels. Les programmes de CAO et de dessins vectoriels permettent de produire des formats binaires et XML.
- Contenant : Voir Format contenant.
- Courriel : Communication électronique transmise entre deux ou plusieurs comptes par le protocole Simple Mail Transfer Protocol (SMTP). Un courriel comprend l’en‑tête, le corps du message et les pièces jointes. L’en‑tête regroupe des métadonnées structurées qui établissent la provenance du document : le nom et l’adresse de l’expéditeur; le nom et l’adresse de chaque destinataire; la date de l’envoi; la date de réception. Le corps du message constitue le contenu intellectuel du message. Les pièces jointes sont les objets additionnels qui sont envoyés avec le courriel.
- Données géospatiales : Les données peuvent se trouver dans une base de données permettant d’analyser tous les ensembles de données (p. ex. une base de données géospatiales). Elles sont comprises dans une structure de formats de fichier complexe dans laquelle un fichier de données géospatiales est composé de plusieurs formats connexes (comme Shapefile), ou elles sont rassemblées dans un seul fichier (p. ex. GML).
- Durabilité : Accessibilité, au fil du temps, du patrimoine documentaire acquis et géré par BAC. Il faut notamment tenir compte des besoins ponctuels et continus relatifs à l’intendance et des ressources de BAC. Dans le contexte des présentes lignes directrices, la durabilité est liée à la capacité du format de préserver l’information encodée au fil du temps. La qualité, la stabilité, la longévité possible et l’acceptation de l’industrie font partie des facteurs qui améliorent la durabilité d’un format.
- Ensembles de données : Données stockées dans des champs définis, comme des bases de données ou des feuilles de calcul électroniques.
- Feuilles de calcul électroniques : Tableaux composés de colonnes et de rangées qui comprennent des cellules de données. Les relations entre les cellules peuvent être prédéfinies à l’aide de formules mathématiques.
- Format acceptable : Format de fichier répondant aux critères minimaux de BAC en matière de durabilité. Il peut obliger BAC à prendre des mesures de préservation au moment de l’acquisition afin d’assurer la viabilité à long terme.
- Format contenant : Format pouvant contenir et prendre en charge différents types ou couches de données audio, de données vidéo et d’images fixes ainsi que les métadonnées qui y sont associées. Pour que le train de données soit interprété adéquatement, l’information doit être encapsulée. Le contenant désigne une méthode particulière employée pour stocker et synchroniser les données dans un seul fichier.
- Format de base de données : Collection de données organisées en une structure logique. Les formats de base de données sont déterminés par les modèles décrivant les structures de données particulières qui sont utilisées pour former une application. On retrouve généralement des modèles de navigation, relationnels et hybrides.
- Format de fichier : Structure particulière servant à organiser ou à définir des données. Certains formats ne comprennent qu’un flux de données non compressées; d’autres contiennent des codecs pour encoder et compresser des données; d’autres encore peuvent prendre en charge plusieurs flux de données.
- Format d’encapsulation : Voir Format contenant.
- Format favorisé : Format de fichier facile à utiliser. Aux yeux de BAC, il est très viable à long terme. Les efforts de gestion immédiats qui sont nécessaires pour obtenir un niveau de préservation satisfaisant sont négligeables ou inexistants.
- Format inacceptable : Format jugé non durable parce qu’il ne respecte pas les critères minimaux de BAC.
- Format présentation : Format transmettant de l’information sous forme de graphique à un auditoire dans le cadre d’un diaporama.
- Graphiques vectoriels : Images numériques composées d’images orientées objet utilisant la géométrie des points, des lignes, des courbes et des polygones pour représenter des images.
- Images en mouvement numériques : Séquence d’images numériques affichées successivement à un rythme rapide et constant afin de donner l’illusion du mouvement. Le format d’images en mouvement numériques est en quelque sorte l’enveloppe ou le contenant dans lequel se trouvent l’essence des images en mouvement, l’essence audio connexe (le cas échéant) et les métadonnées. Les données des images en mouvement contenues dans un format de fichier contenant sont encodées pour la lecture à l’aide d’un codec. Les paramètres du codec déterminent la présence et la méthode de compression qui est utilisée pour stocker les données des images en mouvement numériques dans le contenant. Cette catégorie comprend deux sous‑catégories : le cinéma numérique et la vidéo numérique.
- Images fixes : Fichiers présentés sous forme de matrices de bits, c’est‑à‑dire des grilles de points rectangulaires, de pixels ou de points de couleur.
- Image matricielle : Voir « Matrice de bits ».
- Intendance : Gestion responsable des RDVC placés sous sa garde, son contrôle ou sa propriété pour que les générations futures puissent en profiter.
- Indicateur de fin de document : Varie en fonction du système d’exploitation utilisé pour créer le fichier. Dans un environnement MAC OS, un retour de chariot (code ASCII 0x0D) est placé à la fin d’un document. Sur un système d’exploitation DOS ou Windows, un retour de chariot et une présentation de ligne (code ASCII 0x0A) sont mis à la fin. Sur un système UNIX, seule une présentation de ligne apparaît.
- Matrice de bits : Image créée à partir d’une série de bits et d’octets formant des pixels. Chaque pixel possède une valeur qui établit la couleur ou la teinte de gris d’un bit ou d’un octet. De telles images sont des images matricielles.
- Métadonnées : Données concernant d’autres données.
- Migration : Passage de l’information numérique d’un environnement ou d’un moyen de stockage logiciel ou matériel à un autre en raison de l’évolution des normes et de la technologie.
- Photos numériques : Les photos numériques regroupent tant les images fixes prises par des appareils‑photo numériques et les images numérisées de photographies imprimées, de diapositives et de négatifs.
- Ressources documentaires : Production documentaire sous forme publiée ou non, quelle que soit la source de communication, le format, le mode de production ou le support d’enregistrement.
- Ressources documentaires à valeur continue (RDVC) : Ressources documentaires ayant une importance et une pertinence à long terme pour la société canadienne.
- Technologies de gestion des droits numériques : Technologies empêchant l’utilisation ou la reproduction non autorisées de contenu numérique et de dispositifs.
- Texte : Il y a deux grandes catégories de texte : brut et formaté. Les fichiers formatés comprennent des données en code ASCII et des définitions de format qui affichent l’information en suivant un ordre défini. Les fichiers de texte brut contiennent des données en code ASCCII ou Unicode qui ne comprennent aucun formatage ou code de mise en forme ayant une influence sur l’aspect des données.
- Texte numérisé : Photographie d’une page imprimée produite à l’aide d’un appareil photo numérique ou d’un numériseur.
- Valeur continue : Utilité ou importance archivistique ou historique pour la société canadienne.
- Vidéo numérique : La vidéo numérique comprend à la fois les vidéos créées en format numérique et les fichiers numériques produits par la numérisation d’une vidéo analogique.
Annexe B : Bibliographie
1. Voir l’annexe B : Bibliographie..
2. Le contenu sur le Web n’est pas considéré comme une catégorie pour l’instant, car BAC collecte activement le contenu du Web que l’institution souhaite acquérir et préserver. En général, BAC n’accepte pas le contenu du Web présélectionné par les donateurs. Tout transfert de contenu Web doit faire l’objet de négociations avec BAC.
3. Les ministères peuvent également consulter les Procédures de transfert des ressources documentaires non publiées à valeur continue de la part des institutions fédérales à Bibliothèque et Archives Canada (2013)..
4. Il s’agit d’une exigence pour les publications soumises à BAC au titre du dépôt légal, conformément au paragraphe 2(a) du Règlement sur le dépôt légal de publications. Pour toutes les autres RDVC, cette exigence s’applique seulement si le donateur a légalement le droit de le faire.
5. Si le donateur peut le faire légalement.
6. Il s’agit d’une exigence pour les publications soumises à BAC au titre du dépôt légal, conformément paragraphe 2(b) du Règlement sur le dépôt légal de publications.
7. Les pièces jointes à un courriel sont considérées comme des éléments de celui ci. Par conséquent, il n’est pas nécessaire qu’elles respectent les normes de transfert de la catégorie dont elles feraient partie.
8. Veuillez consulter le représentant de BAC responsable du transfert pour clarifier la nature des exigences relatives à la documentation.