Exigences et pratiques exemplaires de préservation Web

Les technologies d’archivage de contenu Web s’améliorent toujours. Malgré tout, certains contenus Web restent difficiles à enregistrer, à préserver ou à rendre accessibles. Par exemple, il est difficile d’enregistrer du contenu qui s’appuie sur :

  • les interactions humaines et les technologies interactives
  • les données ou les médias de diffusion en continu
  • les bases de données ou les filtres de documents
  • la technologie propriétaire
  • les éléments dynamiques

Bibliothèque et Archives Canada (BAC) recueille des ressources Web pour les générations de demain, mais aussi pour construire ses propres collections numériques de recherche. Il fait le maximum pour préserver fidèlement le contenu et la fonctionnalité des ressources Web ciblées pour la collecte. Cependant, il ne peut offrir de garantie à cet égard, ni garantir un niveau de service quelconque. Il ne peut non plus acquérir et préserver tous les sites Web.

Sur cette page

Exigences de préservation pour les ressources Web

BAC accepte les suggestions de ressources Web canadiennes à préserver en tant que patrimoine documentaire.

  • BAC exige un préavis d’au moins trois mois pour recueillir la version définitive d’une ressource Web en vue de sa préservation.
  • BAC commencera la collecte de la version de préservation finale une fois les dernières révisions de la ressource Web achevées.
  • Si vous savez qu’une ressource Web sera mise hors service à une date connue (« le site sera supprimé à telle date »), veuillez nous en aviser trois mois à l’avance.

Pour suggérer une ressource Web à préserver, envoyez un courriel à archivesweb-webarchives@bac-lac.gc.ca avec les renseignements suivants :

  1. l’URL de la ressource à préserver
  2. la date prévue pour l’achèvement des dernières révisions de la ressource Web
  3. une mention indiquant si vous êtes le propriétaire du site Web
  4. la date de mise hors service de la ressource Web, si elle est connue

Quoi faire pour que mon site Web soit préservé?

BAC vous recommande de suivre les pratiques exemplaires suivantes lorsque vous concevez votre site Web. Tout non-respect compliquera la préservation de votre site.

Pratiques exemplaires en développement et en architecture Web

Les ressources Web hébergées sur un seul domaine sont généralement plus faciles à préserver. De plus, pour aider Bibliothèque et Archives Canada (BAC) à acquérir et préserver votre site Web, enregistrez vos documents directement sur votre serveur (images, enregistrements sonores, vidéos, feuilles de style, fichiers JavaScript, etc.).

  • Dans la mesure du possible, assurez-vous que vos documents sont hébergés sur votre site Web ou votre domaine plutôt que sur une plateforme tierce.
  • Ne vous fiez pas à Facebook ou à d’autres plateformes de médias sociaux pour héberger vos enregistrements sonores, vos vidéos ou vos images. Ces plateformes sont mises à jour constamment, ce qui complique la capacité de BAC à y recueillir des ressources.

Conservez la même adresse Web ou le même domaine

Vous avez publié une ressource importante sous une adresse donnée? Évitez de modifier celle-ci. Si vous changez l’adresse d’origine (par exemple, de www.mywebsite.com/webarchiving à webarchiving.mywebsite.com), BAC préservera deux ressources distinctes, et elles ne seront pas nécessairement liées dans les Archives Web.

Attention aux technologies interactives, propriétaires, ou qui reposent sur le programme dorsal

Le contenu interactif (comme les bases de données interrogeables et les filtres dynamiques) peut être difficile à enregistrer, et nous ne pouvons garantir qu’il sera fidèlement préservé. Voici quelques exemples pouvant poser problème :

  1. exécuter une action pour accéder à une base de données ou créer des données
  2. passer le curseur de la souris sur un élément
  3. faire un zoom avant ou arrière sur du texte ou une carte

Exclusions dans robots.txt

Il est pratique courante d’interdire ou de ralentir les requêtes excessives de vos ressources Web ou de votre domaine par les outils de recherche Web. Cependant, cela inhibe également les robots Web de BAC, ce qui peut rendre l’acquisition d’une ressource Web impossible ou fastidieuse. Même chose si vous donnez aux robots Web l’instruction d’ignorer le script CSS ou les répertoires JavaScript d’un site Web : cela aura une grande incidence sur la copie de préservation numérique de votre ressource Web.

Pour permettre aux robots Web d’accéder à tous les éléments de votre site :

  • Ne créez pas de fichier d’exclusion (habituellement intitulé robots.txt) ou assurez-vous d’accorder l’accès à l’agent utilisateur archive.org_bot. Vous permettez ainsi au robot Web de BAC d’accéder à votre site, tout en bloquant l’accès aux personnes non autorisées.
  • Si votre site Web utilise un logiciel de sécurité, ajoutez les agents utilisateurs archive.org_bot et special-archiver à la liste d’autorisation.

Évitez les jetons et les identificateurs de session

Évitez d’utiliser des jetons de session, à moins qu’ils ne soient absolument nécessaires. Les jetons et le suivi des sessions (par exemple, www.website.com/t?=123456/…) peuvent empêcher BAC de vérifier qu’il a bien exploré toutes les pages d’un site Web. Cela complique la préservation du site.

Utilisez des hyperliens directs et statiques

Autant que possible, évitez les URL produites automatiquement.

Respectez les normes internationales d’accessibilité et de développement Web

Les robots Web interagissent avec les sites d’une manière semblable à un navigateur. Vous faciliterez donc la préservation de votre site Web en suivant les normes internationales et les pratiques exemplaires en matière de développement Web.

Respectez les normes et les pratiques exemplaires du W3C (en anglais).

Respectez aussi l'initiative sur l’accessibilité du Web du W3C (en anglais), à tout le moins les Règles pour l’accessibilité des contenus Web 2.0 (WCAG) au niveau AAA.

En ce qui concerne les ressources Web du gouvernement du Canada, respectez :

Créez un plan du site et des index

Les robots Web exploitent et acquièrent des copies de sites Web en suivant des URL (hyperliens). Les pages de votre site qui n’ont pas d’hyperliens vers d’autres pages sont appelées « pages orphelines ». Celles-ci sont invisibles pour les robots Web.

Les bases de données et autres technologies dynamiques échappent aussi aux robots Web, en partie parce que leur contenu n’est pas découvrable ou accessible par hyperlien direct. (Le contenu réside en effet dans la base de données; on ne peut y avoir accès que par des URL dynamiques.)

En créant des index pour vos bases de données, vous permettez à BAC d’en extraire le contenu. De même, quand vous créez un plan de votre site Web, ou un index des éléments importants, vous ne suivez pas seulement une pratique exemplaire : vous vous assurez que les robots Web peuvent suivre, détecter et acquérir toutes les composantes de votre site (même si le reste du contenu ne suit pas ces lignes directrices!).

Ajoutez des métadonnées et définissez l’encodage des caractères

Le Programme de préservation du Web et des médias sociaux s’appuie sur les métadonnées de l’en-tête et sur les métadonnées intégrées aux sites Web, comme le titre et l’encodage des caractères. En vous assurant que les métadonnées figurent dans les en-têtes de vos pages, vous permettez à BAC d’automatiser l’indexation adéquate et la conservation de votre site, avec le nom et les détails corrects.

Pour assurer la préservation numérique et l’émulation fidèle de votre ressource Web dans les Archives Web du gouvernement du Canada :

  • le média ou le type MIME doit être correctement identifié à l’aide du paramètre HTTP « Content-Type ». La valeur de ce champ peut être fournie de deux façons :
    • par le champ Content-Type de l’en-tête http : l’en-tête HTTP est fourni par un serveur Web et définit un ensemble de caractéristiques pour le contenu avant son téléchargement
    • par la balise méta Content-Type : cette balise peut être comprise dans le code source d’une page (par exemple : <meta http-equiv="Content-Type" content="text/html; charset=utf-8" />).

Le champ Content-Type de l’en-tête HTTP doit correctement indiquer l’encodage du jeu de caractères pour que la copie archivée puisse être enregistrée et interprétée correctement (dans l’exemple ci-dessus, « UTF-8 »). La balise méta Content-Type dans le code source d’une page doit correspondre à la série de caractères figurant dans l’en-tête HTTP.

Utilisez des fournisseurs de plateformes et des systèmes de gestion propices à l’archivage

Utilisez autant que possible des cadres de développement Open Source plutôt que des « créateurs de sites Web » propriétaires et des systèmes de gestion de contenu (comme Wix ou Squarespace). Les robots Web ont de la difficulté à explorer et à enregistrer les données des systèmes exclusifs.

Autres ressources

Bibliothèque du Congrès : Recommended Formats Statement for websites (en anglais)
Archives Web portugaises : Recommendations for authors to enable web archiving (en anglais)