Archivage Web

Un article de Wikipédia, l'encyclopédie libre
Aller à la navigation Aller à la recherche

L' archivage Web est la collecte et l'archivage permanent de publications en ligne dans le but d'offrir au public et à la science un aperçu du passé dans le futur. Le résultat du processus est une archive Web .

La plus grande institution internationale d'archivage Web est Internet Archive à San Francisco (États-Unis), qui se considère comme l'archive de l'ensemble du World Wide Web. Les archives gouvernementales et les bibliothèques de nombreux pays s'efforcent de sauvegarder le patrimoine du réseau dans leur région.

Depuis 1987, les lois allemandes sur les archives ont défini l'archivage des documents numériques comme une tâche obligatoire des archives d'État, mais la mise en œuvre de cette tâche ne fait que commencer. En 2006, la DNBG (Loi sur la Bibliothèque nationale allemande) a été adoptée, étendant le mandat de la Bibliothèque nationale allemande à l'archivage des sites Web. Les États fédéraux envisagent également de modifier leurs lois sur le dépôt légal dans ce sens ou ont déjà mis en œuvre le changement.

Archivage des destinations

L'archivage Web a pour objectif de cartographier de manière systématique une section définie de la présence Web sur Internet. A cet effet, une politique de collecte globale, un processus de sélection et la fréquence d'archivage doivent être précisés au préalable.

Un site web archivé doit être conservé sur le long terme avec toutes ses fonctions multimédia ( code HTML , feuilles de style , JavaScript , images et vidéo). Les métadonnées telles que la provenance , l'heure d'acquisition, le type MIME et la portée des données sont utilisées pour une description, une utilisation et une conservation ultérieures . Les métadonnées garantissent l' authenticité et l'intégrité du matériel d'archive numérique.

Après la reprise, des précautions techniques et juridiques doivent être prises pour garantir une accessibilité permanente au public et pour empêcher des modifications ultérieures des documents archivés. [1]

termes

ressource d'origine
Une source originale qui existe actuellement ou devrait exister sur Internet et pour laquelle l'accès à un état antérieur est requis. [2] [3]
mémento
Un mémento de source d'origine est une ressource qui encapsule l'état d'origine d'une source à un instant donné. [2] [3]
TimeGate
Un TimeGate est une ressource qui, en fonction d'une date et d'une heure spécifiées, trouve le mémento qui correspond le mieux à cette spécification temporelle. [2] [3]
TimeMap
Une TimeMap est une ressource qui renvoie une liste de tous les mémentos qui ont déjà été créés pour la source d'origine. [2] [3]

processus de sélection

non spécifique
Dans ce processus de sélection, un domaine entier est progressivement inscrit dans une archive. En raison des besoins importants en mémoire, la procédure ne fonctionne que pour les domaines plus petits (netarkivet.dk).
liste de sélection
Une liste d'établissements sera déterminée à l'avance. La stabilité des URL associées aux institutions doit être vérifiée régulièrement.
Utilisation des statistiques d'accès
À l'avenir, une récolte « intelligente » est envisageable, qui, sur la base du nombre d'accès, archive les parties du Web (ou une sélection) qui ont des taux d'accès particulièrement élevés.

méthodes d'acquisition

Récolte à distance

La méthode d'archivage la plus courante consiste à utiliser un robot d'indexation . Un robot d'exploration Web récupère le contenu d'un site Web comme un utilisateur humain et écrit les résultats dans un objet d'archive. Plus précisément, cela signifie rechercher de manière récursive des pages Web en fonction des liens qui s'y trouvent, à partir d'une certaine zone de départ, qui peut être soit une page Web, soit une liste de pages Web à rechercher. En raison de limitations quantitatives, telles que la durée ou l'espace de stockage, diverses restrictions (conditions de résiliation) sont possibles en ce qui concerne la profondeur, le domaine et les types de fichiers à archiver.

Dans les grands projets, l'évaluation des sites Web pour le classement des URL revêt une importance particulière. Au cours d'un processus de crawl, un grand nombre d'adresses Web peuvent s'accumuler, qui sont ensuite traitées soit dans une liste en utilisant la méthode FIFO , soit comme une file d'attente prioritaire . Dans ce dernier cas, vous pouvez imaginer les pages Web dans une structure en tas. Chaque page Web elle-même forme son propre tas , et chaque lien qui s'y trouve vers une autre page Web forme un sous-tas, qui représente un élément du tas de la page Web précédente. Cela présente également l'avantage qu'en cas de liste d'URL débordante, celles qui ont la priorité la plus basse sont remplacées en premier par les nouvelles entrées.

Cependant, la structure d'origine sur le serveur ne peut que rarement être reproduite exactement dans l'archive. Afin de pouvoir exclure tout problème technique pouvant survenir avant la mise en miroir, il est conseillé d'effectuer au préalable une analyse du site Web. Bien que cela double le trafic de données dans la plupart des cas, cela réduit considérablement le temps de travail nécessaire en cas d'erreur. [4]

Voici des exemples de robots d'exploration :

  • Héritier
  • HTTrack
  • explorateur hors ligne

Archivage du Web caché

Le Web caché ou Deep Web fait référence à des bases de données qui représentent souvent le contenu réel d'un site Web et ne sont fournies qu'à la demande d'un utilisateur. En conséquence, le Web est en constante évolution et il apparaît comme s'il était de taille infinie. Une interface, généralement basée sur XML , est nécessaire pour prendre en charge ces bases de données . Les outils DeepArc ( Bibliothèque Nationale de France ) et Xinq ( Bibliothèque Nationale d'Australie ) ont été développés pour un tel accès.

Archivage transactionnel

Cette procédure est utilisée pour archiver les résultats d'un processus d'utilisation du site Web. Il est important pour les institutions qui doivent fournir la preuve de leur utilisation pour des raisons légales. La condition préalable est l'installation d'un programme supplémentaire sur le serveur Web.

Archivage Web en Allemagne

Au niveau fédéral, la Bibliothèque nationale allemande (DNB) est mandatée par la loi pour l'archivage du Web depuis 2006. Depuis 2012, les sites Internet sont archivés thématiquement et lors de certains événements, c'est-à-dire de manière sélective et non dans leur intégralité. La DNB travaille avec un prestataire externe. De plus, tous les domaines DE ont été explorés une fois jusqu'à présent en 2014 . L'accès aux archives Web se fait principalement dans les salles de lecture. [5]

Outre l'archivage Web de la DNB, il existe des initiatives dans divers États fédéraux :

Il existe également d'autres initiatives d'archivage Web en Allemagne, par exemple par des fondations affiliées à un parti , SWR , Deutsche Post ou la société biotechnologique/pharmaceutique Abbvie .

Voir également

conversions

liens web

les détails

  1. Steffen Fritz : Réécrire l'histoire. (PDF) avec fichiers WARC. janvier 2016, archivé de l' original le 9 novembre 2017 ; Consulté le 9 novembre 2017 (anglais).
  2. a b c d RfC 7089 HTTP Framework for Time-Based Access to Resource States – Memento
  3. a b c d Guide des souvenirs : Introduction. Consulté le 5 octobre 2018 (anglais).
  4. Steffen Fritz : Rapport de pratique : Méthodes d'évaluation de l'archivabilité des objets Web Dans : ABI Technik No. 2, 2015, pp. 117-120. doi:10.1515/abitech-2015-0015
  5. Tobias Steinke : Archivage de l'Internet allemand ? Entre approche sélective et crawl de domaine .de . Bibliothèque nationale allemande, 26 juin 2014 ( dnb.de [PDF]).
  6. Felix Geisler, Wiebke Dannehl, Christian Keitel, Stefan Wolf : Sur le statut de l'archivage Web dans le Bade-Wurtemberg . Dans : Service de bibliothèque . ruban 51 , non. 6 , 1er juin 2017, ISSN  2194-9646 , p. 481–489 , doi : 10.1515/bd-2017-0051 ( degruyter.com [consulté le 24 mars 2020]).
  7. Tobias Beinert : Archivage Web à la Bibliothèque d'État de Bavière . Dans : Service de bibliothèque . ruban 51 , non. 6 , 1er juin 2017, ISSN  2194-9646 , p. 490–499 , doi : 10.1515/bd-2017-0052 ( degruyter.com [consulté le 24 mars 2020]).
  8. Archivage Web Workflow dans l'archivage à long terme à la Bibliothèque d'État de Bavière | BABS. Consulté le 24 mars 2020 .
  9. Edoweb : serveur d'archives de Rhénanie-Palatinat pour les documents électroniques et les sites Web. Consulté le 24 mars 2020 .