Archivage Web
L' archivage Web est la collecte et l'archivage permanent de publications en ligne dans le but d'offrir au public et à la science un aperçu du passé dans le futur. Le résultat du processus est une archive Web .
La plus grande institution internationale d'archivage Web est Internet Archive à San Francisco (États-Unis), qui se considère comme l'archive de l'ensemble du World Wide Web. Les archives gouvernementales et les bibliothèques de nombreux pays s'efforcent de sauvegarder le patrimoine du réseau dans leur région.
Depuis 1987, les lois allemandes sur les archives ont défini l'archivage des documents numériques comme une tâche obligatoire des archives d'État, mais la mise en œuvre de cette tâche ne fait que commencer. En 2006, la DNBG (Loi sur la Bibliothèque nationale allemande) a été adoptée, étendant le mandat de la Bibliothèque nationale allemande à l'archivage des sites Web. Les États fédéraux envisagent également de modifier leurs lois sur le dépôt légal dans ce sens ou ont déjà mis en œuvre le changement.
Archivage des destinations
L'archivage Web a pour objectif de cartographier de manière systématique une section définie de la présence Web sur Internet. A cet effet, une politique de collecte globale, un processus de sélection et la fréquence d'archivage doivent être précisés au préalable.
Un site web archivé doit être conservé sur le long terme avec toutes ses fonctions multimédia ( code HTML , feuilles de style , JavaScript , images et vidéo). Les métadonnées telles que la provenance , l'heure d'acquisition, le type MIME et la portée des données sont utilisées pour une description, une utilisation et une conservation ultérieures . Les métadonnées garantissent l' authenticité et l'intégrité du matériel d'archive numérique.
Après la reprise, des précautions techniques et juridiques doivent être prises pour garantir une accessibilité permanente au public et pour empêcher des modifications ultérieures des documents archivés. [1]
termes
- ressource d'origine
- Une source originale qui existe actuellement ou devrait exister sur Internet et pour laquelle l'accès à un état antérieur est requis. [2] [3]
- mémento
- Un mémento de source d'origine est une ressource qui encapsule l'état d'origine d'une source à un instant donné. [2] [3]
- TimeGate
- Un TimeGate est une ressource qui, en fonction d'une date et d'une heure spécifiées, trouve le mémento qui correspond le mieux à cette spécification temporelle. [2] [3]
- TimeMap
- Une TimeMap est une ressource qui renvoie une liste de tous les mémentos qui ont déjà été créés pour la source d'origine. [2] [3]
processus de sélection
- non spécifique
- Dans ce processus de sélection, un domaine entier est progressivement inscrit dans une archive. En raison des besoins importants en mémoire, la procédure ne fonctionne que pour les domaines plus petits (netarkivet.dk).
- liste de sélection
- Une liste d'établissements sera déterminée à l'avance. La stabilité des URL associées aux institutions doit être vérifiée régulièrement.
- Utilisation des statistiques d'accès
- À l'avenir, une récolte « intelligente » est envisageable, qui, sur la base du nombre d'accès, archive les parties du Web (ou une sélection) qui ont des taux d'accès particulièrement élevés.
méthodes d'acquisition
Récolte à distance
La méthode d'archivage la plus courante consiste à utiliser un robot d'indexation . Un robot d'exploration Web récupère le contenu d'un site Web comme un utilisateur humain et écrit les résultats dans un objet d'archive. Plus précisément, cela signifie rechercher de manière récursive des pages Web en fonction des liens qui s'y trouvent, à partir d'une certaine zone de départ, qui peut être soit une page Web, soit une liste de pages Web à rechercher. En raison de limitations quantitatives, telles que la durée ou l'espace de stockage, diverses restrictions (conditions de résiliation) sont possibles en ce qui concerne la profondeur, le domaine et les types de fichiers à archiver.
Dans les grands projets, l'évaluation des sites Web pour le classement des URL revêt une importance particulière. Au cours d'un processus de crawl, un grand nombre d'adresses Web peuvent s'accumuler, qui sont ensuite traitées soit dans une liste en utilisant la méthode FIFO , soit comme une file d'attente prioritaire . Dans ce dernier cas, vous pouvez imaginer les pages Web dans une structure en tas. Chaque page Web elle-même forme son propre tas , et chaque lien qui s'y trouve vers une autre page Web forme un sous-tas, qui représente un élément du tas de la page Web précédente. Cela présente également l'avantage qu'en cas de liste d'URL débordante, celles qui ont la priorité la plus basse sont remplacées en premier par les nouvelles entrées.
Cependant, la structure d'origine sur le serveur ne peut que rarement être reproduite exactement dans l'archive. Afin de pouvoir exclure tout problème technique pouvant survenir avant la mise en miroir, il est conseillé d'effectuer au préalable une analyse du site Web. Bien que cela double le trafic de données dans la plupart des cas, cela réduit considérablement le temps de travail nécessaire en cas d'erreur. [4]
Voici des exemples de robots d'exploration :
- Héritier
- HTTrack
- explorateur hors ligne
Archivage du Web caché
Le Web caché ou Deep Web fait référence à des bases de données qui représentent souvent le contenu réel d'un site Web et ne sont fournies qu'à la demande d'un utilisateur. En conséquence, le Web est en constante évolution et il apparaît comme s'il était de taille infinie. Une interface, généralement basée sur XML , est nécessaire pour prendre en charge ces bases de données . Les outils DeepArc ( Bibliothèque Nationale de France ) et Xinq ( Bibliothèque Nationale d'Australie ) ont été développés pour un tel accès.
Archivage transactionnel
Cette procédure est utilisée pour archiver les résultats d'un processus d'utilisation du site Web. Il est important pour les institutions qui doivent fournir la preuve de leur utilisation pour des raisons légales. La condition préalable est l'installation d'un programme supplémentaire sur le serveur Web.
Archivage Web en Allemagne
Au niveau fédéral, la Bibliothèque nationale allemande (DNB) est mandatée par la loi pour l'archivage du Web depuis 2006. Depuis 2012, les sites Internet sont archivés thématiquement et lors de certains événements, c'est-à-dire de manière sélective et non dans leur intégralité. La DNB travaille avec un prestataire externe. De plus, tous les domaines DE ont été explorés une fois jusqu'à présent en 2014 . L'accès aux archives Web se fait principalement dans les salles de lecture. [5]
Outre l'archivage Web de la DNB, il existe des initiatives dans divers États fédéraux :
- Bade-Wurtemberg : Les archives en ligne du Bade-Wurtemberg (BOA) collectent des publications numériques et des sites Web sélectionnés depuis 2002. [6]
- Bavière : La Bibliothèque d'État de Bavière collecte des sites Web sélectionnés depuis 2010. [7] [8]
- Rhénanie-Palatinat : Depuis 2003, la Rheinische Landesbibliothek collecte des sites Web sélectionnés dans le cadre du projet edoweb. [9]
Il existe également d'autres initiatives d'archivage Web en Allemagne, par exemple par des fondations affiliées à un parti , SWR , Deutsche Post ou la société biotechnologique/pharmaceutique Abbvie .
Voir également
- Enregistrement conforme des transactions
- cycle de vie du contenu
- Archivage électronique
- archivage à long terme
- Initiative des archives ouvertes
- ARCHIVES WEB
conversions
- La machine à remonter le temps d' Internet Archive
- Archive.is
- WebCité
- Cache Google (La dernière version d'une adresse web optimisée pour les serveurs Google est fournie depuis quelques semaines)
liens web
- Voyage dans le temps (méta-recherche dans environ 25 archives Internet)
- Gyo/Megalodon (métarecherche japonaise dans les archives Internet)
- Consortium international pour la préservation d'Internet (IIPC) - Consortium international chargé d'adopter, de préserver et de rendre accessibles les informations et les connaissances d'Internet pour les générations futures
- International Web Archiving Workshop (IWAW) - Atelier annuel sur l'archivage Web
- La Bibliothèque du Congrès, les collections numériques et les programmes
- Bibliothèque du Congrès, Archivage Web
- Bibliographie d'archivage Web - Bibliographie d'archivage Web
- Liste de discussion sur l'archivage Web - Discute des questions techniques, organisationnelles et juridiques liées à l'archivage Web
- Littérature de Michael L. Nelson - articles scientifiques sur dblp.uni-trier.de
les détails
- ↑ Steffen Fritz : Réécrire l'histoire. (PDF) avec fichiers WARC. janvier 2016, archivé de l' original le 9 novembre 2017 ; Consulté le 9 novembre 2017 (anglais).
- ↑ a b c d RfC 7089 HTTP Framework for Time-Based Access to Resource States – Memento
- ↑ a b c d Guide des souvenirs : Introduction. Consulté le 5 octobre 2018 (anglais).
- ↑ Steffen Fritz : Rapport de pratique : Méthodes d'évaluation de l'archivabilité des objets Web Dans : ABI Technik No. 2, 2015, pp. 117-120. doi:10.1515/abitech-2015-0015
- ↑ Tobias Steinke : Archivage de l'Internet allemand ? Entre approche sélective et crawl de domaine .de . Bibliothèque nationale allemande, 26 juin 2014 ( dnb.de [PDF]).
- ↑ Felix Geisler, Wiebke Dannehl, Christian Keitel, Stefan Wolf : Sur le statut de l'archivage Web dans le Bade-Wurtemberg . Dans : Service de bibliothèque . ruban 51 , non. 6 , 1er juin 2017, ISSN 2194-9646 , p. 481–489 , doi : 10.1515/bd-2017-0051 ( degruyter.com [consulté le 24 mars 2020]).
- ↑ Tobias Beinert : Archivage Web à la Bibliothèque d'État de Bavière . Dans : Service de bibliothèque . ruban 51 , non. 6 , 1er juin 2017, ISSN 2194-9646 , p. 490–499 , doi : 10.1515/bd-2017-0052 ( degruyter.com [consulté le 24 mars 2020]).
- ↑ Archivage Web Workflow dans l'archivage à long terme à la Bibliothèque d'État de Bavière | BABS. Consulté le 24 mars 2020 .
- ↑ Edoweb : serveur d'archives de Rhénanie-Palatinat pour les documents électroniques et les sites Web. Consulté le 24 mars 2020 .