Blog

Archive | May, 2014

De internationale conferentie voor webarchivering in Parijs 19-23 mei 2014

Vorig week bracht ik een bezoek aan de conferentie in Parijs van de International Internet Preservation Consortium . PageFreezer was uitgenodigd een presentatie te verzorgen op de “Curation Tools Fair”, een onderdeel van de 5-daagse conferentie.

De locatie van de conferentie was schitterend, de bovenste etage van de ronde toren behorende bij de National Bibliotheek van Frankrijk. De deelnemers waren veelal afkomstig uit alle delen van de wereld van de bibliotheek: bibliothecarissen maar ook opvallend veel technici, werkzaam voor bibliotheekorganisaties, die zich bezig houden met het ontwikkelen van software rondom archiveringstools als Heritrix. Bijdragen waren er vooral van vertegenwoordigers van Nationale Bibliotheken en Universiteiten (waaronder Library of Congress en de Stanford Universiteit)

Het meest opvallend in de presentaties en de discussies was het waarom van het gebruik van een webarchiveringtool. Er zijn twee “uitersten” te benoemen bij het archiveren van het web”

–        Het collectioneren van alle informatie rond een thema;

–        Het verzamelen van alle informatie op een website ter verantwoording.

Toen onlangs de grote schrijver Gabriel Garcia Marques overleed, was een bibliothecaris geïnteresseerd in wat er op het Internet daarover is verschenen. De software crawlt het Internet af en verzamelt URL’s met verwijzingen naar deze gebeurtenis. Een archiveringstool slaat alle URL’s en maakt ook een snapshot van de pagina. Tijdens de conferentie werd veelvuldig melding gemaakt dat de tools die hiervoor worden gebruikt nog veelal handmatig moeten worden bewerkt, zeker als het gaat om de kwaliteitsbewaking.

PageFreezer verzamelt alle gepubliceerde informatie van 1 website, zodat dit gebruikt kan worden voor verantwoording. Hier is de digitale handtekening van belang, zodat een wettig bewijs gevormd wordt van de archiveringsactie. Kwaliteitsbewaking is een belangrijk issue, je moet er immers op kunnen vertrouwen dat alles goed werkt.

Toch kunnen beide werelden wat van elkaar leren: het collectioneren van een thema kan een nuttige aanvulling zijn voor onze klanten (marketinginformatie, cultureel erfgoed). Onze wijze van volledig geautomatiseerd archiveren bevat oplossingen die ook toegepast kunnen worden op andere tools.

Het is in dat opzicht jammer, een andere constatering op de conferentie, dat er op veel plaatsen mooie initiatieven ontstaan, zonder dat men dat van elkaar weet. Een verspilling van tijd en geld in een wereld van  geldbronnen die voor bibliotheken toch niet al te ruim gevuld zijn.

 

John Jansen

PS Een leuk artikel over de waarde van het preserveren van oude websites, met websites uit de jaren 90 van de vorige eeuw.

Het Internet Archief

Onlangs verscheen op Nu.nl een leuk artikel over het Internet Archief. The WaybackMachine archiveert al sinds 1996 het Internet. Inmiddels zijn er al meer dan 400 miljard pagina’s opgeslagen in deze mooie database. Het artikel schetst dat dit prachtige initiatief al menig website heeft gered uit de vergetelheid of domweg omdat de website van het Internet is afgehaald.

Regelmatig krijgen we de vraag wat de verschillen zijn tussen het werk van de Waybackmachine en bijvoorbeeld een dienst als PageFreezer. Een tijd geleden publiceerde n wij daar reeds een blog over.

Vanwege de actualiteit verwijzen we daar graag nog een keer naar, lees hier de verschillen.