PageFreezer publiceert API

PageFreezer ontwikkelt aan de lopende band nieuwe diensten. Vanaf vandaag is de API gepubliceerd waar softwareontwikkelaars gebruik van kunnen maken als ze hun applicatie willen verbinden met de webarchiveringsservices van PageFreezer. Zo kan vanuit een applicatie rechtstreeks een URL naar PageFreezer worden gestuurd om deze te op te slaan en terug te leveren als een pdf met digitale handtekening en tijdstempel.

api

In de nabije toekomst worden nog meer API toepassingen ontwikkeld. Om de API te kunnen gebruiken moet je geregistreerd zijn als partner. Kijk hier naar de API-publicatie .

Voor meer informatie : info@pagefreezer.com

 

2015 op de valreep nog een tijdelijk archief gemaakt

Bij webarchivering wordt altijd gedacht aan het bewaren van websitepagina’s voor langere duur, zoals bijvoorbeeld de Archiefwet voorschrijft. Toch kan webarchivering een zeer tijdelijke functie hebben met grote voordelen.

Een bedrijf besloot haar website een grondige face-lift te geven en veranderde daarbij ook van Content Management Systeem. Het contract voor het huidige systeem werd opgezegd en men ging hard aan de slag met het bouwen van een nieuwe, moderne website.  Met de huidige stand der techniek  heeft men besloten alles zelf ter hand te nemen. De oude website kon dus uit de lucht nadat de nieuwe website klaar was. Op de oude website stonden echter nog een aantal belangrijke publicaties en teksten die bij nader inzien nog goed waren te gebruiken. In plaats van een “dubbele” contractperiode heeft dit bedrijf gekozen een volledig archief van de oude website te laten opbouwen door PageFreezer. Men kan nu in alle rust nog terug kijken en gebruik maken van informatie in de volledige context zoals die op de site was gepubliceerd. Achteraf zijn nog pdf documenten opgehaald en weer geplaatst op de nieuwe site. Omdat de volledige structuur van de website ook nog in tact was, konden de niet CMS-specialisten makkelijk alle informatie terugvinden en beoordelen voor hergebruik.

Een kosteneffectieve en zeer praktische maar veelal nog onbekende toepassing van het archiveren van een website. Op de valreep van 2015 hebben we in een paar uur tijd een volledig archief gemaakt  voor tijdelijk gebruik.

Het PageFreezer team wenst u allen een gezond en gelukkig 2016 toe!

Inzet in rechtszaak: Facebook wist gegevens na 90 dagen

Vandaag in de Telegraaf een bericht dat Facebook gegevens maximaal 90 dagen bewaart. Een belastend filmpje, inzet van een rechtszaak, is niet meer beschikbaar.  Digitaal bewijsmateriaal is niet altijd (meer)voor handen als je het nodig hebt. PageFreezer en Webpreserver worden steeds vaker ingezet om bewijsmateriaal te leveren: webpagin’s, blogs, sociale media uitingen. Voorzien van een digitale handtekening en van de bijbehorende metadata heb je altijd het digitaal bewijs in handen, ook als de website ze niet meer heeft. Soms heb je even de tijd, in het geval van Facebook bedraagt de bedenktijd 90 dagen op dit moment. De advocaat is nog in gesprek met Facebook. Wij weten dat Facebook bij voortduring de API wijzigt waarmee gegevens kunnen worden vastgelegd en iedereen kent wel de discussies over de gebruiksvoorwaarden. Een gewaarschuwd mens (maar ook elke organisatie) telt voor 2.

PageFreezer gaat ook webapps archiveren

Soms wil je het van de daken schreeuwen, maar dat mag dan weer niet. En zomaar melden dat we een van de grootste Amerikaanse Investeringsbank als klant hebben gekregen is ook zo wat.

Maar er is wel een reden om toch deze aankondiging te doen. Deze bank en PageFreezer gaan met elkaar samenwerken om een nieuwe crawler te ontwikkelen voor het archiveren van webapps.

PageFreezer is geselecteerd na een zorgvuldige studie van de huidige technieken die wij gebruiken om website en sociale media communicatie te archiveren. Eerder maakten wij al melding van het feit dat PageFreezer als enige leverancier een 100% score haalde op de benchmark.

Wij voegen een nieuw hoofdstuk toe aan onze dienstverlening: naast websites en sociale media archiveren we voor onze klanten ook Intranetten. Daar komen webapps nu bij.

Nieuwe functies in PageFreezer

De afgelopen weken zijn weer een aantal nieuwe functies toegevoegd aan onze service:

  1. PDF, van een gearchiveerde webpagina kan nu meteen een pdf worden geproduceerd. Wanneer het archief voor het publiek is opengesteld biedt deze functie een mooie service aan de klant die de pagina in PDF kan opslaan. Maar het is natuurljk ook handig om snel even alle informatie van een webpagina op te slaan.
  2. Pagina’s vergelijken: PageFreezer visualiseert nu een verschil welke op een webpagina wordt aangebracht. Handig om snel te zien waar wijzigingen op een pagina zijn aangebracht, zonder uitgebreid de beide webpagina’s te bestuderen.
  3. Youtube video’s. Wanneer een YouTube video “embedded”is opgenomen in een webpagina, dan wordt de volledige video nu ook op de PageFreezer servers opgeslagen. Een extra stukje zekerheid.

Voor meer informatie, neem contact op met sales@pagefreezer.com

 

 

Rijksuniversiteit Groningen publiceert over webarchivering, nut en noodzaak

Regelmatig krijgen wij de vraag hoe noodzakelijk het is om websites en sociale media te archiveren.
Recent heeft de RijksUniversiteit Groningen hiernaar een onderzoek uitgevoerd. In dit rapport “We gaan onze website niet helemaal in brochure drukken” wordt duidelijk beschreven wat de noodzaak is om (oude) websites en sociale media berichten te archiveren. Het is tevens een goed overzicht van recente literatuur op dit gebied. Wij verwijzen graag naar dit rapport.

De onderzoeker Mathieu Paapst schijft er ook een blog over.
In het rapport worden een aantal vragen geplaatst in het kader van de (on)mogelijkheden van de techniek die gebruikt wordt voor het archiveren van websites en sociale media. Deze vragen komen voort uit het gebrek aan kennis op dit gebied. Het gaat namelijk snel met de ontwikkelingen. Met PageFreezer bouw je een webarchief op in eigen beheer. Een belangrijk criterium voor de archivaris die regie wil houden over het (web)archief.
En over de titel van het rapport gesproken: het uitvoeren van het webarchief in brochure, met een export in PDF/A is dit ook mogelijk. Daar hoef je niets voor te doen.

PageFreezer doorstaat benchmark met maximale score!

Er zijn inmiddels vele mogelijkheden om een webpagina te archiveren. Grofweg zijn er twee stromingen van producten:
1. Web-archivering tools die zich toeleggen op wat op het web wordt gepubliceerd (simpelweg collectioneren)
2. Software dat archiveert vanuit het oogpunt van verantwoording

PageFreezer is een service dat het laatste doet. Wij hebben standaard geen voorziening om het hele world wide web af te struinen naar informatie over een gebeurtenis, daarvoor zijn tools in de eerste categorie ontwikkeld.
Echter qua techniek van archivering is hetzelfde nodig: een webpagina zo volledig mogelijk vastleggen. Er wordt door veel organisaties ook eigen software ontwikkeld in de veronderstelling dat maatwerk beter is. Iedere specialist kan je vertellen dat een webpagina soms zo complex van structuur is, dat het bijna niet mogelijk is deze te archiveren. Als de pagina al goed is gearchiveerd, dan wordt het “naspelen” ervan een uitdaging. Om goed te kunnen vergelijken wat de (niet) commerciële software kan, is een benchmark ontwikkeld. Een groep van achttien tests waarmee de kwaliteit van de archiveringssoftware is getoetst. Testen op het gebied van: basics (plaatjes, CSS), Javascript en HTML5.
Recent is PageFreezer getest met en fantastisch resultaat: we scoren op alle achttien testen positief! Tot nu toe is dat nog geen enkel product gelukt.

De uitslag van de test lees je hier.

Wie is de eigenaar van Tesla data?

In gezondheidszorg is al een tijdje een discussie gaande over patiëntgegevens en het recht op inzage. Ik heb het genoegen gehad een van de voorvechters daarvan, David de Bronkhart ofwel @ePatientDave, eens persoonlijk te ontmoeten. Hij heeft zijn ziekte- en genezingsproces gefaciliteerd door gebruik te maken van Internetdata.

Via hem las ik een interessant artikel over Tesla en de data die door Tesla worden opgeslagen. Immers, Tesla is een rijdende computer. Wat is het geval? In Noorwegen parkeert iemand op een laad- en losplaats (max tien minuten) zijn auto om… te laden en lossen. Hij is overtuigd dat hij binnen  tien minuten ook terug was, maar vindt een parkeerbon onder zijn ruitenwisser geplakt.

Vervolgens vroeg hij zich af hoe hij kon bewijzen dat hij minder dan tien minuten geparkeerd stond. Inderdaad: via de Tesla computer. Alleen, hij kan niet bij zijn data. Een eerste verzoek om data te geven, is door Tesla Noorwegen geweigerd.

In Noorwegen is er echter een wet die zegt dat burgers het recht hebben op inzage in hun data die zijn opgeslagen op computers van derden. En interessant vraagstuk: ‘Zijn de gegevens van de auto die jij bestuurt van jou?’

Tesla staat bekend om het bedenken van nieuwe businessmodellen. Wat zou het een geweldige service zijn, als je via de Tesla website loggegevens van je eigen auto kan opvragen. Vanuit archief standpunt ook een interessante gedachte: stel gegevens beschikbaar via  jouw website, voorzien van een digitale handtekening en tijdstempel. Tesla levert hiermee toegevoegde waarde aan haar klanten namelijk juridisch bewijs tegen onterecht toegekende boetes. Nu is de vraag was deze man inderdaad binnen tien minuten terug bij zijn auto?

Overigens binnen een paar jaar komt Google met een zelfbestuurbare auto. Van wie zijn die gegevens?

En het vervolg van de blog een week later:

Iets meer dan een week geleden publiceerde ik een blog over de data die Tesla opslaat, wanneer je met een auto van hen rijdt. Omdat ik ook wel iets meer wilde weten over de juridische kant van de zaak, heb ik Arnoud Engelfriet, erkend ICT-jurist geattendeerd op deze kwestie. Zijn blog is hier te lezen.

Dit is mijn eerder gepubliceerde tekst:

In gezondheidszorg is al een tijdje een discussie gaande over patiëntgegevens en het recht op inzage. Ik heb het genoegen gehad een van de voorvechters daarvan, David de Bronkhart ofwel @ePatientDave, eens persoonlijk te ontmoeten. Hij heeft zijn ziekte- en genezingsproces gefaciliteerd door gebruik te maken van Internetdata.

Via hem las ik een interessant artikel over Tesla en de data die door Tesla worden opgeslagen. Immers, Tesla is een rijdende computer. Wat is het geval? In Noorwegen parkeert iemand op een laad- en losplaats (max tien minuten) zijn auto om… te laden en lossen. Hij is overtuigd dat hij binnen  tien minuten ook terug was, maar vindt een parkeerbon onder zijn ruitenwisser geplakt.

Vervolgens vroeg hij zich af hoe hij kon bewijzen dat hij minder dan tien minuten geparkeerd stond. Inderdaad: via de Tesla computer. Alleen, hij kan niet bij zijn data. Een eerste verzoek om data te geven, is door Tesla Noorwegen geweigerd.

In Noorwegen is er echter een wet die zegt dat burgers het recht hebben op inzage in hun data die z

De internationale conferentie voor webarchivering in Parijs 19-23 mei 2014

Vorig week bracht ik een bezoek aan de conferentie in Parijs van de International Internet Preservation Consortium . PageFreezer was uitgenodigd een presentatie te verzorgen op de “Curation Tools Fair”, een onderdeel van de 5-daagse conferentie.

De locatie van de conferentie was schitterend, de bovenste etage van de ronde toren behorende bij de National Bibliotheek van Frankrijk. De deelnemers waren veelal afkomstig uit alle delen van de wereld van de bibliotheek: bibliothecarissen maar ook opvallend veel technici, werkzaam voor bibliotheekorganisaties, die zich bezig houden met het ontwikkelen van software rondom archiveringstools als Heritrix. Bijdragen waren er vooral van vertegenwoordigers van Nationale Bibliotheken en Universiteiten (waaronder Library of Congress en de Stanford Universiteit)

Het meest opvallend in de presentaties en de discussies was het waarom van het gebruik van een webarchiveringtool. Er zijn twee “uitersten” te benoemen bij het archiveren van het web”

–        Het collectioneren van alle informatie rond een thema;

–        Het verzamelen van alle informatie op een website ter verantwoording.

Toen onlangs de grote schrijver Gabriel Garcia Marques overleed, was een bibliothecaris geïnteresseerd in wat er op het Internet daarover is verschenen. De software crawlt het Internet af en verzamelt URL’s met verwijzingen naar deze gebeurtenis. Een archiveringstool slaat alle URL’s en maakt ook een snapshot van de pagina. Tijdens de conferentie werd veelvuldig melding gemaakt dat de tools die hiervoor worden gebruikt nog veelal handmatig moeten worden bewerkt, zeker als het gaat om de kwaliteitsbewaking.

PageFreezer verzamelt alle gepubliceerde informatie van 1 website, zodat dit gebruikt kan worden voor verantwoording. Hier is de digitale handtekening van belang, zodat een wettig bewijs gevormd wordt van de archiveringsactie. Kwaliteitsbewaking is een belangrijk issue, je moet er immers op kunnen vertrouwen dat alles goed werkt.

Toch kunnen beide werelden wat van elkaar leren: het collectioneren van een thema kan een nuttige aanvulling zijn voor onze klanten (marketinginformatie, cultureel erfgoed). Onze wijze van volledig geautomatiseerd archiveren bevat oplossingen die ook toegepast kunnen worden op andere tools.

Het is in dat opzicht jammer, een andere constatering op de conferentie, dat er op veel plaatsen mooie initiatieven ontstaan, zonder dat men dat van elkaar weet. Een verspilling van tijd en geld in een wereld van  geldbronnen die voor bibliotheken toch niet al te ruim gevuld zijn.

 

John Jansen

PS Een leuk artikel over de waarde van het preserveren van oude websites, met websites uit de jaren 90 van de vorige eeuw.

Het Internet Archief

Onlangs verscheen op Nu.nl een leuk artikel over het Internet Archief. The WaybackMachine archiveert al sinds 1996 het Internet. Inmiddels zijn er al meer dan 400 miljard pagina’s opgeslagen in deze mooie database. Het artikel schetst dat dit prachtige initiatief al menig website heeft gered uit de vergetelheid of domweg omdat de website van het Internet is afgehaald.

Regelmatig krijgen we de vraag wat de verschillen zijn tussen het werk van de Waybackmachine en bijvoorbeeld een dienst als PageFreezer. Een tijd geleden publiceerde n wij daar reeds een blog over.

Vanwege de actualiteit verwijzen we daar graag nog een keer naar, lees hier de verschillen.