Copyright Branko Collin, Amsterdam 2006.

Project Gutenberg

De internetbibliotheek bestaat vijfendertig jaar

De literatuur van de wereld beschikbaar voor iedereen; dit was vijfendertig jaar geleden de droom van Michael Hart. Vandaag telt zijn Project Gutenberg meer dan 18.000 werken die voor iedereen toegankelijk zijn.

Branko Collin

Project Gutenberg is een elektronische bibliotheek van boeken. Via een website kunnen geïnteresseerden boeken uitzoeken en deze downloaden in een formaat dat vrijwel overal te lezen is, en dat zich leent voor knippen en plakken. Zowel fictie als non-fictie is beschikbaar; romans, poëzie, reisboeken, kookboeken, encyclopediën en meer. Deze werken zijn beschikbaar in het Engels, Frans, Duits, Nederlands en zesenveertig andere talen. Het eerste Friese Project Gutenberg-boek, Clypsrimkes (1846), fen G.H. van der Veen, komt eraan.

Voor een historicus moet Project Gutenberg bijzonder interessant zijn. Niet alleen is het waarschijnlijk het eerste privéproject op Internet, maar ook het oudste; vijfendertig jaar na zijn oprichting bestaat het nog steeds. In internetjaren is dat enorm oud. De studie van het project zou veel kunnen zeggen over de ontwikkeling van het internet zelf. Soms verwijzen het internet en Project Gutenberg naar elkaar; in 1989 wou Tim Berners-Lee, de bedenker van het World Wide Web, zijn nog te programmeren browser Enquire noemen, naar het negentiende-eeuwse "boek over alles", Enquire Within Upon Everything. In 2004 gaf Project Gutenberg dit boek opnieuw uit.

In juni 1971 stond een peperdure computer op de campus van de Universiteit van Illinois een deel van zijn tijd niets te doen. Vrienden van Michael Hart waren beheerders van die computer en besloten hem ter waarde van honderd miljoen dollar computertijd te geven. In die tijd had niet iedereen op een universiteit een eigen computer (de pc, de persoonlijke computer, is van een decennium later); als je van een computer gebruik wou maken, moest je die voor een bepaalde tijd reserveren.

Hart wist niet zo gauw wat hij met die nieuwe weelde moest doen, maar nadat hij een pamflet zag waarop ter gelegenheid van de Amerikaanse nationale feestdag de Onafhankelijkheidsverklaring was herdrukt, besloot hij deze over te typen en via het gloedjenieuwe Internet (1969) te verspreiden. Dat laatste moest letterlijk worden genomen; Hart wou het document aan iedereen e-mailen. De eerste spam was bijna geboren; nog net op tijd wisten zijn vrienden hem te weerhouden. In plaats daarvan sloeg Hart het document op waar het door iedereen op internet kon worden gevonden.

In de daarop volgende decennia groeide Project Gutenberg traag. Zo digitaliseerde Project Gutenberg in 1972 de Amerikaanse Bill of Rights. Etext nummer 3 en 4 waren toespraken van Amerikaanse presidenten, en werden in 1973 toegevoegd. In 1974 gebeurde er niets. Een excentrieke jongeman zat in zijn kelder af en toe Amerikaanse politieke teksten in te typen en zette die dan op het dunbevolkte internet.

Voortschrijdende technologie

Maar eind jaren tachtig en begin jaren negentig kwam de omslag; internet begon mainstream te worden – in 1993 maakte AOL het internet toegankelijk voor zijn abonnee's –, en Hart begon de zaken serieuzer aan te pakken; in 1989 verscheen de Bijbel, in 1991 Alice in Wonderland. Dat laatste boek was een hit en is nog steeds een van de meest gedownloade boeken. Vanaf dat moment begonnen ook andere vrijwilligers aan het project te werken.

Daar kwam bij dat OCR-techniek midden jaren negentig volwassen begon te worden, en dat intypen van boeken steeds minder nodig was. In plaats daarvan werd er naar vrijwilligers gezocht die de fouten van de computer uit de ge-OCR-de teksten zeefden. Dat was nogal een werkje, omdat vrijwilligers soms halverwege een boek opgaven; te veel hooi op de vork.

De volgende groeistuip van Project Gutenberg kwam dan ook begin deze eeuw, toen de Amerikaan Charles Franks een systeem voorstelde en bouwde waarmee vrijwilligers zich nuttig konden maken door zelfs maar één pagina te corrigeren: Distributed Proofreaders. In plaats van alle scans van een boek en de volledige ge-OCR-de tekst aan een vrijwilliger te geven, krijgt deze via een centrale server van slechts één pagina de scan en de tekst tegelijk te zien.

Weliswaar kost het hierdoor veel meer vrijwilligersuren om een boek gereed te maken voor Project Gutenberg (een schatting is tot viermaal zo lang), maar zo komt het boek tenminste af.

Dubieuze invloed

Project Gutenberg heeft veel andere projecten geïnspireerd om op ongeveer gelijke voet boeken te digitalizeren en te publiceren. Moderne auteurswetgeving heeft daarbij een dubieuze invloed. Over de hele wereld buitelen landen over elkaar om de bevolking telkens absurdere auteurswetten op te leggen en vaak zijn boeken in sommige landen wel al tot het publieke domein teruggekeerd, terwijl er in andere landen nog een auteursrecht op rust. Dat heeft als gevolg dat er voor elk auteursrechtregime een aparte Project Gutenberg nodig is om niet onnodig werken over te slaan. De Europese Unie probeert hier wel iets aan de doen door de auteurswetten van lidstaten te harmoniseren, maar vaak komt dat neer op het kiezen van de extreemste elementen uit de wetten van individuele landen.

Sommigen van die projecten voeren ook de naam Gutenberg, naar de Duitse uitvinder van het drukken met losse letters – eerst hout, dan lood –, Johann Gutenberg. Er zijn Nederlanders die beweren dat Haarlemmer Laurens Janszoon Coster eerder met deze uitvinding was, en de Nederlandse digitale bibliotheek heette dan ook heel toepasselijk Project Laurens Jz Coster. In dit project lijkt al enkele jaren geen beweging te zitten; de website bestaat nog wel, maar lijkt niet te worden geüpdatet. Andere vergelijkbare projecten zijn Project Gutenberg-DE (Duitsland), Projekt Rastko (Servië), Ebooks Libres et Gratuites (Frankrijk), Project Gutenberg of the Philipines, Projekti Lönnrot (Finland), Project Gutenberg Australië en Project Runeberg (Scandinavië).

Het doel van Project Gutenberg is het gratis beschikbaar maken van zoveel mogelijk wereldliteratuur, voor zoveel mogelijk mensen, voor zo lang mogelijke tijd. In de praktijk betekent dat dat de organisatie zich met name op boeken richt waar geen auteursrecht op rust. Uitzonderingen zijn boeken van auteurs die hun werken bewust onder liberalere licenties vrijgeven, zoals bijvoorbeeld science-fiction-auteurs Cory Doctorow en de dit jaar overleden Robert Sheckley.

Project Gutenberg heeft niet alleen zusterprojecten van buiten de VS, maar ook vrijwilligers van over de hele wereld. Nederlandse en Belgische vrijwilligers hebben bijvoorbeeld gewerkt aan de romans van Cyriel Buysse, Hendrik Conscience, Louis Couperus, Aagje Deken, Multatuli, Frederik van Eeden, Erasmus, Hildebrand, C. Joh. Kieviet, Justus van Maurik jr. en Joost van den Vondel. Ook zijn er vertalingen van onder andere Louisa May Alcott, Gustave Flaubert, Heinrich Heine, Henrik Ibsen, Jack London, Jean Baptiste Racine, Leo Tolstoy, Mark Twain, Jules Verne en Oscar Wilde.

Vrijwilligers

Er zijn elke dag enkele honderden vrijwilligers actief voor Project Gutenberg, met name via de Distributed Proofreaders-websites. Wat drijft deze mensen om hun vrije tijd op te offeren aan het digitaliseren van boeken die ze mogelijk zelf nooit zullen lezen? Voor sommigen is het een mogelijkheid iets terug te geven aan een project waar ze al jaren gebruik van maken.

Een vrijwilliger schrijft: "Ik kon het voordeel van elektronische boeken inzien. Stel dat je een boek gelezen had, en er twee dagen later een fantastisch citaat uit herinnerde om een vriend mee op te vrolijken. Dan zou je daadwerkelijk in staat zijn dat citaat te vinden, alleen maar door de enkele woorden die je kon herinneren in een zoekvlak in te vullen. Ik wou meer boeken aan een dergelijke vorm helpen."

Maar het vooruitzicht om een heel boek te digitaliseren weerhoudt sommigen ervan aan het project mee te doen. Dezelfde vrijwilliger: "Ik had geen idee dat er zoiets als Distributed Proofreaders was en vroeg me af of ik wel in staat zou zijn een heel boek in te scannen en te controleren toen ik in het vrijwilligersdeel van gutenberg.org de link naar pgdp.net zag."

Eenmaal binnen blijven vrijwilligers voor de vriendschap, de mogelijkheid om hun ingebouwde Pietje Precies de vrije teugel te geven, om van boeken die ze anders nooit zouden lezen enkele willekeurige pagina's te lezen en het gevoel iets nuttigs te doen. Er zijn ook lezers die zich enorm kunnen ergeren aan de fouten die ze in boeken tegenkomen en die daar via Project Gutenberg eindelijk iets aan kunnen doen.

Distributed Proofreaders is slechts één exponent van een voortschrijdende techniek; ook scanners worden sneller en beter, en de apparaten waarvan mensen lezen worden handzamer. In een enquete die ik hield op het Teleread-blog werd de vraag of lezers hun thuisbibliotheek wilden scannen door een overtuigende 95 procent met "ja" beantwoord; het enige waar de bezoekers van mening over verschilden was hoe makkelijk dat zou moeten zijn. Niet iedereen gaat er daarbij vanuit dat de boeken ook ge-OCR-d en vervolgens gecorrigeerd gaan worden. Bij apparaten als de Nokia 770 en de Irex Iliad is de resolutie van het scherm zo hoog, dat er rechtstreeks vanaf paginascans kan worden gelezen. Weliswaar kan er niet uit die boeken worden geciteerd door te knippen en plakken, maar dat kan met papieren boeken ook niet. Van elektronische boeken kun je in tegestelling tot hun papieren tegenhangers tenminste een hele bibliotheek tegelijk meenemen.

Scanners als de Plustek Opticbook (ca. 230 euro) en met name de Atiz Bookdrive (US$ 6200) liggen mogelijk nog net buiten het prijsbereik van de thuisgebruiker, maar maken het kleine organisaties al makkelijker hun eigen archief te digitaliseren. Dat de prijs bij de Bookdrive wordt genoemd is al een hele vooruitgang – tot voor kort viel dit type scanner in de categorie "als u om de prijs moet vragen, kunt u hem niet betalen". De Opticbook is een traditionele flatbedscanner, zij het met een scanplaat die tot de rand van het apparaat doorloopt, en de Bookdrive is een zogeheten planetary scanner, wat betekent dat het een camera op een statief is die foto's van pagina's maakt. Bij de laatste ligt een boek opengeslagen in een v-vorm, zodat de rug niet snel beschadigd raakt, en zijn er in twee hoeken digitale camera's gemonteerd. Een glazen plaat drukt de pagina's plat. De Bookdrive maakt daarbij zoveel mogelijk gebruik van componenten die kunnen worden hergebruikt; zo is het apparaat voor 4000 euro te koop als u de camera's zelf levert.

[productfoto van de Plustek Opticbook] [productfoto van de Atiz Bookdrive]
Illustratie 1 en 2: de Plustek Opticbook en de Atiz Bookdrive scannen pagina's zonder bolling, zodat er minimale nabewerking nodig is en OCR-software gemakkelijk met de resulterende scans overweg kan. Bron foto's: Plustek respectievelijk Atiz.

Toekomstperspectief

Google, The Internet Archive, en de nationale bibliotheek van Frankrijk zijn drie organisaties die in alle ernst aanvang hebben gemaakt met het scannen van tienduizenden boeken. Vaak blijft het bij scannen en aanbieden, alhoewel The Internet Archive ook aan het experimenteren is met OCR. Daarnaast zijn er duizenden kleine archieven en musea bezig met het digitaliseren van hun collectie. Voor Project Gutenberg is daarbij de vraag hoe waardevol zijn werk blijft. Op het moment heeft het project met meer dan 18.000 werken, waarvan een groot deel klassiekers, een verzameling die nog niet is geëvenaard. Daarbij maken met name de drie eerstgenoemde organisaties het Project Gutenberg makkelijk om zich minder op het scannen te concentreren en meer aandacht aan het correctieproces te besteden.

[foto van een boekomslag]
Illustratie 3: Ontboezemingen, van Gabriël (een pseudoniem van Carel van Nievelt), zal dank zij Project Gutenberg voor het eerst in ruim honderd jaar weer in Nederland verkrijgbaar zijn.

[schermafdruk]
Illustratie 4: Distributed Proofreaders maakt het mogelijk om de OCR-uitvoer van een enkele gescande pagina te corrigeren.

Mag het?

Project Gutenberg bevat boeken die in de Verenigde Staten zijn teruggekeerd naar het publieke domein, wat wil zeggen dat er geen auteursrechten op rusten en iedereen die werken dus mag kopiëren. Het gaat dan om werken die uiterlijk 1922 zijn gepubliceerd, of werken die door de Amerikaanse federale overheid zijn uitgegeven. (Zo zijn foto's van de NASA, het ruimtevaartbureau, ook in het publieke domein.) Mag een Nederlander dergelijke boeken lezen?

Als het om Amerikaanse auteurs gaat, bevinden werken die in de VS "pd" zijn zich over het algemeen ook in Nederland in het publiek domein. In de EU geldt immers de regel van de kortste termijn; rusten in het land van oorsprong geen auteursrechten meer op een werk, dan doen ze dat ook niet in de EU. Voor alle overige werken geldt dat als de auteur meer dan 70 jaar geleden is overleden, het werk ook in het publieke domein is.

Maar zelfs werken die niet in het publieke domein zijn, mag een Nederlander voor eigen gebruik kopiëren en dus ook downloaden. Dit geldt voor vrijwel alle categoriën werken, zoals boeken, muziek en films. Uitzonderingen zijn onder andere architectuur en software.

Leesbaarheid

Veel, met name oudere digitale teksten van Project Gutenberg zijn alleen beschikbaar in platte-tekstformaat. Het is een formaat dat vaak is bekritiseerd, maar dat bestaat om een reden. Platte tekst is namelijk een formaat dat vrijwel elke computer probleemloos kan weergeven. Waar andere digitale archieven ten gronde zijn gegaan, omdat er "rijke" bestandsformaten werden gebruikt die geen computer vandaag de dag meer kan lezen, kan Project Gutenberg zelfs nu nog zijn allereerste tekst ter download aanbieden. Een ander onderdeel van die strategie heet LOCKSS: Lots Of Copies Keeps Stuff Safe. Project Gutenberg mirrort naar een dertigtal websites, zodat het uitschakelen van één site geen invloed heeft op de beschikbaarheid van de boeken.

Het nadeel van het gekozen tekstformaat is dat de teksten van het project soms lastig zijn te lezen, omdat ze opmaakconventies gebruiken die u mogelijk niet gewend bent of onprettig vindt.

Maar! De meeste Project Gutenberg-boeken zijn in het publiek domein! U mag er mee doen wat u wilt! Als u een etext netjes vormgegeven in een PDF-bestand wil zetten, dan kan dat.

Het project gebruikt meestal de volgende conventies:

Als u dat eenmaal weet, kunt u met de zoek-en-vervang-functies van een eenvoudige tekstverwerker de tekst in een voor u acceptabele vorm gieten.

Overigens worden veel boeken van Project Gutenberg tegenwoordig ook in een HTML-formaat uitgebracht, dat meer mogelijkheden biedt om originele stijlen te handhaven. Importeer deze bijvoorbeeld in OpenOffice.org Writer en exporteer als PDF. Wilt u er een echt, gedrukt boek van maken, vergeet dan niet de marges bij de rug wat te vergroten.

[schermafdruk]
Illustratie 5: Met programma's als Microsoft Word en OpenOffice.org Writer verander je een e-book zo in een p-book.

Nederlandse literatuur gedigitaliseerd

Als het om het via het internet publiceren van Nederlandse literatuur gaat, zijn er naast vele winkels die moderne werken verkopen, een drietal grote websites waar de klassieke boeken gratis zijn te downloaden. Naast Project Gutenberg en het al genoemde Project Laurens Jz Coster is er ook De Digitale Bibliotheek voor de Nederlandse Letteren. Uit zijn colofon: "De Digitale Bibliotheek voor de Nederlandse Letteren is een website over de Nederlandse taal en literatuur. De site bevat literaire teksten, secundaire literatuur en aanvullende informatie als biografieën, portretten en hyperlinks. De Digitale Bibliotheek voor de Nederlandse Letteren is een initiatief van de Stichting dbnl die in 1999 werd opgericht door de Maatschappij der Nederlandse Letterkunde."

Maar daar houdt het niet op. Als u op zoek bent naar boeken waarvan u vermoedt dat deze elektronisch beschikbaar zouden kunnen zijn, bijvoorbeeld omdat er geen auteursrecht meer op rust, dan kunt u ook een kijkje nemen bij de sites van talloze literaire genootschappen en fans.

Zo heeft de website Letteren Online veel, zo niet alles van Louis Couperus. Het Louis Couperus Genootschap wist dit, en linkte ernaar. Leestip: Het Zwevend Schaakbord (etext 14850) verhaalt van een dystopisch alternatief verleden, waar Ridders van de Ronde Tafel minstens zoveel met technologie als met vijanden van vlees en bloed worstelen. Het fictieve middelnederlands kan op de zenuwen werken.

Snelkoppelingen
Project Gutenberg www.gutenberg.org
Nederlandse boeken op Project Gutenberg www.gutenberg.org/browse/languages/nl
Project Coster cf.hum.uva.nl/dsp/ljc/
Digitale Bibliotheek der Nederlandse Letteren www.dbnl.org
Louis Couperus Genootschap www.louiscouperus.nl
Digitaliseringsblog van Klaus Graf archiv.twoday.ne
Begrippen
OCR Afkorting van Optical Character Recognition, letterlijk optische tekenherkenning; een afbeelding van tekst wordt in computerleesbare tekst omgezet.

Meer eenvoudige artikelen over het gebruik van uw pc treft u aan op mijn homepage.

Dit artikel is verschenen in het nummer oktober 2006 van PC Active, en werd herdrukt in nummer 9 - 2006 van het computerblad PC Plus.