Andermans site scrapen, wanneer mag dat?

Door ArnoudEngelfriet op 28 januari 2008

Scrapen is een vorm van uitbesteden. Een zoekmachine bouwen is veel werk. En dat geldt niet alleen voor algemene zoekmachines zoals Google, maar ook voor speciale zoekmachines voor huizen, auto’s, contactadvertenties en noem maar op. Veel van dat werk zit hem in het verzamelen en onderhouden van de content. Hoe houd je je database up-to-date, wanneer verwijder je een te koop staand huis en bij welke advertenties moet je ingrijpen omdat er iets illegaals wordt verkocht? Erg fijn dus als je al dat gedoe kunt uitbesteden, en jij je alleen bezig hoeft te houden met zoekresultaten tonen – en natuurlijk de advertenties er omheen.

Met de juiste scriptjes kan dat allemaal volautomatisch. Je geeft zoekopdrachten door naar de achterliggende site(s) die je gebruikt, je verwijdert de oorspronkelijke layout, advertenties en andere ongewenste zaken van de resultaten en je zet er je eigen layout omheen. Kost een middag met PHP, en af en toe wat aanpassingen omdat de sites die je gebruikt zo onbeleefd zijn om zomaar hun layout aan te passen.

Juridische maatregelen

Het moge duidelijk zijn dat de beheerders van die achterliggende sites hier niet blij mee zijn. Zij doen al het werk en jij gaat met de advertentieinkomsten lopen. Nu kun je natuurlijk allerlei technische trucs gaan uithalen, zoals IP-adressen blokkeren of de layout steeds een beetje aanpassen, maar dat is heel erg vermoeiend en bovendien heb je als advertentiesite of zoekmachine meestal wel iets beters te doen dan allerhande bijdehante botjes buiten houden. Dat kun je dan ook maar beter uitbesteden aan je advocaat. Want een vonnis tot staken en gestaakt houden van dat scrapen op straffe van een dwangsom van 1000 euro per dag is een stuk effectiever dan een .htaccess bestand of /etc/hosts.deny van ettelijke kilobytes.

Maar ja, dan moet die advocaat wel een recht in stelling kunnen brengen. Zomaar iets laten verbieden gaat meestal niet. Dus wat valt er juridisch te doen tegen scrapen? Of omgekeerd, wat mag je scrapen van andermans site?

Auteursrecht

Als de scraper de site leegtrekt en op zijn eigen site aanbiedt, dan is het meestal makkelijk. Dat noemen we inbreuk op auteursrecht en dat mag niet. Slimme scrapers bouwen dus een systeem dat ter plekke zoekopdrachten doorgeeft en het resultaat ombouwt naar hun eigen layout. Dat is geen inbreuk op het auteursrecht, want er zit geen auteursrecht op een lijst met zoekresultaten (SERPS). Een SERP is door een machine gegenereerd, en pas als een mens een creatieve keuze maakt over wat wel of niet getoond moet worden, kan er auteursrecht op de pagina gelden. Een pagina uit DMOZ of Yahoo! is dus wel auteursrechtelijk beschermd, want daar werken menselijke redacteuren.

Databankenrecht

Toch is scrapen van andermans site daarmee niet automatisch legaal. Al bijna tien jaar kennen we in Nederland het databankenrecht, dat databanken beschermt tegen (integraal of grotendeels) overnemen en tegen ongeautoriseerd opvragen van gegevens uit de databank. Vooral dat laatste is bedoeld tegen scrapers: opgvragen van gegevens uit een databank mag niet botsen met de normale exploitatie van de databank, en bovendien geen ongerechtvaardigde schade toebrengen aan de rechtmatige belangen van de producent van de databank.

Om een databankrecht te claimen, moet je aantonen dat je een substantiële investering hebt gedaan om de databank te verkrijgen, in de zin van tijd, geld en/of moeite die je in het maken of onderhouden hebt gestoken. Wat “substantieel” is, staat niet in de wet, maar 1,9 miljoen euro voor de Autotrack-site werd november vorig jaar als substantieel aangemerkt. In ieder geval ligt de bewijslast bij de producent van de database.

Het grote struikelblok hier is dat de investering gestoken moet zijn in het bouwen van de databank. Niet op het vergaren van de gegevens. Sites zoals Marktplaats, Monsterboard of Autotrack hebben bijvoorbeeld een databankrecht op hun advertentieaanbod. Zij steken hun tijd, geld en moeite namelijk primair in het onderhouden en doorzoekbaar maken van al die advertenties. Maar een site met nieuwsberichten, bijvoorbeeld Nu.nl, is geen beschermde databank. Nu.nl investeert in het verzamelen van nieuwsberichten. Dat die dan toevallig in een CMS met een database gestopt worden, is juridisch niet relevant. In 2004 oordeelde het Europese Hof van Justitie dat een organisator van paardenrennen geen databankrecht had op de overzichten van welke paarden waar meededen en wie welke race won. De investering was gericht op het organiseren van de races, en het overzicht op internet was daar een toevallig bijproduct bij. Je hebt alleen een beschermde databank, aldus het Hof, als je speciaal geïnvesteerd hebt in de databank.

Overtypen

De eerste die met haar databankrecht begon te zwaaien, was KPN – natuurlijk over de telefoongids. Een telefoongids is niet beschermd door het auteursrecht. Die mag je dus overtypen, zou je denken. Niet dus, omdat dat integraal overnemen van een beschermde databank is. Diverse alternatieve telefoonboeksites werden dan ook al snel door KPN gesloten. Ook de ‘i-telgids’ van het bedrijf XSO moest ophouden met het scrapen van zoekresultaten uit detelefoongids.nl omdat dit inbreuk op het databankrecht van KPN was.

Wat dan weer wel mag, is je eigen telefoonboek maken met precies dezelfde telefoonnummers als de KPN-gids. Je moet dat alleen dan wel helemaal zelf doen, zonder “hulp” van de KPN-gids. Om illegaal overnemen te kunnen aantonen, heeft KPN dan ook spookadressen in haar telefoonboek staan. Atlassen en kaartensites doen iets vergelijkbaars met spookstraten of zelfs spookdorpen. Als die spookadressen of straten ook in jouw gids staan, heb je wat uit te leggen. Maar een beheerder van een site met lijsten van campings werd vrijgesproken van inbreuk op het databankrecht van de Stichting Vrije Recreatie (SVR). Hij kon met brieven van de campinghouders aantonen dat hij zijn lijst zelf had gemaakt, en dat het dus gewoon toeval was dat al zijn campings ook op de SVR-lijst stonden.

De Funda-soap

Ongeveer de helft van de jurisprudentie over databankrecht is “Nederlandse Vereniging van Makelaars versus iemand die Funda wil scrapen”, en dat is niet zo gek, want de huizenmarkt is erg lucratief. De Telegraaf was de eerste met El Cheapo, dat de zoekresultaten van Funda schraapte en toonde alsof het haar eigen zoekmachine was. Dat mocht niet, oordeelde de Hoge Raad in 2002, want Funda was een beschermde databank. Funda had flink geïnvesteerd in die site. Onder andere had ze iedere NVM-makelaar van een terminal voor het uploaden van advertenties voorzien – zo’n 19.000 gulden per stuk.

Zoekallehuizen had het dan handiger bekeken: die namen Funda niet over, maar gingen gewoon naar de sites van de individuele makelaars, waar immers al die advertenties ook staan. Kost iets meer werk, maar daar heb je spiders voor. Dit mocht: de makelaars waren immers niet bezig met een databank met huizenadvertenties, maar met het verkopen van huizen. De advertenties op hun site waren dus niet beschermd onder het databankenrecht. En Zoekallehuizen toonde niet de hele advertentie, maar alleen een kort stukje tekst, een verkleinde foto en een hyperlink naar de originele advertentie op de site van de makelaar. Dat valt onder het citaatrecht; Zoekallehuizen kondigt zo aan wat er te zien is achter de hyperlink.

Eigenlijk deed Zoekallehuizen dus niets anders dan wat Google doet. Indexeer allerlei sites, toon een kort stukje op je SERP en laat mensen klikken om bij de eigenlijke pagina te komen. Dat mag, ook als je niet zoals Google het hele Web indexeert maar alleen een bepaald soort websites. De enige uitzondering hier was de ZoekMP3 zoekmachine, die zich specifiek richtte op MP3-muziek. Gespecialiseerde zoekmachines mogen in principe, maar ZoekMP3 had moeten weten dat MP3′s vrijwel altijd illegaal worden aangeboden. Daarom werd ZoekMP3 verboden.

Ondertussen terug bij de huizenzoekmachines was er een nieuwe speler verschenen: Jaap. Deze site ging nog een stapje verder, en kopieerde de huizenadvertenties integraal, om die op haar eigen site te tonen. Dat mocht niet, want dat was inbreuk op het auteursrecht van de makelaars. We weten immers allemaal hoe veel creativiteit er komt kijken bij een goede huizenadvertentie schrijven (“badkamer met douche in courante retrokleuren, voorzien van originele betegeling”). Maar ook Jaap werd toegestaan om de advertenties te indexeren en met een eigen zoekmachine een overzicht te tonen van relevante huizen. De rechter was hier opmerkelijk precies: de zoekresultaten mochten niet meer dan 155 tekens zijn, met één thumbnail van 194×145 pixels. Dit om te voorkomen dat de NVM volgende week weer op de stoep zou staan met de klacht dat Jaap te veel citeerde.

Gaspedaal

De autosite Autotrack heeft wel een databankrecht, schreef ik hierboven. Toen de site Gaspedaal.nl dan ook een proces aan haar broek kreeg wegens het scrapen van (onder andere) Autotrack, leek dat een uitgemaakte zaak. Toch won Gaspedaal het. Gaspedaal’s werkwijze was eenvoudig: zoekopdrachten werden doorgegeven naar Autotrack en nog zes andere sites, en de geschraapte resultaten werden als één resultaatpagina getoond. Gaspedaal nam de databank niet geheel of grotendeels over. Maar dit is natuurlijk wel herhaald en systematisch opvragen van gegevens uit de databank. Dus hoezo won Gaspedaal dan?

Herhaald en systematisch opvragen mag dus, zolang het maar geen ongerechtvaardigde schade toebrengt aan de rechtmatige belangen van de producent van de databank. Wie een databank op internet aanbiedt, kan niet zomaar meer verbieden dat mensen dingen opvragen uit die databank, is de gedachte. Schade zal hem met name zitten in het stukje bij beetje “leegtrekken” van de databank. Dat is niet de bedoeling, dus zulke schade zal moeten worden vergoed. Maar als Google (de grootste scraper van allemaal) iemand direct naar een contentpagina leidt, loopt de site weliswaar de advertenties op de homepage mis, maar dat is geen ongerechtvaardigde schade.

De vraag is dus of de manier van hergebruik van Gaspedaal ongerechtvaardigd schade toebrengt aan Autotrack. En dat was volgens de rechtbank niet het geval. Weliswaar liep Autotrack advertentieinkomsten mis omdat mensen nu direct binnen komen bij de individuele advertenties, maar daar stond tegenover dat Gaspedaal nieuwe klanten aanbracht. Omdat dat verder allemaal nogal speculatief was, was de rechter niet overtuigd dat Gaspedaal voor veel schade zou gaan zorgen. Dat moest dan maar met verder bewijs in een bodemprocedure worden uitgevochten.

Gebruiksvoorwaarden

Als auteursrecht en databankrecht allebei niet opgaan, dan heb je altijd nog de gebruiksvoorwaarden. Je webserver is je eigendom, en jij mag kiezen op welke manier mensen van je servers gebruik maken, zo oordeelde de Hoge Raad in 2004. Je kunt dan ook voorwaarden stellen aan het gebruik van een website. Zo had een e-mailgids in 2002 in haar reglement verboden om adressen op te vragen om daar spam, pardon direct mail naar te versturen. En toen een spammer dat toch deed, werd dat als in strijd met het reglement verboden.

Hiervan maken sites zoals Google gebruik wanneer zij een API aanbieden om geautomatiseerd gegevens op te vragen van hun site. Programmeurs die deze API willen gebruiken, moeten een overeenkomst (EULA) sluiten voordat ze toegang krijgen. In deze EULA staat dan vaak dat de gebruiker belooft de data slechts voor bepaalde doelen te gebruiken, op door de site voorgeschreven manieren te tonen en geen misbruik van de dienst te maken. Dat mag allemaal, en wie zo’n EULA accepteert, zit aan de voorwaarden vast.

Dat Gaspedaal-vonnis valt hier een beetje uit de toon. Autotrack had natuurlijk ook in haar gebruiksvoorwaarden het scrapen, spideren en anderszins overnemen verboden. Maar volgens de rechter mocht Autotrack niet in haar gebruiksvoorwaarden iets verbieden waar ze geen rechten op konden doen gelden. En Autotrack mocht met haar databankrecht het overnemen niet verbieden, dus dan ook niet via de gebruiksvoorwaarden.

Bottom line

Scrapen kan voor complexe juridische problemen zorgen. Relatief duidelijk is het geval waarin hele lappen tekst worden overgenomen. Dat valt meestal onder inbreuk op auteursrecht of onder het kopje “integraal overnemen van een databank”. Tenzij je kunt aantonen dat je niet hebt overgenomen maar dezelfde informatie op eigen houtje hebt verzameld.

Bij het herpubliceren van zoekresultaten of het bouwen van een eigen index voor pagina’s op andermans site, komt het neer op de vraag of de beheerder van de oorspronkelijke site “ongerechtvaardigde schade” lijdt. Wanneer je slechts kleine stukjes tekst laat zien en doorverwijst naar de oorspronkelijke pagina, zal dat niet snel het geval zijn. Wat natuurlijk niet uitsluit dat de eigenaar van de site daar anders over denkt en via een gerechtelijke procedure zijn gelijk probeert te halen.

Arnoud Engelfriet is ICT-jurist en partner bij juridisch adviesbureau ICTRecht. Zijn site Ius Mentis heeft meer dan 350 artikelen over internetrecht, technologie en intellectueel eigendom.


Je kunt een reactie, achterlaten of een trackback van uw eigen site.

17 Reacties op “Andermans site scrapen, wanneer mag dat?”

  1. Erik-Jan

    Schitterend artikel Arnoud! Mooi diepgaand en erg uitgebreid. Ik snap niet alles, maar wel weet ik dat dus de artikelen van Netters niet volledig gescraped mogen worden. Nu gebeurt dat meestal ook niet, omdat mensen alleen de feed publiceren, waar slechts een deel van het artikel in staat. Leuke content!

    Reageer
  2. ivolution

    Dit is inderdaad een zeer mooi artikel! Normaal zie je bij dit soort internetrecht-stukjes vrij veel subjectieve waarnemingen, ongefundeerde claims en vervalt men snel in vaag taalgebruik. Bij deze post is dat echter niet het geval.

    Hulde!

    Reageer
  3. MacSeth

    Heel goed artikel…hier heb ik zeker wat aan :)

    Reageer
  4. Elja

    Erg interessant artikel, Arnoud!
    Toevallig ook net actueel voor een projectje waar ik mee bezig ben. :)

    Reageer
  5. no1san

    Inderdaad een mooi artikel.
    Echter zit er verschil in het scrapen als je RSS feed gebruikt om content op je eigen site te publiceren?

    De aanbieder is dan (volledig?) in control.

    Reageer
  6. oeroek

    Informatief artikel. Net een paar punten waar ik naar op zoek was.

    Bij mij blijft ook de vraag of er verschil is bij het scrapen van een rss feed.

    Wat nu als je 5 feeds scraped en de “verkorte” berichten geautomatiseerd overneemt op je eigen log. Of wat als de feed het volledige bericht reeds bevat?

    Reageer
  7. vincent

    Als je een rss-feed levert, wéét je toch dat hij elders geplaatst kan worden?

    Goed artikel, hoop dat er zo nog vele mogen volgen! Duidelijk uitgelegd waarom iets wel en iets niet door de beugel kan :)

    Reageer
  8. MacSeth

    Wat ik me afvraag is of er een daadwerkelijk verschil zit tussen het scrapen en opslaan van bepaalde gegevens en alleen maar weergeven ervan ZONDER het op te slaan.

    Reageer
  9. ArnoudEngelfriet

    @oeroek: Bij RSS feeds ligt het iets eenvoudiger. De inhoud van zo’n feed bevat meestal auteursrechtelijk beschermde tekst, en die mag je dan niet zomaar herpubliceren. Zie mijn RSS feeds herpubliceren op je eigen site. Je moet dan een feed zoeken die je mag hergebruiken (zoals nu.nl, de telegraaf en nog meer sites doen), of een feed van een Creative Commons site gebruiken (zoals de mijne).

    Overnemen van een kort stukje om lezers ‘lekker’ te maken mag in het kader van het citaatrecht, maar dan moet je wel duidelijk maken dat het een bericht van elders is. Niet doen of het je eigen nieuws is, maar een kopje als “Het laatste nieuws van nu.nl” er boven en een link naar hun site.

    @MacSeth: ik zie het verschil niet. In beide gevallen herpubliceer je de informatie in je eigen pagina. Of je het nu elke keer snel even ophaalt of een oude kopie cachet maakt juridisch niet uit. De gecachete kopie zelf tonen (dus met een URL op je eigen site) is inbreuk op het auteursrecht. En ja dat maakt de Google Cache de grootste inbreukmaker op deze planeet (nummer 2 is het Internet Archive).

    Arnoud

    Reageer
  10. MacSeth

    Als Google zoveel inbreuk maakt op het copyright… waarom is ze dan verder niet/nauwelijks aangeklaagt? Wegens een economisch voordeel?

    Website-eigenaren hebben vaak een grote mond maar vervolgens doen ze niks om bots tegen te houden (zoals die van google)… sterker nog… vaak staat standaard in de code voor de botjes: index, follow…

    Met andere woorden: vrijwel iedere site-eigenaar geeft in die kleine code toestemming zijn pagina’s te laten crawlen (en indexeren) of dat nu bewust of onbewust gebeurd.

    Daarmee graven ze indirect een deel van het copyright weg denk ik zo. (ik heb het even gemakshalve niet over het kopieren van hele lappen tekst maar over het scrapen van een klein deel ervan die onder het citaatrecht vallen).

    Reageer
  11. Aldert

    Dat stukje code is alleen bedoeld voor de zoekmachines, omdat je weet dat die mensen naar jouw site helpt. Daarmee geef je nog niet iemand (concurrent) het recht de tekst volledig op de eigen site te zetten, zonder link naar de originele pagina.

    De Google cache is uiteraard een uitzondering, maar dat leidt volgens mij bij niemand tot economische schade, omdat de pagina exact zo weergeven wordt (dit geldt ook voor IA.org).

    Pas zodra als beschreven in het zeer interessante artikel er andere advertenties bij geplaatst worden, levert het schade op.

    Reageer
  12. MacSeth

    @ Aldert… en je wil zeggen Google GEEN advertenties weergeeft (en dus indirect schade kan betekenen voor een onderneming) bij zoekresultaten?.

    Google scraped absoluut content van websites (al is het zeer marginaal)…. feit is wel dat ze nu 100 miljard waard zijn over de “rug” van andere websites en de privacy van mensen en bedrijven redelijk in het geding komt.

    Begrijp me niet verkeerd… je kunt ook veel verdienen aan google en yahoo… punt is wel dat ze 1 lijn moeten trekken… daarom heeft Google het op den duur ook mogelijk gemaakt om UIT de index gehaald te worden.

    Overigens: Wie zegt dat robots/spiders alleen door traditionele zoekmachines mogen worden gebruikt?

    Reageer
  13. ArnoudEngelfriet

    M.i. durft niemand Google aan te pakken omdat de schade voor henzelf veel groter zal zijn dan wat je van Google gaat krijgen. Hoe veel heeft Google verdiend aan specifiek jouw content, zal de rechter vragen. Niet veel, dus de schadevergoeding die je krijgt, is laag. Vervolgens word je natuurlijk uit de index en alle SERPs gegooid, en dat doet pijn.

    Bij die Jaap-zaak kwam ook de discussie naar voren wanneer je opt-in of opt-out zou moeten doen. Wanneer mag je zomaar iedereen in je index stoppen en wanneer moet je eerst toestemming vragen?

    Reageer
  14. MacSeth

    Quote Arnoud: Wanneer mag je zomaar iedereen in je index stoppen en wanneer moet je eerst toestemming vragen?

    @ Arnoud: Ik exploiteer zelf een site waarbij websites in een index komen. In principe krijg ik zelden negatieve reacties. Krijgen wij die wel dan verwijderen wij de websites indien dat gewenst is.

    Dit is ook de methodiek die Google gebruikt: ze indexeren websites ongevraagd en wil je er uit worden gehaald dan moet je een bepaalde procedure volgen.

    Ik denk dat dat een redelijk succesvolle formule is.

    Reageer
  15. Bartman

    Beste Arnoud,

    Mooi artikel. Het sluit voor een deel ook aan bij mijn afstudeeronderwerp, namelijk gebruiksvoorwaarden bij websites. Je zei hierover dat de HR in 2004 een uitspraak had gedaan, in de alinea ‘Gebruiksvoorwaarden’. Ik heb geprobeert te zoeken naar dat arrest, maar ben daar niet in geslaagd. Heb je een LJN nummer, of precieze datum voor me? Dat zou me geweldig helpen met mijn onderzoek, omdat ik nogal aan het worstelen ben geweest met de toepasselijkheid van gebruiksvoorwaarden (wanneer, als het al toepasselijk is?). Ik heb onder andere het Netwise/NTS vonnis al gelezen, maar ik geloof niet dat dit hetzelfde is.

    Alvast bedankt!

    Groetjes, Bart

    Reageer
  16. ArnoudEngelfriet

    Sorry, ik zie je reactie nu pas. Die uitspraak uit 2004 is HR XS4All vs Ab.Fab, LJN AN8483.

    Zou ik een kopie van je scriptie mogen hebben tzt? Het is een erg relevant onderwerp waar nog maar weinig over geschreven is (althans, weinig juridisch onderbouwd).

    Reageer
  17. Jerome

    @MacSeth, Ik kan me wel vinden in wat jij daar meegeeft.
    Google doet idd hetzelfde en ik denk dat je ook op een ‘eerlijke’ manier scrapen.

    Reageer

Reageer!