Scraper site

site web extrayant et copiant les données d'autres sites

Un scraper site (traduction littérale, site rebut) est un site Web qui ne contient aucune information utile pour un internaute.

Certains scraper sites copient le contenu d'un ou de plusieurs autres sites utilisant une technique appelée web scraping. Ces sites n'ont pas de valeur parce qu'ils contiennent des informations déjà disponibles sur d'autres sites. De plus, comme les scraper sites ne sont pas mis à jour lorsque les sites sources sont mis à jour, ils deviennent rapidement désuets.

D'autres scraper sites contiennent des mots choisis aléatoirement dans un dictionnaire auxquels sont ajoutés des mots fréquemment recherchés (comme sexe et nudité) et des publicités. Comme les publicités sont les seuls éléments compréhensibles de ces sites, les visiteurs ont parfois le réflexe de cliquer sur ces publicités, ce qui est l'objectif premier du propriétaire du site.

Le but du scraper site est d'attirer des internautes pour générer des revenus avec les publicités affichées sur le site. Les scraper site attirent les internautes en trompant les moteurs de recherche qui affichent des liens vers ces sites dans les résultats de recherche. Comme les scraper sites tentent de tromper les moteurs de recherche, ils sont considérés comme des référencements abusifs et les algorithmes des moteurs de recherche comme le PageRank de Google tentent d'identifier ces sites pour les éliminer des résultats des recherches (voir la mise à jour Penguin de Google).

Légalité modifier

Les scraper sites qui copient des informations à partir d'un site dont le contenu n'est pas libre violent la propriété intellectuelle de ces sites.

Même les scraper sites qui copient des contenus libres violent souvent les conditions des licences de ces sites. Par exemple, la licence de documentation libre GNU spécifie que les republieurs doivent informer leurs lecteurs des conditions des licences d'utilisation des informations et doivent créditer les créateurs des informations. Les scraper sites remplissent rarement ces conditions.

Notes et références modifier