Archives d’Internet : Papa Noël sait si tu as copié le contenu d’un site

Moi qui naïvement utilisais la Wayback Machine de Archive.org dans un objectif de recherche pour mon mémoire, j’ai récemment appris que cela pouvait également être un outil pour aller chercher des contenus de domaines expirés et les réutiliser (sans en avoir été l’auteur).  Voilà donc une petite occasion pour moi de vous parler des archives de l’Internet français enregistrés par la Bibliothèque Nationale de France.

Attention, ceci est un billet Gentil-Hat.

Dans le cadre d’une publication papier, dans l’ancien temps donc,  (Florian Marlin vit dans l’ancien temps, cela explique sa nature de Géant) lorsqu’on décide d’éditer un livre en France il faut aller voir la BNF et lui dire “bonjour monsieur BNF, j’ai publié un pavé, voici trois exemplaires” (ordonnance de Montpellier de 1537).

On appelle ça le dépôt légal. Il a notamment pour objectif de centraliser toutes les livres et de s’assurer de leur pérennité.

Dans le cadre du numérique et notamment de l’Internet, il s’est bien entendu posé la question de la publication Web. Puisque la BNF archive les journaux, les magazines… pourquoi pas les blogs et autres ? Après tout, ce sont des publications publics, par des auteurs qui ont parfois un peu travaillé sur leurs textes. Pourvu qu’il s’agit de contenus destinés à une communication au public, ils s’inscrivent dans cette optique (article L. 131-2 du Code du patrimoine).

Comment cela se passe ?

La BNF utilise le terme très poétique de robot moissonneur. L’archive par la copie des sites est donc automatisée et pour ce faire un cadre juridique précis a été mis en place. Dans les grandes lignes, il faut savoir qu’il y a une exception faite du droit d’auteur français pour permettre cette pratique : la BNF est autorisée à copier/dupliquer les sites.

Quant à leur accès aux archives, il n’est autorisé en entier que par les personnes accréditées pour entrer dans la bibliothèque de recherche de la Bibliothèque Nationale de France. Cette accréditation peut s’obtenir sur demande à la suite d’un entretien qui justifie les motifs de votre recherche.

Ce n’est pas nouveau, tout le monde ne peut pas accéder à la bibliothèque de recherche. Ici cette mesure est mise en place dans l’objectif de protéger les données personnelles spécifiquement attachées aux publications numériques. Les sites en cache de la Wayback Machine, c’est un peu du gadget à côté.

Tout ne peut pas être collecté non plus, la BNF archive donc en priorité les sites du *.fr. Il y a deux types de collecte : une large, et une ciblée mis en place par les bibliothècaires pour la constitution de collections.

C’est depuis 2006 que la Bibliothèque Nationale de France a pour mission de collecter les sites du domaine français au titre du dépôt légal. Les sites sont collectés, conservés puis communiqués dans le cadre de la recherche. Aujourd’hui, les archives constitués représentent plus de 16 milliards de fichiers.

Notez que les archives datent de 1996 à aujourd’hui.

Google n’est pas la référence du monde

Il y a peu de temps, un SEO (suivez mon regard) me disait “il y a 3 médecins à Nation” en faisant une recherche sur Google. Bon, j’ai du lui expliquer la vie en lui montrant le site des Pages Jaunes. C’est pour cela que j’invite les malins à se méfier de la copie de contenus qui ne sont indéxés par Google. Et même si Google est très mauvais pour détecter la page d’origine d’un contenu dupliqué, ce n’est pas une raison.

J’ai un contenu pas à moi, il n’est plus indexés, chouette, je vais pouvoir l’utiliser pour moi ! Youhou !

Cette pratique intelligente mais particulièrement fourbe est tout de même dangereuse. C’est comme si je prenais un vieux journal de 2004, que je prenais le texte et que je publiais en mon nom car de toute façon personne ne s’en rappelle. Et bien, il y a des gens qui s’en rappelle parce que légalement, c’est archivé.

Et de toute façon, n’oublions pas l’article L111-1 du code de la propriété intellectuelle :

L’auteur d’une oeuvre de l’esprit jouit sur cette oeuvre, du seul fait de sa création, d’un droit de propriété incorporelle exclusif et opposable à tous.

Source

Petit clin d’oeil à celui qui a récemment copié en entier un de mes billets de 2010 et qui ressortait à ma place sur Google sur ce contenu (grumpf) en me disant que c’était bon pour mon référencement.


Publié

dans

par

Étiquettes :

Commentaires

Laisser un commentaire