Content scraping: que faites-vous?

Content scraping: que faites-vous?

Une fois que votre empreinte Internet atteint une certaine taille, il y a de fortes chances que les gens commencent à récupérer votre contenu. Eileen Smith, collaboratrice de Matador, partage quelques réflexions sur ce qui lui est arrivé.

J'étais en train de tweeter avant le café un matin quand j'ai vu un tweet sur la dégustation de vins en Amérique du Sud, une histoire que j'avais soumise quelques jours plus tôt.

Oh bien, ai-je pensé, mon histoire est publiée.

En tant que pigiste, en particulier celui qui écrit pour le Web, même avec les alertes Google, il est parfois difficile de savoir quand quelque chose de vous est en ligne, et vous devez garder le doigt sur le pouls (ou surveiller le trafic de votre blog) pour voir ce qui se passe .

Cinq minutes plus tard, un expresso sur la cuisinière à la main, j'ai cliqué sur le lien que j'avais envoyé à mes abonnés. Toute l'histoire a été grattée. L'histoire que j'avais lancée, acceptée, recherchée et écrite spécifiquement pour la publication avait été soulevée, vendue en gros et placée ailleurs. Gratuitement.

Scraping, c'est voler le contenu de quelqu'un et le publier comme le vôtre. Dans le passé, j'avais vu des fragments de ce qui ressemblait à mes affaires, et même des photos que j'avais prises postées ailleurs. J'écrirais un petit e-mail, hé, tu sais quoi, et j'obtiendrais généralement une certaine satisfaction, au moins un lien.

Mais ça? Mon éditeur m'a envoyé un message pour me demander si je soumettais deux fois, un non-non majeur dans cette industrie naissante. Cela m'a aussi demandé ce qui n'allait pas. Il est arrivé que le site qui avait gratté mon article appartenait à quelqu'un qui m'avait récemment demandé de publier un article sur un blog invité.

J’ai hésité une minute, me demandant si je lui avais donné l’autorisation de voler le contenu. Classic blâme la mentalité de victime.

En fin de compte, mon éditeur a contacté la partie fautive, qui a supprimé le contenu. J'ai retweeté la vraie URL, et je me suis assis, et j'ai fulminé, buvant plus de café, attendant des excuses qui ne sont jamais venues. J'ai contacté des personnes avec des peaux plus épaisses et plus d'années de travail que moi, et je suis reparti avec des perspectives différentes, et j'ai posté ma frustration sur mon blog, où je connaissais le grattoir, mes éditeurs (et tous les autres visiteurs, et peut-être même certains d'entre vous) le liraient.

La question de savoir quand le scraping de contenu vous arrivera n'est pas tant si, mais plutôt quand. Faites quelque chose qui sort de l'ordinaire, ou gagnez en notoriété ou écrivez quelque chose d'intelligent et asseyez-vous et détendez-vous. N'importe qui, n'importe où, peut élever votre travail et le faire passer pour le sien, sans même avoir un crédit, un lien ou un remerciement.

Alors, qu’est-ce qu’une personne créative et prolifique doit faire?

Vous ne pouviez rien publier, nulle part, en gardant tout cela pour vous et sous clé. Ick. Vous pouvez ajouter un filigrane aux photos ou utiliser le tampon Flickr "Tous droits réservés" (bien que cela ne soit rien de plus qu'un "joli s'il vous plaît ne volez pas mes photos, merci").

L'écriture est plus délicate. Le mot écrit est facilement coupé et collé, ou retapé de l'impression sur un blog. La blogueuse sud-africaine sur l'infertilité Tertia Albertyn a trouvé plusieurs entrées dans un livre qu'elle avait écrit (Si proche: infertile et accro à l'espoir) publiée sur le site Web d'un autre blogueur.

Julie Schwietert, rédactrice en chef chez Matador et l’une des personnes qui m’ont tenu la main pendant mon expérience de grattage, m’a parlé d’une amie photographe cubaine dont elle avait vu la photo dans une galerie à New York.

Il ne donne pas suite à ces cas, dit-il, car l’énergie requise dépasse les avantages qu’il en retirerait. Ce n’est pas qu’il jette nécessairement des licences de photo dans le vent, mais simplement qu’il sait que de manière réaliste, il se rendra malade en essayant de retracer toutes ces infractions.

David Miller, le rédacteur en chef de Matador, a une autre vision des droits des artistes, qu’il m’a expliqué sur une tortilla espagnole un soir à Santiago. Il pense que les licences Creative Commons sont la voie à suivre.

CC se définit comme «une société à but non lucratif qui se consacre à faciliter le partage et à développer le travail d'autrui, conformément aux règles du droit d'auteur». CC a gagné en popularité via Flickr, où les utilisateurs sont autorisés à spécifier que les œuvres peuvent être utilisées avec un crédit, pour un gain financier, ou non, etc. Les artistes utilisant CC ont l'avantage d'augmenter leur empreinte Internet, avec la possibilité d'une rémunération via projets spéciaux. Un bon exemple est Trey Ratcliff, le photographe de voyage le plus populaire sur le Web.

6 réflexions sur le scraping de contenu

1. Attendez-vous à cela. Si vous l'avez là-bas, attendez-vous à ce qu'il apparaisse ailleurs.

2. Empêchez-le. S'il est important pour vous de l'empêcher, prenez des mesures pour le faire. Cachez-le, filigranez-le, publiez-le en tant que PDF non copiable.

3. Trouvez-le. Sortez et traquez les voleurs probables, recherchez des caractères ou des chaînes de mots inhabituels ou vérifiez vos références Flickr et voyez d'où viennent les gens. Souvent, quelqu'un a lié votre photo à partir de Flickr et ne l'a pas réhébergée, ce qui facilite le suivi du vol.

4. Défendez-le. Si vous êtes contrarié, configurez vos rédacteurs en chef, les lecteurs de votre blog (comme celui de Tertia) et les autres limiers que vous travaillez en votre nom pour prendre d'assaut le château. Demandez poliment que le contenu soit supprimé. Devenez de plus en plus insistant s'ils refusent ou ignorent.

5. Acceptez-le. Prenez une page du livre de l'ami photographe de Julie et réalisez qu'il est plus important de perfectionner votre métier que de chasser les aspirants.

6. Faites un tour final autour de lui. En marquant votre travail Creative Commons, vous augmentez l'exposition. Considérez que diffuser votre travail (même librement) ne déprécie pas votre capacité à vous exprimer, et si vous développez votre art et au point où vous avez votre propre voix et vision, personne ne croira que tout ce que vous créez appartient à quelqu'un d'autre.

Personnellement, je travaille à passer à l'étape 6, mais je dois dire avec tristesse que je suis toujours dans l'état d'esprit capitaliste selon lequel ce qui est à moi est à moi, et ce n'est pas à vous de montrer, de publier, de gagner de l'argent ou de revendiquer comme étant le vôtre. sauf si je vous donne la permission. Voyons jusqu'où cela me mène.

Connexion communautaire

Matadoriens, où vous trouvez-vous? Votre contenu a-t-il été gratté? Avez-vous suivi? Êtes-vous prêt à utiliser Creative Commons jusqu'au bout?


Voir la vidéo: Python Web Scraping - Should I use Selenium, Beautiful Soup or Scrapy? 2020