[I typically do not use the clickbait "this is an unpopular opinion" but here it is well adapted.]

Unpopular opinion: a general blocking of AI crawlers may do more harm than good digitalmedusa.org/dumb-ais-sma (by Farzaneh Badii)

Et pour les francophones : son exemple sur la langue est particulièrement pertinent. On va avoir des tas de médias français qui vont bloquer les ramasseurs des IA, puis se plaindre que les IA ne parlent pas bien français et que c'est de la faute des méchants Étatsuniens.

@bortzmeyer j’ai été obligé de bloquer les IA (et les gens normaux par la même occasion, en laissant juste une page d’accueil avec un message indiquant comment se connecter avec un compte invité), parce que mon serveur était en permanence en surcharge à cause d’eux. J’estime que c’est pas à moi de payer pour eux, et je comprends très bien que tout le monde fasse un peu pareil (même si ça m’attriste qu’internet devienne de plus en plus pénible à naviguer pour les gens)

@bortzmeyer s’ils avaient un minimum de respect lors de leurs crawl (comme un bot "normal" en quelques sortes) je n’aurais pas été obligé d’en arriver là

@immae Pas d'amalgame : je vois passer des tas de ramasseurs d'IA sur mon site et certains sont bien élevés. (Et certainement d'autres ne le sont pas, mais ça existait avant l'IA.)

@bortzmeyer @immae par "bien élevés", tu veux dire ils respectent le fichier robots.txt ? Parce que ceux qui passent chez moi le font pas, j'ai du faire des règles Apache pour les bloquer :/

@linuxine @immae Je n'ai pas de robots.txt donc bien élevés, pour moi, veut dire, mettre quelques secondes entre chaque requête et ne pas passer dix fois par jour pour la même ressource.

@bortzmeyer @immae ah ok. Ah bin pareil, ceux qui passent chez moi sont mal élevés de ce point de vue là, ils passent plein de fois sur la même ressource d'affilée, une horreur dans les logs 😅

@linuxine @bortzmeyer en plus ce que j’héberge c’est par exemple des sites avec nuage de tags (shaarli), donc une "inifinité" potentielle de pages à crawler

Follow

@bortzmeyer @linuxine bref, du coup j’ai tout bloqué (à part la première page) et les utilisateurs sont obligés de faire une authentification http pour autre chose que "quelques pages"

Sign in to participate in the conversation
Mastodon

mastodon.immae.eu is one server in the network