[I typically do not use the clickbait "this is an unpopular opinion" but here it is well adapted.]
Unpopular opinion: a general blocking of AI crawlers may do more harm than good https://digitalmedusa.org/dumb-ais-smart-censors-the-future-of-web-fragmentation/ (by Farzaneh Badii)
@bortzmeyer s’ils avaient un minimum de respect lors de leurs crawl (comme un bot "normal" en quelques sortes) je n’aurais pas été obligé d’en arriver là
@bortzmeyer ben tout le monde paye pour ceux qui ne le sont pas, parce que j’ai pas les moyens de filtrer ces derniers. Je vois pas comment faire autrmeent en fait à part subir une charge de 50 (pour 6 procs) presque 40% du temps
@linuxine @bortzmeyer non juste ne pas faire 300 requêtes par seconde et recommencer à crawler le site depuis le début avant même d’avoir fini le premier crawl
@bortzmeyer @linuxine voilà: tu décris exactement mon souci ;)
@linuxine @bortzmeyer en plus ce que j’héberge c’est par exemple des sites avec nuage de tags (shaarli), donc une "inifinité" potentielle de pages à crawler
@bortzmeyer @linuxine bref, du coup j’ai tout bloqué (à part la première page) et les utilisateurs sont obligés de faire une authentification http pour autre chose que "quelques pages"
@bortzmeyer @linuxine certes, mes sites sur pages statiques ne sont pas bloquées. Mais ma forge logicielle et les sites dynamiques style shaarli j’ai pas eu le choix si je voulais pas finir noyé.
@immae Pas d'amalgame : je vois passer des tas de ramasseurs d'IA sur mon site et certains sont bien élevés. (Et certainement d'autres ne le sont pas, mais ça existait avant l'IA.)