...
J'ai dit à F6FLT qu'il a un problème de référencement mais il continue de nier.
A quel endroit je l'aurais "nié" ? J'ai toujours seulement émis des doutes sans jamais être définitif.
Et tu as peut-être raison.
Je me suis aperçu qu'à un certain moment, je renvoyais la page d'accueil sur une erreur 404 plutôt que de faire une redirection vers cette même page, ce qui dans mon esprit permettait un petit gain de temps.
Pour un utilisateur humain, c'est parfait, il n'avait pas d'erreur 404, se retrouvait sur la page d'accueil, et s'il cliquait un lien, il avait la bonne adresse.
Pour un robot, ça pourrait poser problème s'il a gardé son url d'appel comme adresse de base, auquel cas des liens relatifs pourraient être estimés par lui par rapport à son adresse fausse qui a donné l'erreur 404, et générer des liens à rallonge.
Hier soir j'ai fait une modif pour renvoyer une erreur 404 quand on est dans ce cas. Et depuis je regarde si les quelques IP débloquées, de robots qui ont désormais l'erreur 404, redemandent quand même les mêmes liens erronés.
Le site est fait pour les gens, pas pour les robots. C'est fou qu'il faille s'asservir à la bêtise des robots pour avoir la paix. En tout cas vois le titre du fil "Enquête sur une possible attaque" : l'enquête est en cours, en direct live, ne pas mettre la charrue avant les boeufs.
8/7/2024 10:28 Les choses semblent s'améliorer. Je n'ai pas eu 2 fois la même requête de semrush. Je viens de débloquer toutes ses adresses et il vient de demander le fichier robots.txt. On va donc enfin voir s'il le respecte. J'ai aussi débloqué une large plage de facebook. On va donc voir aussi de son côté si la réception d'une erreur 404 interrompt son harcèlement, contrairement à l'erreur 403 du blocage IP.
8/7/2024 23:17 Semrush semble respecter le fichier robots.txt, il n'est plus gênant. Facebook reste une infection, il doit demander le ficher robots.txt tous les 36 du mois.
9/7/2024 10:16 Confirmation, Semrush respecte le fichiers robots.txt, mais comme quelques autres robots dont MJ12bot ou Dotbot le robot de Moz, il le redemande sans arrêt (irrégulièrement, par exemple après 2h, ou après 4mn), et il utilise plusieurs robots différents. Je découvre aussi "awario", qui scrawle votre site seulement pour pouvoir dire à leurs clients quels sites font référence à leurs "marques" et il y en a d'autres dans le genre.
J'ai remarqué aussi une salve de 5 requêtes venant de 5 IP différentes de "f3netze.de" demandant les url "/?author=1 à 5 jamais utilisées dans tvradiozap, ça ressemble furieusement à une tentative d'intrusion, les professionnels se croient tout permis.
Mais
la pire cochonnerie reste Facebook. Je ne les vois jamais demander le fichier robots.txt, et ils font 1000 à 1500 requêtes par jour vers des adresses inexistantes depuis des centaines d'adresses IP différentes. Bien sûr je n'ai jamais eu aucune réponse à ma plainte déposée sur leur adresse d'abuse.
10/7/2024 08:44 Toutes les adresses IP des robots sont désormais débloqués sauf Facebook. Il se confirme que les robots qui requêtaient sur les mêmes adresses erronées que Facebook, cessent de le faire. Ca a commencé avec Amazon, et ça s'est terminé par Semrush qui a fini par comprendre quand on lui a renvoyé l'erreur 404 au lieu de 403 liée à son blocage.
11/07/2024 cette nuit, dans le bruit de fond de facebook, 2 salves de dizaines de requêtes venant l'une d'un datacenter Microsoft à Dublin (IP=52.169.180.51), ciblant de multiples documents, scripts et répertoires généralement associés à Wordpress, et une autre d'un datacenter Microsoft US en Virginie (IP=20.190.242.102), faisant de même pour d'autres types de répertoires n'existant pas sur tvradiozap.eu. Extraits :
...
tvradiozap.eu 52.169.180.51 - - [11/Jul/2024:02:41:16 +0200] "GET /wp-admin/xmrlpc.php?p= HTTP/1.1" 404 1 "-" "-"
tvradiozap.eu 52.169.180.51 - - [11/Jul/2024:02:41:16 +0200] "GET /smaxx.php HTTP/1.1" 404 1 "-" "-"
tvradiozap.eu 52.169.180.51 - - [11/Jul/2024:02:41:16 +0200] "GET /wp-admin/smaxx.php HTTP/1.1" 404 1 "-" "-"
tvradiozap.eu 52.169.180.51 - - [11/Jul/2024:02:41:16 +0200] "GET /wp-content/plugins/WordPressCore/smaxx.php HTTP/1.1" 404 7732 "-" "-"
tvradiozap.eu 52.169.180.51 - - [11/Jul/2024:02:41:16 +0200] "GET /wp-includes/images/smaxx.php HTTP/1.1" 404 7732 "-" "-"
tvradiozap.eu 52.169.180.51 - - [11/Jul/2024:02:41:17 +0200] "GET /wp-content/plugins/core-plugin/smaxx.php HTTP/1.1" 404 7732 "-" "-"
tvradiozap.eu 52.169.180.51 - - [11/Jul/2024:02:41:17 +0200] "GET /wp-includes/smaxx.php HTTP/1.1" 404 1 "-" "-"
...
tvradiozap.eu 20.190.242.102 - - [11/Jul/2024:01:08:57 +0200] "GET /private/.env HTTP/1.1" 404 1 "-" "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/44.0.2403.89 Safari/537.36"
tvradiozap.eu 20.190.242.102 - - [11/Jul/2024:01:08:59 +0200] "GET /prod/.env HTTP/1.1" 404 1 "-" "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/44.0.2403.89 Safari/537.36"
tvradiozap.eu 20.190.242.102 - - [11/Jul/2024:01:09:00 +0200] "GET /profile/.env HTTP/1.1" 404 1 "-" "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/44.0.2403.89 Safari/537.36"
tvradiozap.eu 20.190.242.102 - - [11/Jul/2024:01:09:01 +0200] "GET /profiles/.env HTTP/1.1" 404 1 "-" "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/44.0.2403.89 Safari/537.36"
...
Aucun robot indiqué ni lecture du robots.txt. Clairement une tentative d'intrusion en profondeur dans le site, à partir de la supposition d'une architecture qui n'est pas la sienne.
12/07/2024 10:50 création d'une règle Apache pour renvoyer l'erreur 404 à toute IPV6 de facebook (plutôt que 403 quand ses IP sont bloquées), histoire de voir si comme les autres robots, cela le dissuaderait de recommencer. Fait par acquis de conscience car je n'y crois pas vraiment.
RewriteEngine on
RewriteCond expr "-R '2a03:2880::/32'"
RewriteRule ^ - [R=404]
13/07/2024 Encore une salve comme avant-hier d'environ 200 adresses de type worldpress venant d'une nouvelle IP d'un datacenter microsoft (4.227.17.42).