Auteur Sujet: Enquête sur une possible attaque vers TVradioZap  (Lu 5282 fois)

0 Membres et 1 Invité sur ce sujet

F6FLT

  • Abonné Orange Fibre
  • *
  • Messages: 320
  • 44
    • TVradioZap
Enquête sur une possible attaque vers TVradioZap
« Réponse #72 le: 07 juillet 2024 à 14:42:48 »
Dès le début, j'annonçais :

"TVradioZap.eu est hébergé par Alwaysdata.
Leur service répond parfaitement à mes attentes (et même au-delà) : environnement extrêmement complet, dernières versions de tout (php, mysql...), interface d'administration très claire, fiabilité et rapidité des accès... il ne m'avait fallu que quelques minutes pour la mise en place du site que je transférais depuis free.fr."

Pas plus tard qu'hier :
"Concernant Alwaysdata, je n'ai aucun souci jusqu'à présent. L'offre gratuite est excellente, et sans ce qui ressemble de plus en plus clairement à une attaque ciblée par détournement de robots, je ne crois pas qu'ils auraient déclenché un incident avec menace de suspension du compte. Le fait qu'ils aient accepté mes explications et les mesures que j'ai mises en place [] va dans ce sens."

Tout cela devient :

...
3) Vu qu'il ne veut pas payer, il ruine la réputation de l'hébergeur qui rappelons-le, lui, ne tire actuellement aucun bénéfice de sa présence sur ses serveurs (qui par contre, lui coûte de l'argent).
...

Touver l'erreur...
La seule question qui reste est : est-ce que ce propos diffamatoire est tenu par incompréhension ou par désir de nuire ?

Probablement les deux. Comme disait Jules Romains, "Les esprits d'élite discutent des idées, les esprits moyens discutent des événements, les esprits médiocres discutent des personnes", je suis très enclin à le croire. Attaquer ceux qui s'expriment plutôt qu'argumenter, c'est vraiment le niveau zéro.

Bizarrement, tout le monde l'a compris, sauf toi.

Tu es "tout le monde" ?! Un anonyme tout au plus, amha justifié ; aucun répondant.

Pour peu qu'un autre quidam pense comme lui, ils croient être "tout le monde".
Ca m'amuse ce petit monde qui prétend savoir qui a compris ou pas, rend son jugement inconsistant, inique et péremptoire sur les gens plutôt que des arguments sur le sujet, et le tient pour Vérité universelle.
« Modifié: 07 juillet 2024 à 15:16:01 par F6FLT »

F6FLT

  • Abonné Orange Fibre
  • *
  • Messages: 320
  • 44
    • TVradioZap
Enquête sur une possible attaque vers TVradioZap
« Réponse #73 le: 07 juillet 2024 à 15:33:34 »
...
J'ai dit à F6FLT qu'il a un problème de référencement mais il continue de nier.

A quel endroit je l'aurais "nié" ? J'ai toujours seulement émis des doutes sans jamais être définitif.

Et tu as peut-être raison.

Je me suis aperçu qu'à un certain moment, je renvoyais la page d'accueil sur une erreur 404 plutôt que de faire une redirection vers cette même page, ce qui dans mon esprit permettait un petit gain de temps.
Pour un utilisateur humain, c'est parfait, il n'avait pas d'erreur 404, se retrouvait sur la page d'accueil, et s'il cliquait un lien, il avait la bonne adresse.
Pour un robot, ça pourrait poser problème s'il a gardé son url d'appel comme adresse de base, auquel cas des liens relatifs pourraient être estimés par lui par rapport à son adresse fausse qui a donné l'erreur 404, et générer des liens à rallonge.
Hier soir j'ai fait une modif pour renvoyer une erreur 404 quand on est dans ce cas. Et depuis je regarde si les quelques IP débloquées, de robots qui ont désormais l'erreur 404, redemandent quand même les mêmes liens erronés.
Le site est fait pour les gens, pas pour les robots. C'est fou qu'il faille s'asservir à la bêtise des robots pour avoir la paix. En tout cas vois le titre du fil "Enquête sur une possible attaque" : l'enquête est en cours, en direct live, ne pas mettre la charrue avant les boeufs.

8/7/2024 10:28 Les choses semblent s'améliorer. Je n'ai pas eu 2 fois la même requête de semrush. Je viens de débloquer toutes ses adresses et il vient de demander le fichier robots.txt. On va donc enfin voir s'il le respecte. J'ai aussi débloqué une large plage de facebook. On va donc voir aussi de son côté si la réception d'une erreur 404 interrompt son harcèlement, contrairement à l'erreur 403 du blocage IP.

8/7/2024 23:17 Semrush semble respecter le fichier robots.txt, il n'est plus gênant. Facebook reste une infection, il doit demander le ficher robots.txt tous les 36 du mois.

9/7/2024 10:16 Confirmation, Semrush respecte le fichiers robots.txt, mais comme quelques autres robots dont MJ12bot ou Dotbot le robot de Moz, il le redemande sans arrêt (irrégulièrement, par exemple après 2h, ou après 4mn), et il utilise plusieurs robots différents. Je découvre aussi "awario", qui scrawle votre site seulement pour pouvoir dire à leurs clients quels sites font référence à leurs "marques" et il y en a d'autres dans le genre.
J'ai remarqué aussi une salve de 5 requêtes venant de 5 IP différentes de "f3netze.de" demandant les url "/?author=1 à 5 jamais utilisées dans tvradiozap, ça ressemble furieusement à une tentative d'intrusion, les professionnels se croient tout permis.

Mais la pire cochonnerie reste Facebook. Je ne les vois jamais demander le fichier robots.txt, et ils font 1000 à 1500 requêtes par jour vers des adresses inexistantes depuis des centaines d'adresses IP différentes. Bien sûr je n'ai jamais eu aucune réponse à ma plainte déposée sur leur adresse d'abuse.

10/7/2024 08:44 Toutes les adresses IP des robots sont désormais débloqués sauf Facebook. Il se confirme que les robots qui requêtaient sur les mêmes adresses erronées que Facebook, cessent de le faire. Ca a commencé avec Amazon, et ça s'est terminé par Semrush qui a fini par comprendre quand on lui a renvoyé l'erreur 404 au lieu de 403 liée à son blocage.

11/07/2024 cette nuit, dans le bruit de fond de facebook, 2 salves de dizaines de requêtes venant l'une d'un datacenter Microsoft à Dublin (IP=52.169.180.51), ciblant de multiples documents, scripts et répertoires généralement associés à Wordpress, et une autre d'un datacenter Microsoft US en Virginie (IP=20.190.242.102), faisant de  même pour d'autres types de répertoires n'existant pas sur tvradiozap.eu. Extraits :
...
tvradiozap.eu 52.169.180.51 - - [11/Jul/2024:02:41:16 +0200] "GET /wp-admin/xmrlpc.php?p= HTTP/1.1" 404 1 "-" "-"
tvradiozap.eu 52.169.180.51 - - [11/Jul/2024:02:41:16 +0200] "GET /smaxx.php HTTP/1.1" 404 1 "-" "-"
tvradiozap.eu 52.169.180.51 - - [11/Jul/2024:02:41:16 +0200] "GET /wp-admin/smaxx.php HTTP/1.1" 404 1 "-" "-"
tvradiozap.eu 52.169.180.51 - - [11/Jul/2024:02:41:16 +0200] "GET /wp-content/plugins/WordPressCore/smaxx.php HTTP/1.1" 404 7732 "-" "-"
tvradiozap.eu 52.169.180.51 - - [11/Jul/2024:02:41:16 +0200] "GET /wp-includes/images/smaxx.php HTTP/1.1" 404 7732 "-" "-"
tvradiozap.eu 52.169.180.51 - - [11/Jul/2024:02:41:17 +0200] "GET /wp-content/plugins/core-plugin/smaxx.php HTTP/1.1" 404 7732 "-" "-"
tvradiozap.eu 52.169.180.51 - - [11/Jul/2024:02:41:17 +0200] "GET /wp-includes/smaxx.php HTTP/1.1" 404 1 "-" "-"
...
tvradiozap.eu 20.190.242.102 - - [11/Jul/2024:01:08:57 +0200] "GET /private/.env HTTP/1.1" 404 1 "-" "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/44.0.2403.89 Safari/537.36"
tvradiozap.eu 20.190.242.102 - - [11/Jul/2024:01:08:59 +0200] "GET /prod/.env HTTP/1.1" 404 1 "-" "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/44.0.2403.89 Safari/537.36"
tvradiozap.eu 20.190.242.102 - - [11/Jul/2024:01:09:00 +0200] "GET /profile/.env HTTP/1.1" 404 1 "-" "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/44.0.2403.89 Safari/537.36"
tvradiozap.eu 20.190.242.102 - - [11/Jul/2024:01:09:01 +0200] "GET /profiles/.env HTTP/1.1" 404 1 "-" "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/44.0.2403.89 Safari/537.36"
...
Aucun robot indiqué ni lecture du robots.txt. Clairement une tentative d'intrusion en profondeur dans le site, à partir de la supposition d'une architecture qui n'est pas la sienne.

12/07/2024 10:50  création d'une règle Apache pour renvoyer l'erreur 404 à toute IPV6 de facebook (plutôt que 403 quand ses IP sont bloquées), histoire de voir si comme les autres robots, cela le dissuaderait de recommencer. Fait par acquis de conscience car je n'y crois pas vraiment.
RewriteEngine on
RewriteCond expr "-R '2a03:2880::/32'"
RewriteRule ^ - [R=404]

13/07/2024 Encore une salve comme avant-hier d'environ 200 adresses de type worldpress venant d'une nouvelle IP d'un datacenter microsoft (4.227.17.42).

« Modifié: 13 juillet 2024 à 10:33:34 par F6FLT »

F6FLT

  • Abonné Orange Fibre
  • *
  • Messages: 320
  • 44
    • TVradioZap
Enquête sur une attaque certaine vers TVradioZap
« Réponse #74 le: 13 juillet 2024 à 10:38:28 »
Conclusion de l'histoire.

Actuellement le trafic facebook est d'environ une requête toutes les 1mn 6s soit 1300 par jour.

Que ce serait le résultat d'un travail de référencement d'un robot facebook a été suggéré et même affirmé par certains ici, et j'ai aussi pensé que ce serait le cas ; cette explication est celle du rasoir d'Okkham donc la plus probable. Mais c'est faux. Pas à pas au fil des jours j'ai dû éliminer cette hypothèse pour plusieurs raisons convergentes.
  • Les requêtes concernent des adresses inexistantes, et jamais les mêmes bien que toutes soient sur le même schéma : des "morceaux" d'adresses valides concaténées de façon aléatoire.
  • Les requêtes ne concernent jamais la moindre adresse existante.
  • Le fichier robots.txt n'est jamais demandé, contrairement à la pratique de tous les autres robots.
  • Le trafic est stabilisé avec une grande régularité des requêtes qu'on ne voit nulle part ailleurs
  • L'intensité du trafic est considérablement supérieure à celui de n'importe quel autre robot
  • Facebook est aujourd'hui le seul robot à requêter vers des adresses erronées, signe que ce n'est pas dû à un dysfonctionnement du site, lequel ne fournit que des adresses absolues.
  • Ce type d'attaques venant de facebook a déjà été rapporté de très nombreuses fois par les webmasters

L'attaque vient bien de facebook, mais certainement via une instrumentalisation qui en est faite. Des rapports déjà produits, c'est le genre "script qui clique ces liens erronés mis préalablement sur facebook", ce qui entraine une activité de facebook pour analyser sans contrainte ce qui se trouve à ces adresses.
L'usage éthique est en effet qu'un fichier robots.txt ne sert qu'à encadrer le travail de référencement à l'initiative des robots, lesquels tentent de référencer toutes les adresses internes du site. Mais il est admis dans le métier que des adresses déjà publiées ailleurs peuvent être lues indépendamment du fichier robots.txt.
 
Le début de l'attaque facebook s'était accompagné de requêtes vers ces mêmes liens erronés par d'autres robots, dont les plus actifs : Amazon et Semrush. Amazon a abandonné très vite dès que ses IP ont été bloquées. Pas Semrush. Le blocage IP a l'inconvénient d'empêcher le robot d'accéder au fichier robots.txt. Il répète alors bêtement ses requêtes. En débloquant progressivement des IP de Semrush, il a pu lire le fichier robots.txt, et comme il le respecte, il a cessé son trafic.
Actuellement les IP de tous les robots sont débloquées, ils ne requêtent plus avec les adresses erronées, seul Facebook continue, confirmation que le problème vient de lui dès le départ et avait déclenché un trafic similaire chez quelques autres robots qui avaient dû lire chez lui ses adresses erronées vers TVradioZap.
 
 
Sur le fond, le fait que facebook soit détourné par des nuisibles ne l'excuse pas, à eux de sécuriser leurs services, ils ont quand même les moyens, surtout que ce genre de fait est rapporté depuis des années. En plus ils ne répondent pas aux plaintes déposées sur leur adresse d'abuse fournie au lien accompagnant leurs requêtes pourries. On pouvait déjà leur faire pas mal de griefs, mais là c'est le pompon, quelle bande de margoulins !

Concernant les autres robots, aucun souci, ils respectent le fichier robots.txt. Seul Semrush et mj12bot.com sont limites, puisqu'ils redemandent 20 fois par jour le fichier, on ne peut donc pas considérer qu'on a affaire à des entreprises respectables. Moz est pas loin non plus.

A signaler en marge du problème facebook, quelques salves de requêtes erronées venant d'au moins 3 adresses IP de datacenters de Microsoft, encore une de plus de 200 requêtes aujourd'hui (instrumentalisées elles aussi ?), supposant que le site possède une architecture de type "worldpress" et d'un autre type non encore identifié. TVradioZap n'ayant pas ces architectures, il ne risque rien, erreurs 404, mais cela ressemble fort à une tentative d'intrusion. C'est fou ce qu'on voit passer dans les logs.

Enfin pour en revenir à Alwaysdata par la plainte duquel j'avais été informé que la surcharge des requêtes pouvait donner lieu à suspension du compte gratuit, mes explications et les mesures que j'ai prises ont été entendues. Le trafic de fond de facebook, lequel est rejeté au niveau d'Apache et ne donne lieu à aucune excécution de script PHP, ne peut plus constituer une charge importante. Je compte encore la faire baisser par une astuce que je ne révélerai pas ici publiquement où les vilains pourraient la lire.
Je confirme qu'Alwaysdata est un hébergeur solide comme je l'ai dit dès le premier post de ce fil, que tout est vraiment bien pensé sur son site, son service est top, je le conseille.