Auteur Sujet: Des petits malins usurpent le robot d'indexation de Google, Googlebot  (Lu 1339 fois)

FlorianSG, xvi, timpera, fred_mgnt et 7 Invités sur ce sujet

acut3

  • Abonné Sosh fibre
  • *
  • Messages: 140
J'ai contacté hier soir webshare.io au sujet de l'API Corrosion ouvertement accessible sur leurs proxies... Ce matin il m'ont répondu que le problème était corrigé, et effectivement le port 30001 n'est plus exposé.

C'est quelque chose que je n'ai pas testé car clairement illégal sans autorisation, mais je soupçonne qu'il était possible de se créer des comptes sur leurs proxies sans être client, via cette API.

A part ça et pour revenir à la question initiale, aucune idée de qui est à l'origine de ces requêtes "Googlebot". Seul Webshare le sait.

alain_p

  • Abonné Free fibre
  • *
  • Messages: 18 690
  • Delta S 10G-EPON sur Les Ulis (91)
Il faudra voir si Vivien enregistre moins de connexions sur le forum. Mais en tout cas, merci pour le retour. C'était un sujet très instructif techniquement, et aussi pour les méthodes des web crawlers pour échapper aux bannissements.

vivien

  • Administrateur
  • *
  • Messages: 52 834
    • Bluesky LaFibre.info
Je vois qu'il y a 6200 invités en ce moment sur le forum, c'est beaucoup trop pour être réaliste.

On a en ce moment 96% du trafic qui est en IPv4, pourtant, vous verriez le nombre de plages IPv4 bannies, c'est monstrueux !

J'ai regardé les log et j'ai pris quelques IP suspectes qui viennent de faire du trafic il y a quelques secondes :

102.0.138.192
102.135.174.85
102.176.204.109
102.210.173.190
102.223.59.176
102.253.103.17
102.89.82.57
103.109.96.236
103.118.77.127
103.157.129.32
103.166.59.208
103.167.229.213
103.167.229.254
103.190.171.163
103.31.152.244
105.105.20.26
105.107.161.198
105.158.111.17
105.235.137.223
109.236.42.202
112.210.228.155
115.164.36.212
125.235.239.105
138.255.177.39
138.36.198.6
143.105.137.133
147.78.76.155
148.227.123.253
149.102.94.187
149.255.208.13
154.208.49.54
154.239.79.226
154.80.122.201
154.81.235.113
156.217.196.101
159.146.79.91
160.179.226.239
165.73.183.103
171.79.56.64
176.222.63.20
181.15.209.43
181.60.24.186
182.62.63.168
185.147.100.65
185.56.194.238
185.57.236.118
185.61.48.63
186.53.221.159
186.54.111.39
187.171.193.137
187.189.190.18
187.200.249.159
187.252.248.177
188.113.209.234
188.113.236.193
188.191.21.68
188.86.36.136
190.100.199.157
190.107.123.79
190.244.4.166
190.34.62.176
191.108.174.52
194.31.93.236
196.74.149.1
197.113.92.135
197.139.52.3
197.214.238.11
200.152.6.172
200.185.234.226
200.189.34.176
200.87.153.245
200.9.24.238
200.94.38.14
201.108.68.102
201.141.18.115
201.242.202.178
203.9.211.21
212.45.81.58
213.211.85.181
216.234.205.150
223.187.47.104
2.50.99.191
31.8.114.55
34.96.46.27
37.151.64.87
38.121.214.151
38.41.48.14
41.101.151.73
41.1.133.253
41.158.103.175
41.248.45.44
41.39.198.128
41.83.171.119
41.92.97.176
45.172.68.203
45.234.215.195
45.65.144.52
49.244.110.226
5.155.103.86
5.178.15.71
5.25.143.176
59.153.17.168
66.181.188.54
67.209.138.106
68.194.84.41
77.34.252.136
77.75.147.139
78.111.40.198
82.49.80.50
84.44.124.245
90.188.96.152
91.243.255.49
94.249.101.248

Il faudra que j'analyse ça (il est possible qu'il y ait quelques IP légitimes), mais pour moi, il y a toujours de ce que j'appellerai du DDOS. Je n'ai pas regardé, mais je doute que ces IPv4 soient localisées en France.

Depuis minuit hier (39 heures), j'ai 407 000 IPv4 qui ont été bannies automatiquement temporairement (je ne tiens pas compte des requêtes provenant des millions d'IPv4 déjà bloquées lors des rounds précédents). Je ferais une analyse manuelle de ces IP pour décider ou pas de bloquer de nouvelles plages.

acut3

  • Abonné Sosh fibre
  • *
  • Messages: 140
Je crois que sur ces dernières IP on est vraiment sur des appareils compromis. En scannant les ports on voit un peu de tout, des routeurs Microtik, des OLT au Bangladesh, un serveur d'impression...

fred_mgnt

  • Abonné SFR fibre FttH
  • *
  • Messages: 381
Des petits malins usurpent le robot d'indexation de Google, Googlebot
« Réponse #16 le: Aujourd'hui à 08:11:18 »
C'est quoi l'intérêt pour eux d'usurper l'identité de GoogleBot ? Ça leur apporte quoi? Parce qu'en terme de filtration, c'est peut-être bien une des dernières choses contrôlées, l'IP, son origine et son comportement sur le site seront contrôlés avant et le blocage commencera par là. Afficher GoogleBot ne les protègera pas contre des actions ou un blocage et ne leur donnera pas un blanc-seing... Alors j'aimerais comprendre l'intérêt...

acut3

  • Abonné Sosh fibre
  • *
  • Messages: 140
Des petits malins usurpent le robot d'indexation de Google, Googlebot
« Réponse #17 le: Aujourd'hui à 08:30:48 »
Je pense au contraire qu'en terme de filtration, c'est une des premières choses contrôlées, parce que c'est simple, direct, et que ça s'applique dès la première requête. Évidemment c'est aussi très facile à contourner, mais ça permet au moins de bloquer les bots "légitimes".

Cela dit il faudrait que Vivien confirme, mais je ne pense pas que ces dernières IP utilisent le UA Googlebot. Je pense qu'on a deux choses bien distinctes et probablement sans lien : d'un côté le faux Googlebot qui passe par les proxies de webshare.io (et je supposent qu'ils achètent l'accès à ces proxies de manière totalement légale), et de l'autre un ou plusieurs botnets basés sur des devices compromis.

vivien

  • Administrateur
  • *
  • Messages: 52 834
    • Bluesky LaFibre.info
Des petits malins usurpent le robot d'indexation de Google, Googlebot
« Réponse #18 le: Aujourd'hui à 08:50:27 »
L'usurpation des robots de Google, cela représente un tout petit volume (moins de 1%).

Je l'ai mentionné, car je ne savais pas que des attaquants utilisent cette astuce.

Les dernières IP, j'avais filtré de manière à exclure les bots. Ce sont des clients qui se présentent comme du Chrome.

On parle d'un volume très important de requêtes et d'IP différentes. Sur la journée d'hier, j'ai eu 300 000 nouvelles IPv4 (et quand je vois les stats d'IPTables, ils continuent de taper sur des IP déjà bloquées lors des précédents jours).

J'ai déjà 920 règles IPtables pour bloquer définitivement certaines plages IPv4, je vais devoir en rajouter.

En moyenne depuis 4 jours, je suis à 9698 requêtes bloquées par minutes de moyenne (581 900 requêtes par heure). C'est sans compter les requêtes qui passent.

L'attaque fonctionne sans discontinuer depuis le 30 mars.
Ces attaques sont-elles de retour ? Je vois plus de 24 000 visiteurs sur la page d’accueil, et le serveur semble souffrir  :(

edit: record battu avec 30 856 invités cet après-midi  ;D

Je trouve complétement disproportionné le travail nécessaire pour l'attaque au vu du résultat quelques heures ou le forum a été lent sur plusieurs mois d'attaque.

Par contre je serais sur un hébergement mutualisé, cela serait impossible à gérer pour l'hébergeur.

fred_mgnt

  • Abonné SFR fibre FttH
  • *
  • Messages: 381
Des petits malins usurpent le robot d'indexation de Google, Googlebot
« Réponse #19 le: Aujourd'hui à 09:06:21 »
Je pense au contraire qu'en terme de filtration, c'est une des premières choses contrôlées, parce que c'est simple, direct, et que ça s'applique dès la première requête. Évidemment c'est aussi très facile à contourner, mais ça permet au moins de bloquer les bots "légitimes".

Ben justement, facile à contourner, donc ça sera contourné/bloqué rapidement. D'autant plus que l'User-Agent est régulièrement l'objet de tractations sur internet, entre le spoofing pour se faire passer pour tel ou tel navigateur parce que le site l'exige, ou pour éviter le fingerprinting, et les régies publicitaires qui s'en servent ou pas, ça devient une information peu fiable et donc j'imagine sur laquelle reposent peu de tests importants de type filtrage/blocage, le risque d'effets de bord important est trop élevé.

fred_mgnt

  • Abonné SFR fibre FttH
  • *
  • Messages: 381
Des petits malins usurpent le robot d'indexation de Google, Googlebot
« Réponse #20 le: Aujourd'hui à 09:09:39 »
L'attaque fonctionne sans discontinuer depuis le 30 mars.
Je trouve complétement disproportionné le travail nécessaire pour l'attaque au vu du résultat quelques heures ou le forum a été lent sur plusieurs mois d'attaque.

Et c'est fou (mais je ne dois pas me rendre compte des volumes vs. volume global traité) que sur les routes entre le serveur et eux, il n'y ait pas des opérateurs, des routeurs et/ou des switch qui finissent par restreindre la liaison... C'est fou de lire ça, 2 mois non stop, ça devrait à un moment tiquer. Bon, après c'est sûrement très bien distribué entre plein d'IP/d'ordinateurs différents, mais quand même...

acut3

  • Abonné Sosh fibre
  • *
  • Messages: 140
Des petits malins usurpent le robot d'indexation de Google, Googlebot
« Réponse #21 le: Aujourd'hui à 09:38:11 »
Ben justement, facile à contourner, donc ça sera contourné/bloqué rapidement. D'autant plus que l'User-Agent est régulièrement l'objet de tractations sur internet, entre le spoofing pour se faire passer pour tel ou tel navigateur parce que le site l'exige, ou pour éviter le fingerprinting, et les régies publicitaires qui s'en servent ou pas, ça devient une information peu fiable et donc j'imagine sur laquelle reposent peu de tests importants de type filtrage/blocage, le risque d'effets de bord important est trop élevé.
Ce que je dis, c'est que si tu veux éviter par exemple le scraping par les crawlers officiels des boites d'IA, ça fait le job. Ce n'est pas une protection contre les acteurs malveillants. C'en est une contre les acteurs légitimes (et oui, je sais que les boites d'IA font aussi en douce du scraping sauvage qui ne suit aucune règle).

Et tu as aussi des sites qui ont du contenu qui nécessite un compte pour y accéder, mais qui veulent tout de même que ce contenu soit indexé par les moteurs de recherche. Avoir le bon UA peut-être une condition nécessaire (mais pas forcément suffisante) pour y accéder sans compte.

fred_mgnt

  • Abonné SFR fibre FttH
  • *
  • Messages: 381
Des petits malins usurpent le robot d'indexation de Google, Googlebot
« Réponse #22 le: Aujourd'hui à 20:00:19 »
Ce que je dis, c'est que si tu veux éviter par exemple le scraping par les crawlers officiels des boites d'IA, ça fait le job. Ce n'est pas une protection contre les acteurs malveillants. C'en est une contre les acteurs légitimes (et oui, je sais que les boites d'IA font aussi en douce du scraping sauvage qui ne suit aucune règle).

Et tu as aussi des sites qui ont du contenu qui nécessite un compte pour y accéder, mais qui veulent tout de même que ce contenu soit indexé par les moteurs de recherche. Avoir le bon UA peut-être une condition nécessaire (mais pas forcément suffisante) pour y accéder sans compte.

Oui enfin c'est surtout le rôle de robots.txt, et si les robots (IA ou non) n'ont pas envie de respecter ça (ou autre), ils passeront outre, donc pour moi, je ne vois vraiment aucun intérêt d'usurper l'user agant de Google Bot... Ça n'apporte rien, ça n'ouvre pas plus de portes, ça n'empêche pas de finir bloqué...

timpera

  • Abonné FAI autre
  • *
  • Messages: 406
  • Paris
Des petits malins usurpent le robot d'indexation de Google, Googlebot
« Réponse #23 le: Aujourd'hui à 20:12:09 »
Historiquement, certains gros sites d'actualité envoient les articles en entier, sans paywall, aux requêtes du Googlebot en vérifiant uniquement le user-agent. Par exemple : https://www.peteroome.com/2015/04/05/botty-the-web-through-the-eyes-of-a-google-bot-copy/
Ça ne fonctionne plus trop aujourd'hui hélas.