Auteur Sujet: Des petits malins usurpent le robot d'indexation de Google, Googlebot  (Lu 2207 fois)

alain_p et 4 Invités sur ce sujet

vivien

  • Administrateur
  • *
  • Messages: 53 003
    • Bluesky LaFibre.info
Des petits malins usurpent le robot d'indexation de Google, Googlebot
« Réponse #24 le: 09 juin 2026 à 20:51:22 »
Il me semble que Google interdit de présenter une vue différente d'un site à ses robots.

fred_mgnt

  • Abonné SFR fibre FttH
  • *
  • Messages: 389
Des petits malins usurpent le robot d'indexation de Google, Googlebot
« Réponse #25 le: 09 juin 2026 à 21:12:56 »
Historiquement, certains gros sites d'actualité envoient les articles en entier, sans paywall, aux requêtes du Googlebot en vérifiant uniquement le user-agent. Par exemple : https://www.peteroome.com/2015/04/05/botty-the-web-through-the-eyes-of-a-google-bot-copy/
Ça ne fonctionne plus trop aujourd'hui hélas.

Ah j'apprends qqch, merci, et je comprends enfin certains résultats que j'ai sur Google, qui me sors des liens mais je ne retrouve pas le texte de ma recherche dans ce qui m'est donné de voir, souvent parce qu'il y a un paywall (mais pas toujours)... Et je me suis dit que justement Google devait pouvoir indexer l'article en entier dans certain cas, histoire de faire de la pub pour le site ("vous voulez lire ? Votre recherche se trouve peut-être dans la suite... Abonnez-vous!"), ou bien que l'article est devenu payant par la suite ou a été modifié...

vivien

  • Administrateur
  • *
  • Messages: 53 003
    • Bluesky LaFibre.info
Des petits malins usurpent le robot d'indexation de Google, Googlebot
« Réponse #26 le: Aujourd'hui à 09:26:20 »
Depuis plus d'un mois, j'ai un volume très important de requêtes de robots " https://sleepbot.com/ "

Toutes les IP sont sur l'AS AS396982 Google LLC.

Le volume est stable dans la durée, on est à un peu plus de 700 000 requêtes par jour, c'est vraiment astronomique.

J'ai demandé à Gemini voici sa réponse :

Le robot d'indexation SleepBot/1.0 (qui pointe vers http://sleepbot.com/) fait partie de la catégorie des crawlers indépendants ou "historiques", souvent liés à de petits projets, à de la recherche universitaire ou à des outils d'analyse d'audience très ciblés.

Contrairement aux géants comme Googlebot ou GPTBot d'OpenAI, ses objectifs sont très restreints. Les données qu'il récolte servent principalement à trois cas d'usage :

1. La cartographie et l'analyse de liens (Web Graph)
Les robots de ce type parcourent le web de lien en lien pour analyser la structure globale du réseau. Les données récoltées servent à :
- Mesurer la popularité de certains sites en calculant le nombre de liens qui pointent vers eux (backlinks).
- Détecter les sites obsolètes, les liens morts (erreurs 404) ou les changements de redirections.

2. Des statistiques d'infrastructure (Recherche non commerciale)
L'identifiant montre qu'il s'agit d'un robot ancien ou géré de manière artisanale. Souvent, ces crawls collectent uniquement les en-têtes HTTP et le code source de base pour compiler des statistiques globales :
- Quelles versions de serveurs web (Apache, Nginx, IIS) sont les plus utilisées ?
- Quelle est la proportion de sites utilisant HTTPS plutôt que HTTP ?
- Quelle est la vitesse moyenne de réponse des serveurs dans le monde ?

3. La détection de flux de niche (Lien avec le site d'origine)
Comme le domaine historique sleepbot.com était une plateforme dédiée à la musique ambiante et expérimentale, les premières versions de ce bot servaient à scanner le web à la recherche de flux audio, de webradios indépendantes ou de fichiers musicaux libres de droits (Creative Commons) afin de les répertorier ou d'alimenter leur propre base de données de diffusion.

Faut-il s'en inquiéter ou le bloquer ?
Non, ce n'est pas un robot malveillant. Il ne cherche pas à voler des données personnelles ou à pirater des serveurs.
Cependant, comme il s'agit d'un crawler de niche qui n'apporte aucun trafic ni aucun bénéfice SEO à un site moderne, de nombreux administrateurs système choisissent de le bloquer simplement pour économiser de la bande passante et des ressources serveur. Si vous observez ses passages dans vos logs et qu'il est trop insistant, vous pouvez lui interdire l'accès dans votre fichier robots.txt.


Je n'ai donc pas bloqué ces requêtes, mais cela fait maintenant plus d'un mois que le forum est soumis à ses demandes incessantes et j'envisage donc de le bloquer, mais je veux bien votre avis.

Exemple de requetes réalisées à l'instant :

35.226.74.100 38034 TLSv1.3 [04/Jul/2026:09:25:30 +0200] "GET /orange-les-news/nouvelle-mise-a-jour-firmware-livebox5/60?PHPSESSID=b2k03jnp2i4nocne0uo75o3bj5 HTTP/1.1" 200 9183 "-" "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; SleepBot/1.0; +http://sleepbot.com/) Chrome/131.0.0.0 Safari/537.36"
34.29.162.207 38296 TLSv1.3 [04/Jul/2026:09:25:30 +0200] "GET /energie/vieux-coffrets-de-branchement-enedis/60?PHPSESSID=p3vipplqhl5hk4hvo8ab3i6c6k HTTP/1.1" 200 10365 "-" "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; SleepBot/1.0; +http://sleepbot.com/) Chrome/131.0.0.0 Safari/537.36"
35.226.74.100 38032 TLSv1.3 [04/Jul/2026:09:25:30 +0200] "GET /freemobile-incidents?PHPSESSID=3f7v4lapnm85guhjjs7g488v0r HTTP/1.1" 200 10754 "-" "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; SleepBot/1.0; +http://sleepbot.com/) Chrome/131.0.0.0 Safari/537.36"
35.226.74.100 38032 TLSv1.3 [04/Jul/2026:09:25:30 +0200] "GET /freemobile-incidents?PHPSESSID=csnodt4n7l97ukrulc00glbrv1 HTTP/1.1" 200 10761 "-" "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; SleepBot/1.0; +http://sleepbot.com/) Chrome/131.0.0.0 Safari/537.36"
34.45.187.81 42584 TLSv1.3 [04/Jul/2026:09:25:30 +0200] "GET /sfr-les-news/nouveau-decodeur-stb7/60?PHPSESSID=7213vhdmp3o6foej2fo4nijros HTTP/1.1" 200 11405 "-" "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; SleepBot/1.0; +http://sleepbot.com/) Chrome/131.0.0.0 Safari/537.36"
34.31.37.147 59472 TLSv1.3 [04/Jul/2026:09:25:30 +0200] "GET /tarn/reseau-dinitiative-publique-du-tarn-sfr/60?PHPSESSID=10irhc4cq658jcu63be7fljafq HTTP/1.1" 200 12795 "-" "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; SleepBot/1.0; +http://sleepbot.com/) Chrome/131.0.0.0 Safari/537.36"
34.58.253.108 42270 TLSv1.3 [04/Jul/2026:09:25:31 +0200] "GET /orange-les-news/controler-son-reseau-livebox-5-ou-6/36?PHPSESSID=cusnjio9hd5av9oud6as02repi HTTP/1.1" 200 13158 "-" "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; SleepBot/1.0; +http://sleepbot.com/) Chrome/131.0.0.0 Safari/537.36"
34.31.186.23 56614 TLSv1.3 [04/Jul/2026:09:25:31 +0200] "GET /freemobile-incidents?PHPSESSID=q0dsab17thpttho4cjng8musmj HTTP/1.1" 200 14076 "-" "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; SleepBot/1.0; +http://sleepbot.com/) Chrome/131.0.0.0 Safari/537.36"
35.226.74.100 38032 TLSv1.3 [04/Jul/2026:09:25:31 +0200] "GET /installation-free/passer-dorange-a-free?PHPSESSID=4qn219l5hu3u4ik0brm6oljrd8 HTTP/1.1" 200 10170 "-" "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; SleepBot/1.0; +http://sleepbot.com/) Chrome/131.0.0.0 Safari/537.36"
34.72.112.88 35700 TLSv1.3 [04/Jul/2026:09:25:31 +0200] "GET /1gb-free/200?PHPSESSID=s734ril13ncu840sgd58fv4p3i HTTP/1.1" 200 13851 "-" "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; SleepBot/1.0; +http://sleepbot.com/) Chrome/131.0.0.0 Safari/537.36"
34.31.94.20 52240 TLSv1.3 [04/Jul/2026:09:25:31 +0200] "GET /1gb-free/debit-up-bride-depuis-une-semaine/36?PHPSESSID=984jsi0bcbna9mris0743ck0qk HTTP/1.1" 200 15293 "-" "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; SleepBot/1.0; +http://sleepbot.com/) Chrome/131.0.0.0 Safari/537.36"
34.31.186.23 56614 TLSv1.3 [04/Jul/2026:09:25:31 +0200] "GET /free-mobile/dim-freemobile-laon/36?PHPSESSID=93tpj5cafcss6di4fnqe5hvso1 HTTP/1.1" 200 8736 "-" "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; SleepBot/1.0; +http://sleepbot.com/) Chrome/131.0.0.0 Safari/537.36"
34.66.8.7 41756 TLSv1.3 [04/Jul/2026:09:25:31 +0200] "GET /freemobile-incidents?PHPSESSID=hj42598k1cuhdqjve9q1konut3 HTTP/1.1" 200 10758 "-" "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; SleepBot/1.0; +http://sleepbot.com/) Chrome/131.0.0.0 Safari/537.36"
34.29.162.207 38296 TLSv1.3 [04/Jul/2026:09:25:31 +0200] "GET /freemobile-incidents?PHPSESSID=viguqgg7l5v5ul2879mo79logh HTTP/1.1" 200 10756 "-" "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; SleepBot/1.0; +http://sleepbot.com/) Chrome/131.0.0.0 Safari/537.36"
34.31.186.23 56614 TLSv1.3 [04/Jul/2026:09:25:31 +0200] "GET /orange-debit/rx-lb6-apres-travaux-sur-reseau/12?PHPSESSID=jhm1hjffh2tsch2lj1dqj3n6vu HTTP/1.1" 200 10367 "-" "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; SleepBot/1.0; +http://sleepbot.com/) Chrome/131.0.0.0 Safari/537.36"
34.31.94.20 52240 TLSv1.3 [04/Jul/2026:09:25:31 +0200] "GET /orange-les-news/orange-livebox-wi-fi-7/48?PHPSESSID=lmlaogq56mll0s4udns2fami2j HTTP/1.1" 200 10705 "-" "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; SleepBot/1.0; +http://sleepbot.com/) Chrome/131.0.0.0 Safari/537.36"
34.72.112.88 35700 TLSv1.3 [04/Jul/2026:09:25:31 +0200] "GET /free-mobile/vieux-smartphone-et-reseau-3g/24?PHPSESSID=r4vhq0pr297quvl574fa0qm2c6 HTTP/1.1" 200 12958 "-" "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; SleepBot/1.0; +http://sleepbot.com/) Chrome/131.0.0.0 Safari/537.36"
34.45.187.81 42584 TLSv1.3 [04/Jul/2026:09:25:31 +0200] "GET /eure/eure-normandie-numerique-vous-repond/24?PHPSESSID=v1o1rmb7v242cvqua94lmn5v2d HTTP/1.1" 200 14183 "-" "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; SleepBot/1.0; +http://sleepbot.com/) Chrome/131.0.0.0 Safari/537.36"
136.112.124.233 36710 TLSv1.3 [04/Jul/2026:09:25:32 +0200] "GET /1gb-free/soucis-debit-freebox-ultra/48?PHPSESSID=l5uk14mbks3rnq4uvqodhvvbna HTTP/1.1" 200 12971 "-" "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; SleepBot/1.0; +http://sleepbot.com/) Chrome/131.0.0.0 Safari/537.36"
34.29.162.207 38296 TLSv1.3 [04/Jul/2026:09:25:32 +0200] "GET /freemobile-box?PHPSESSID=kh7p1fqs5btmkc07d58jdb42fp HTTP/1.1" 200 10860 "-" "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; SleepBot/1.0; +http://sleepbot.com/) Chrome/131.0.0.0 Safari/537.36"
35.255.8.171 42548 TLSv1.3 [04/Jul/2026:09:25:32 +0200] "GET /remplacer-freebox/ubiquiti-udm-pro-a-la-place-de-la-delta/24?PHPSESSID=arkeu2ll32q6tkop7squmjfnta HTTP/1.1" 200 13571 "-" "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; SleepBot/1.0; +http://sleepbot.com/) Chrome/131.0.0.0 Safari/537.36"
136.114.184.222 46058 TLSv1.3 [04/Jul/2026:09:25:32 +0200] "GET /installation-ftth/changement-des-dns-bbox-alertons-larcep/12?PHPSESSID=vlu672qm6ubj6f498krv7qg08o HTTP/1.1" 200 15659 "-" "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; SleepBot/1.0; +http://sleepbot.com/) Chrome/131.0.0.0 Safari/537.36"
35.188.33.184 44510 TLSv1.3 [04/Jul/2026:09:25:32 +0200] "GET /numerique-responsable/antennes-relais-solaire/12?PHPSESSID=t4pnbjnt1e4vq563c3reillvt2 HTTP/1.1" 200 11558 "-" "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; SleepBot/1.0; +http://sleepbot.com/) Chrome/131.0.0.0 Safari/537.36"
34.58.253.108 42270 TLSv1.3 [04/Jul/2026:09:25:32 +0200] "GET /orange-les-news/livebox-4k-fibre-vos-avis-evolutions-bugs-mises-a-jour?PHPSESSID=vs15u2mk3koip76mk50ijr58ho HTTP/1.1" 200 10388 "-" "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; SleepBot/1.0; +http://sleepbot.com/) Chrome/131.0.0.0 Safari/537.36"
34.123.197.63 39388 TLSv1.3 [04/Jul/2026:09:25:32 +0200] "GET /1gb-free/120?PHPSESSID=u9efa9b5s8tnmdi0n6l0kia9el HTTP/1.1" 200 14016 "-" "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; SleepBot/1.0; +http://sleepbot.com/) Chrome/131.0.0.0 Safari/537.36"
35.253.90.163 36144 TLSv1.3 [04/Jul/2026:09:25:33 +0200] "GET /free-mobile/degradation-du-reseau-free-mobile/24?PHPSESSID=nbjrllqfg488ga155sh8roesq4 HTTP/1.1" 200 13283 "-" "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; SleepBot/1.0; +http://sleepbot.com/) Chrome/131.0.0.0 Safari/537.36"
34.60.108.253 44222 TLSv1.3 [04/Jul/2026:09:25:33 +0200] "GET /free-mobile/free-va-lancer-ses-cartes-prepayees/12?PHPSESSID=sk1a10t58saoe87msi49our3l1 HTTP/1.1" 200 14842 "-" "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; SleepBot/1.0; +http://sleepbot.com/) Chrome/131.0.0.0 Safari/537.36"
34.134.176.29 37964 TLSv1.3 [04/Jul/2026:09:25:33 +0200] "GET /orange-les-news/nouvelle-mise-a-jour-firmware-livebox5/36?PHPSESSID=22b4u8maou7ujte1s3h41kv68s HTTP/1.1" 200 13186 "-" "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; SleepBot/1.0; +http://sleepbot.com/) Chrome/131.0.0.0 Safari/537.36"
35.255.8.171 42548 TLSv1.3 [04/Jul/2026:09:25:33 +0200] "GET /4g-bytel/arnaque-forfait-1go/24?PHPSESSID=eomj82kta3oei8vr08m0gscq35 HTTP/1.1" 200 9920 "-" "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; SleepBot/1.0; +http://sleepbot.com/) Chrome/131.0.0.0 Safari/537.36"
136.111.183.240 60128 TLSv1.3 [04/Jul/2026:09:25:33 +0200] "GET /installation-ftth/changement-des-dns-bbox-alertons-larcep/36?PHPSESSID=b4gk6h6g05f1hcgfe8qurlh0a5 HTTP/1.1" 200 10479 "-" "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; SleepBot/1.0; +http://sleepbot.com/) Chrome/131.0.0.0 Safari/537.36"
136.112.124.233 36710 TLSv1.3 [04/Jul/2026:09:25:33 +0200] "GET /orange-les-news/barre-de-son-cabasse-for-orange/24?PHPSESSID=brg6a7ahf4tg40c1o6d6gkfknn HTTP/1.1" 200 9470 "-" "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; SleepBot/1.0; +http://sleepbot.com/) Chrome/131.0.0.0 Safari/537.36"
34.45.187.81 42584 TLSv1.3 [04/Jul/2026:09:25:33 +0200] "GET /1gb-free/soucis-debit-freebox-ultra/60?PHPSESSID=actk21fhl1r029kctbnabaei14 HTTP/1.1" 200 6714 "-" "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; SleepBot/1.0; +http://sleepbot.com/) Chrome/131.0.0.0 Safari/537.36"

buddy

  • Expert
  • Abonné Bbox fibre
  • *
  • Messages: 16 387
  • Alpes Maritimes (06)
Des petits malins usurpent le robot d'indexation de Google, Googlebot
« Réponse #27 le: Aujourd'hui à 11:23:28 »
Bonjour,

effectivement si il ne sert pas à grand chose ...
Sinon manifestement tu peux le limiter en req/min via apache/nginx, ça peut être une solution intermédiaire ...

vivien

  • Administrateur
  • *
  • Messages: 53 003
    • Bluesky LaFibre.info
Des petits malins usurpent le robot d'indexation de Google, Googlebot
« Réponse #28 le: Aujourd'hui à 11:29:33 »
J'ai commencé par mettre ces lignes dans mon robots.txt
User-agent: SleepBot
Disallow: /

On va voir si c'est efficace.

Par contre, il ne va voir ce fichier que tous les 3/4 jours. Dernière requête le 1er juillet, il ne devrait pas tarder à de nouveau le charger.

alain_p

  • Abonné Free fibre
  • *
  • Messages: 18 740
  • Delta S 10G-EPON sur Les Ulis (91)
Des petits malins usurpent le robot d'indexation de Google, Googlebot
« Réponse #29 le: Aujourd'hui à 12:03:07 »
700.000 requêtes, c'est quand même énorme, et si cela date d'un mois environ, il y a eu un gros changement de comportement de ce robot. A quoi peuvent servir 700.000 requêtes par jour ? Il y a loin d'avoir autant de nouveaux messages chaque jour.
Est-ce qu'il y a un moyen de s'adresser à Google pour demander des explications ? Ou qu'ils vérifient.

Au vu du nombre de requêtes, je serais pour le bloquer. il y a encore eu des lenteurs sur le site ces derniers jours...

Tu devrais voir dans quelques heures s'il respecte le robots.txt.

alain_p

  • Abonné Free fibre
  • *
  • Messages: 18 740
  • Delta S 10G-EPON sur Les Ulis (91)
Des petits malins usurpent le robot d'indexation de Google, Googlebot
« Réponse #30 le: Aujourd'hui à 12:43:28 »
En fait, après vérification, je trouve que l'IPv4 est chez Amazon :

$ host sleepbot.com
sleepbot.com has address 34.228.128.161
sleepbot.com has IPv6 address ::ffff:34.228.128.161
sleepbot.com mail is handled by 0 mx.sleepbot.com.

$ whois 34.228.128.161
...
NetRange:       34.192.0.0 - 34.255.255.255
CIDR:           34.192.0.0/10
NetName:        AT-88-Z
NetHandle:      NET-34-192-0-0-1
Parent:         NET34 (NET-34-0-0-0-0)
NetType:        Direct Allocation
OriginAS:
Organization:   Amazon Technologies Inc. (AT-88-Z)
RegDate:        2016-09-12
Updated:        2016-09-12
Ref:            https://rdap.arin.net/registry/ip/34.192.0.0


OrgName:        Amazon Technologies Inc.
OrgId:          AT-88-Z
Address:        410 Terry Ave N.
City:           Seattle
StateProv:      WA
PostalCode:     98109
Country:        US
RegDate:        2011-12-08
Updated:        2026-04-17
Comment:        All abuse reports MUST include:
Comment:        * src IP
Comment:        * dest IP (your IP)
Comment:        * dest port
Comment:        * Accurate date/timestamp and timezone of activity
Comment:        * Intensity/frequency (short log extracts)
Comment:        * Your contact details (phone and email) Without these we will be unable to identify the correct owner of the IP address at that point in time.
Ref:            https://rdap.arin.net/registry/entity/AT-88-Z

...
OrgAbuseHandle: AEA8-ARIN
OrgAbuseName:   Amazon EC2 Abuse
OrgAbusePhone:  +1-206-555-0000
OrgAbuseEmail:  trustandsafety@support.aws.com
OrgAbuseRef:    https://rdap.arin.net/registry/entity/AEA8-ARIN
...

Peut-être essayer d'envoyer un mail à l'adresse abuse, avec les informations demandées ?