Je pense me servir de la version de http pour détecter ceux qui ont des outils et se font passer pour un navigateur grand public via le user-agent. Quand lafibre.info passera en http/2 (probablement le 1er juin 2016), je serais en mesure de voir les aspirateur de sites via analyse des logs. Les aspirateurs ne gèrent pas http/2 mais se font passer pour un navigateur moderne pour être discret.
Pendant une période de transition seulement. Dans quelques années (à mois selon les cas), je suis à peu près sûr que les bibliothèques standards des principaux langages de script l'auront intégré de manière plus ou moins transparente. Pour ce qui est de repérer les bots, il y a d'autres facteurs déjà utiles (les en-têtes HTTP que tu ne journalises pas toutes, leur ordre et leur forme, le comportement des connexions, la récupération des ressources, les plages d'adresses IP... et un grand nombre potentiel d'autres en choisissant d'inclure du JavaScript).
Le but est d'avoir des stats sur le déploiement IPv6 par opérateur et les GGC par opérateur (via des ports de retours hors de la plage)
Tu voulais sûrement dire CGN au lieu de GGC.
Sinon pour les GGC, je pourrais essayer de générer ça aussi si ça t'intéresse, j'ai commencé depuis quelques mois à collecter des noms d'hôtes de caches via plusieurs sources, dont un service de DNS passif. La liste n'est vraisemblablement pas complète mais inclut au moins 576 opérateurs dans le monde (donc 10 se trouvent en France : Orange (parti), SFR, Free, Numericable, Néo Télécoms, Renater, Adista, Rézopole, Céleste, K-Net (en Suisse)). Il semble clair qu'il y a eu une grosse croissance ces derniers mois (et c'est bien utile à certains régions mal desservies, comme l'Afrique).