une autre approche "plus brutale" pour faire des stats global:
- prendre les fichiers de zone des TLDs pour obtenir la liste des domaines.
https://czds.icann.org/ permet d'obtenir la plupart des TLDs. Malheureusment l'AFNIC (gestionnaire du .fr entre autre) ne participe pas et ne permet pas a n'importe qui d'obtenir cette liste...
- effectuer des requêtes dns sur ces fichiers. Ca peut être énorme, rien que .com c'est 165 millions de domaines...(et globalement c'est 600 millions environ cf
https://domainnamestat.com/custom-reports).
l'approche a la mérite d'être "exhaustif" mais ne permet de savoir si un domaine est vraiment utilisé. Car pas mal de domaines sont juste "réservés" pour éviter le phising notamment et même s'ils ont un site web c'est souvent une landing page vide ou d'un prestataire de sécurité (prestation de "domain guard" par exemple:
https://guardyourdomain.com/)
Utiliser une partie du top 1m d'Alexa semble plus réaliste, par exemple la liste des top 50 sites .fr:
curl -s http://s3.amazonaws.com/alexa-static/top-1m.csv.zip | zgrep \.fr$ | head -50
voila ce que ca donne avec la maquette (updatée pour affiché des "étoiles"):
curl -s http://s3.amazonaws.com/alexa-static/top-1m.csv.zip | zgrep \.fr$ | head -50 | cut -d, -f2 | xargs ipv6domains
google.fr : *****
amazon.fr : **
lemonde.fr : ***
lefigaro.fr : ***
free.fr : ****
leboncoin.fr : **
pinterest.fr : **
ouest-france.fr : **
francetvinfo.fr : **
service-public.fr :
laposte.fr : **
allocine.fr : ****
leparisien.fr : ***
lequipe.fr : **
1clic1don.fr : ****
airbnb.fr : **
orange.fr : ***
urssaf.fr :
interieur.gouv.fr : **
doctolib.fr : *****
20minutes.fr : ***
ebay.fr : **
ameli.fr : ***
larousse.fr : **
rfi.fr : ****
pole-emploi.fr : **
teuteuf.fr : ****
decathlon.fr : ***
education.gouv.fr :
linternaute.fr : **
ladepeche.fr : ***
carrefour.fr : **
meteociel.fr : **
diplomatie.gouv.fr : **
journaldesfemmes.fr : ***
huffingtonpost.fr : ***
liberation.fr : ***
cnews.fr : ****
mkvcinemas.fr : ****
actu.fr : **
parcoursup.fr :
cam4.fr : **
midilibre.fr : ***
airfrance.fr : ***
lws.fr : **
linguee.fr : **
vinted.fr : *****
zalando.fr : ***
tf1.fr : **
sudouest.fr : ***
Mais le mieux serait d'avoir accès aux caches des gros résolveurs DNS par exemple ceux des gros FAI...Peut-etre que l'ARCEP peut se rapprocher des FAI pour les obtenir...(idealement avec le nombre de requetes par domaine ).