La Fibre
Télécom => Télécom =>
Veille technologique => Discussion démarrée par: vivien le 01 juillet 2014 à 21:30:17
-
Liste quotidienne des noms de domaine enregistrés en .fr
(https://lafibre.info/images/logo/banniere_internet.svg)
C'est ici : http://www.afnic.fr/fr/produits-et-services/services/liste-quotidienne-des-noms-de-domaine-enregistres/ (http://www.afnic.fr/fr/produits-et-services/services/liste-quotidienne-des-noms-de-domaine-enregistres/)
Que de noms de domaines enregistrés !
=> https://lafibre.info/images/doc/201406_liste_domaine_fr_24juin2014.gif (https://lafibre.info/images/doc/201406_liste_domaine_fr_24juin2014.gif)
=> https://lafibre.info/images/doc/201406_liste_domaine_fr_25juin2014.gif (https://lafibre.info/images/doc/201406_liste_domaine_fr_25juin2014.gif)
=> https://lafibre.info/images/doc/201406_liste_domaine_fr_26juin2014.gif (https://lafibre.info/images/doc/201406_liste_domaine_fr_26juin2014.gif)
-
le fichier de 24 juin semble trop lourd pour certains navigateurs.
-
je confirme pour firefox ça ne marche pas!
opera fonctionne niquel lui!
-
Pourquoi ils fournissent ca dans un gif de 750 x 32896 plutot qu'un fichier texte?!
Si encore ils n'étaient pas OCRisable leur gif on pourrait comprendre (spameurs, prospection, etc) mais la c'est juste 'pour faire ****' pour rien. :p
-
Il y a quelque mois encore la liste était publiée en txt : http://web.archive.org/web/20110924004957/http://www.afnic.fr/fr/produits-et-services/services/liste-quotidienne-des-noms-de-domaine-enregistres/ (http://web.archive.org/web/20110924004957/http://www.afnic.fr/fr/produits-et-services/services/liste-quotidienne-des-noms-de-domaine-enregistres/)
Pourquoi ils fournissent ca dans un gif de 750 x 32896 plutot qu'un fichier texte?!
Si encore ils n'étaient pas OCRisable leur gif on pourrait comprendre (spameurs, prospection, etc) mais la c'est juste 'pour faire ****' pour rien. :p
Parce que les gens n'ont aucune connaissance en matières de traitement d'images, ils pensent que ça les protège. Si tu prends le top 100 Alexa et que tu regardes combien de sites ont un captcha pourri cassable avec Tesseract et/ou quelques lignes de Python, c'est assez effrayant.
-
Que de noms de domaines enregistrés !
P*tain la vache !!! :o
-
Pourquoi ils fournissent ca dans un gif de 750 x 32896 plutot qu'un fichier texte?!
Pour se couvrir?
-
Ils sont bien couvert, on ne peut pas l'ouvrir 8)
-
Si, je l'ouvre avec Gimp sans problème (je parle du gif du 24 juin, les autres passent sans problème dans Firefox)
-
pas de problème pour ouvrir le fichier du 24 avec firefox aurora (32)
-
Chrome 35 ouvre les 3 sans probleme aussi mais mon addon d'OCR (https://chrome.google.com/webstore/detail/project-naptha/molncoemjfmpgdkbdlbjmhlcgniigdnf) rame un peu :p
Quand je sélectionne une ligne, et fait bouton droit 'copier' ca me met "TEXT RECOGNITION IN PROGRESS...." dans le presse papier.
je n'ai pas le courage d'attendre.
-
Si ton OCR classique est lent avec ce genre d'image, pas étonnant, c'est de l'overkill... La police semble être tout ce qu'il y a de plus générique sous Linux (Liberation Sans 12px je crois) ; au pire, en quelques lignes de Python, avec la bibliothèque PIL ou autre, tu dois pouvoir faire la lecture ligne par ligne (puisque les intervalles sont régulières), puis caractère par caractère (en te basant sur le TTF d'origine).