La Fibre
Fonctionnement du forum => A lire avant de commencer... => Évolution de LaFibre.info, bugs et critiques => Discussion démarrée par: vivien le 21 décembre 2015 à 23:00:05
-
Pour ceux qui se demandent ce que cela donne, j'ai mis 1 minute de log de LaFibre.info dans un tableur.
=> 201512_log_lafibreinfo.ods (https://lafibre.info/images/stats/201512_log_lafibreinfo.ods) (format Libre Office Calc, lisible avec Microsoft Excel et Open Office)
J'ai pris les logs de 22h14 aujourd'hui, c'est le moment où j'ai posté le message Configurer Apache 2.4 pour avoir accès aux ports de retour dans les logs (https://lafibre.info/tutoriels-linux/configurer-log-apache/).
J'ai anonymisé les IP (il ne reste que le début).
Vous pouvez voir que en une minute, on a 924 lignes avec du HTTP1.1, du HTTP1.0, des GET, des POST, des erreurs 302, 304 ou 404, des requêtes de 192 octets à 1,3Mo, de l'user agent curl, Google bot, Tiny Tiny RSS, Python-urllib/1.17, Firefox, Chrome, Internet Explorer,... ect... bref un échantillons de la vraie vie d'un site.
Note pas de requête http car les requêtes http (redirections vers https) sont dans un autre fichier de log.
En fait j'ai 3 fichiers de log pour le site :
- le site en https
- les redirection http vers https
- les redirections pour ceux qui ont mis un www en https vers la même url sans le www, toujours en https
Commande pour récupérer uniquement les User-Agent dans les logs et enlever les doubles :
cut -d \" -f 6 access.log | sort | uniq > user-agent.log
Liste de user agent : Liste des User Agent par système d'exploitation et navigateur (https://lafibre.info/navigateurs/user-agent/)
-
Mozilla/5.0 (Mobile; Windows Phone 8.1; Android 4.0; ARM; Trident/7.0; Touch; rv:11.0; IEMobile/11.0; NOKIA; Lumia 925; Orange) like iPhone OS 7_0_3 Mac OS X AppleWebKit/537 (KHTML, like Gecko) Mobile Safari/537
Combien de layers de compatibilité trouves-t-on dans cet UA?
Mozilla/1.22 (compatible; MSIE 10.0; Windows 3.1)
Très crédible....
Mozilla/5.0 (Macintosh; PPC Mac OS X 10.5; rv:38.0) Gecko/20100101 Firefox/38.0 TenFourFox/G5
Un survivant :)
-
Il me semble qu'Edge annonce n'importe quoi via son User Agent...
-
Cette réponse complète. J'adore 8)
-
- Présence de "Safari" et absence de "Chrome" ou "Windows" => Navigateur Safari
Attention: Safari existe pour Windows avec comme UA:
Mozilla/5.0 (Windows; U; Windows NT 5.2; fr-FR) AppleWebKit/533.16 (KHTML, like Gecko) Version/5.0 Safari/533.16
Mozilla/5.0 (Windows; U; Windows NT 3.51; fr-FR) AppleWebKit/533.16 (KHTML, like Gecko) Version/5.0 Safari/533.16
Mozilla/5.0 (Windows; U; Windows 95; fr-FR) AppleWebKit/533.16 (KHTML, like Gecko) Version/5.0 Safari/533.16
Et ceci est quelqu'un qui joue avec Wine.
-
Je crois qu'il est aussi possible de modifier l'agent utilisateur également avec des extensions une liste est disponible par ici http://techpatterns.com/downloads/firefox/useragent_switcher_agents.txt
-
Safari a été disponible sous Windows.
Enfin, pas longtemps et je pense que aujourd'hui sa part de marché sous Windows est nulle.
Safari arrive sous windows !
Une petite recherche avec Safari et windows et on tombe sur de nombreux articles...
Juste pour comprendre, une copie d'écran du forum PauBC, avec Safari sous Windows XP :
(https://lafibre.info/images/bistro/SafariWin.png)
Safari (bêta) pour Windows? Beurk!
La version Windows du navigateur Safari est probablement ce qu'Apple a sorti de pire depuis l'ère des Pirates de la Silicon Valley.
Encore en grossière version bêta (du moins sous Vista), il lui manque un bouton "save" presque partout. Résultat, impossible de sauver un groupe de tabs en page d'accueil ni de se débarrasser de la page nous rappelant sans arrêt le mauvais goût musical des utilisateurs d'iTunes.
Pire encore, il s'agit de l'application la plus ennuyante depuis WordPerfect por DOS, et encore, WordPerfect avait deux ou trois couleurs à afficher.
Redimentionner les fenêtres ne se passe pas comme sous Windows mais par un un bout de machin dans un coin difficile à attraper et à contrôler. Même Adobe fait mieux.
Malgré les paroles d'évangile de Saint Steve Jobs, Safari ne va pas aussi vite qu'il le dit sur un PC 2,7GHz Core 2 Duo, 2 Go de Ram avec Vista Ultimate.
Surfari importe vos favoris IE et Firefox, mais les affiche dans un format triste à mourir. Les fontes apparaissent très mal sur un écran à tube cathodique, de quoi vous forcer à passer au LCD avant de passer chez l'ophtalmo et l'armurier.
Pourquoi Apple a osé sortir le navigateur Internet le plus déprimant de la planète? Probablement pour bien montrer à tout le monde que son futur n'est pas dans les ordinateurs mais dans les sévices en ligne.
Au démarrage, Surfari gobe 66Mo de mémoire, Firefox 33Mo
Tout ce qu'on peut faire pour aider Apple dans sa grotte californienne est de leur suggérer subtilement Surfari comme sobriquet au lieu de nous faire croire qu'on va partir en voyage et voir des couleurs et du pays.
Pour transformer votre desktop en l'endroit le plus déprimant du web, cliquez ici and have fun. :-(
Traduction et adaptation d'un article d'Andrew Thomas pour INQ
Source : The Inquirer par Cyril Fussy le Mardi 12 Juin 2007
-
On (à $dayjob) reçoit encore des demandes d'installation de Safari pour Windows.
A peu près une demande par mois.
-
Liste des user-agent utilisé sur LaFibre.info les 3 dernières semaines
Je vous ai mis dans un fichier texte la liste des user-agent utilisé (un user-agent n’apparaît qu'une seule fois dans le fichier, trié par ordre alphabétique)
=> 201512_user-agent_lafibreinfo.txt (https://lafibre.info/images/stats/201512_user-agent_lafibreinfo.txt)
C'est uniquement les requêtes https qui ont abouties, j'ai exclut tout ce qui est requêtes sur http sur le port 80 où la liste est encore plus ouverte (un vieux navigateur va réussir à faire une requête http, mais pas https)
j'ai supprimé le support de SSLv3 depuis septembre 2014 (https://lafibre.info/evolution/kill-internet-explorer-6/) et Internet Explorer ne prend pas en charge TLSv1 par défaut (il faut cocher une case les options, je me demande bien pourquoi ce n'est pas activé par défaut) => Donc quand vous voyez de l'Internet Explorer 6, c'est possible. Par contre Internet Explorer 5.5 semble impossible (pas de support de TLSv1 et les logs ne concernent que les requêtes https TLS abouties)
Beaucoup de lignes d’accès via un téléphone mobile dans le fichier, vu que la référence du mobile est mise dans le user-agent pour certains navigateurs (pas Firefox par exemple).
-
Netvibes (http://www.netvibes.com)
Il y a voyage temporel ; on accède à ton site depuis 2008.
-
Ont peu retrouver une grande liste d'user agent sur ce site également http://www.useragentstring.com/pages/All/ (n'y allez pas avec moins de 1mega de co)
-
vivien, tu peux nous donner les IP des suivants?
Google Bot
Googlebot-Image/1.0
Googlebot-Video/1.0
-
Que pensez de ceci :
Mozilla/5.0 (compatible; Googlebot/2.1; startmebot/1.0; +https://start.me/bot)
Mozilla/5.0 (compatible; startmebot/1.0; +http://www.start.me/bot)
What is startmebot?
You may have found the name 'startmebot' in your server access logs. For some functionality, start.me users a so called 'bot' that retrieves information from websites. Our bot identifies itself with the name 'startmebot' in its user agent string. The full user agent string for out bot is:
Mozilla/5.0 (compatible; startmebot/1.0; +http://www.start.me/bot)
What kind of information does the bot retrieve?
At the moment our bot is used to retrieve three kinds of information from external sites:
A website page's title
A website's favicon
The contents of RSS feeds offered by a website
Does the bot respect robots.txt?
Our bot does not actually index any content, but only retrieves specific information from online sources. In doing this, our bot does not consider the contents of robots.txt. If you feel our bot is visiting your site too often or should not access specific information on your site, please send us an email at support@start.me.
http://support.start.me/hc/en-us/articles/202370161
-
vivien, tu peux nous donner les IP des suivants?
Google Bot
Une seule requête, et elle ne vient pas de Google :
78.106.205.243 56909 - [23/Dec/2015:13:46:32 +0100] "GET / HTTP/1.1" 200 20193 "http://userbase.be/forum/viewtopic.php?f=106&t=44381&sid=5712d2cbb27ad12da122710fb9dbf4ae" "Google Bot"
Googlebot-Video/1.0
Peu de requêtes car j'ai peu de fichier audio/vidéo.
Plusieurs requêtes qui sont en 404. J'imagine des liens qui sont sur Internet :
66.249.66.75 - - [08/Dec/2015:12:17:46 +0100] "GET /zeop/zeop-review/12/%7B%22auto_hd%22:false,%22autoplay_reason%22:%22unknown%22,%22default_hd%22:true,%22disable_native_controls%22:true,%22inline_player%22:false,%22pixel_ratio%22:1,%22preload%22:false,%22start_muted%22:false,%22video_data%22:%7B%22progressive%22:[%7B%22hd_src%22:%22https:%5C/%5C/video-ord1-1.xx.fbcdn.net%5C/hvideo-xta1%5C/v%5C/t43.1792-2%5C/1423389_566247310122826_39951509_n.mp4 HTTP/1.1" 404 5476 "-" "Googlebot-Video/1.0"
66.249.74.97 - - [10/Dec/2015:19:16:34 +0100] "GET /zeop/zeop-review/12/%7B%22auto_hd%22:false,%22autoplay_reason%22:%22unknown%22,%22default_hd%22:true,%22disable_native_controls%22:true,%22inline_player%22:false,%22pixel_ratio%22:1,%22preload%22:false,%22start_muted%22:false,%22video_data%22:%7B%22progressive%22:[%7B%22hd_src%22:%22https:%5C/%5C/video-iad3-1.xx.fbcdn.net%5C/hvideo-xta1%5C/v%5C/t43.1792-2%5C/1423389_566247310122826_39951509_n.mp4 HTTP/1.1" 404 5476 "-" "Googlebot-Video/1.0"
66.249.66.72 - - [13/Dec/2015:02:55:35 +0100] "GET /images/tuto/Test_analyse_VoIP_G711_LaFibre.info_2.au HTTP/1.1" 200 338647 "-" "Googlebot-Video/1.0"
66.249.66.72 - - [13/Dec/2015:10:48:21 +0100] "GET /images/tuto/Test_analyse_VoIP_G711_LaFibre.info_12.au HTTP/1.1" 200 339826 "-" "Googlebot-Video/1.0"
66.249.66.75 - - [14/Dec/2015:02:28:14 +0100] "GET /images/free/201201_free_mobile_qos_sur_reseau_orange_xavier_niel.mp3 HTTP/1.1" 304 4650 "-" "Googlebot-Video/1.0"
66.249.78.204 - - [19/Dec/2015:10:39:37 +0100] "GET /images/DatacenterPluie.avi HTTP/1.1" 404 5046 "-" "Googlebot-Video/1.0"
66.249.78.211 - - [20/Dec/2015:00:35:53 +0100] "GET /zeop/zeop-review/12/%7B%22auto_hd%22:false,%22autoplay_reason%22:%22unknown%22,%22default_hd%22:true,%22disable_native_controls%22:true,%22inline_player%22:false,%22pixel_ratio%22:1,%22preload%22:false,%22start_muted%22:false,%22rtmp_buffer%22:false,%22video_data%22:%7B%22progressive%22:[%7B%22hd_src%22:%22https:%5C/%5C/video-iad3-1.xx.fbcdn.net%5C/hvideo-xta1%5C/v%5C/t43.1792-2%5C/1423389_566247310122826_39951509_n.mp4 HTTP/1.1" 404 5506 "-" "Googlebot-Video/1.0"
66.249.78.218 63007 - [21/Dec/2015:15:53:44 +0100] "GET /site/france_telecom/haut_debit/chxlg. swf HTTP/1.1" 200 4969 "-" "Googlebot-Video/1.0"
66.249.78.211 47697 - [21/Dec/2015:23:44:04 +0100] "GET /site/france_telecom/tv_adsl/lanceur. swf HTTP/1.1" 200 4969 "-" "Googlebot-Video/1.0"
66.249.78.204 51656 - [22/Dec/2015:01:33:28 +0100] "GET /images/DatacenterPluie.avi HTTP/1.1" 404 5046 "-" "Googlebot-Video/1.0"
66.249.78.218 44791 - [22/Dec/2015:07:36:33 +0100] "GET /images/tuto/Test_analyse_VoIP_G711_LaFibre.info_1.au HTTP/1.1" 304 4649 "-" "Googlebot-Video/1.0"
-
vivien, tu peux nous donner les IP des suivants?
Googlebot-Image/1.0
Les requêtes depuis 6h00 du matin, en moins de 4h il y a déjà eu pas mal de requêtes :
66.249.66.78 54856 - [26/Dec/2015:06:45:55 +0100] "GET /images/datacenter/201307_coupure_electricite_datacenter_online_dc2_3.png HTTP/1.1" 200 50935 "-" "Googlebot-Image/1.0"
66.249.78.204 40128 - [26/Dec/2015:06:50:01 +0100] "GET /images/materiel/201502_switch_10GBASE-T_Netgear_ProSafe_XS708E_04.jpg HTTP/1.1" 304 4648 "-" "Googlebot-Image/1.0"
66.249.66.75 43381 - [26/Dec/2015:06:54:03 +0100] "GET /index.php?action=dlattach;attach=12808;type=avatar HTTP/1.1" 200 24868 "-" "Googlebot-Image/1.0"
66.249.78.204 34721 - [26/Dec/2015:06:58:10 +0100] "GET /index.php?action=dlattach;attach=8726;type=avatar HTTP/1.1" 304 4742 "-" "Googlebot-Image/1.0"
66.249.78.218 44833 - [26/Dec/2015:07:02:13 +0100] "GET /images/bistro/201101_ratp_pcc_metro_ligne_1.jpg HTTP/1.1" 200 404672 "-" "Googlebot-Image/1.0"
66.249.78.218 52491 - [26/Dec/2015:07:06:15 +0100] "GET /images/altice_cable/201510_dachstein_cablage_copropriete_16_logements_03.jpg HTTP/1.1" 304 4649 "-" "Googlebot-Image/1.0"
66.249.66.72 38641 - [26/Dec/2015:07:10:22 +0100] "GET /cityplay-fibre/cityplay-rachete-par-wibox/?action=dlattach;attach=7952 HTTP/1.1" 304 288 "-" "Googlebot-Image/1.0"
66.249.78.204 56466 - [26/Dec/2015:07:14:23 +0100] "GET /images/datacenter/201305_datacenter_google_MNK_005.jpg HTTP/1.1" 304 4650 "-" "Googlebot-Image/1.0"
66.249.78.204 46167 - [26/Dec/2015:07:18:30 +0100] "GET /images/peering/201405_sonde_ripe_atlas_1.jpg HTTP/1.1" 304 4649 "-" "Googlebot-Image/1.0"
66.249.66.75 52973 - [26/Dec/2015:07:22:34 +0100] "GET /images/materiel/201502_switch_10GBASE-T_Netgear_ProSafe_XS708E_17.jpg HTTP/1.1" 304 4649 "-" "Googlebot-Image/1.0"
66.249.66.72 54099 - [26/Dec/2015:07:26:35 +0100] "GET /index.php?action=dlattach;attach=11860;type=avatar HTTP/1.1" 304 4742 "-" "Googlebot-Image/1.0"
66.249.78.211 62402 - [26/Dec/2015:07:30:42 +0100] "GET /images/materiel/201404_amd_athlon_xp_barton_3200_1.jpg HTTP/1.1" 304 4649 "-" "Googlebot-Image/1.0"
66.249.78.211 60035 - [26/Dec/2015:07:34:43 +0100] "GET /installation-ftth/migration-fttla-vers-ftth/?action=dlattach;attach=7820;image HTTP/1.1" 304 4742 "-" "Googlebot-Image/1.0"
66.249.78.211 47276 - [26/Dec/2015:07:38:50 +0100] "GET /images/cityplay/201405_rachat_cityplay_par_altitude_infrastructure.png HTTP/1.1" 304 4649 "-" "Googlebot-Image/1.0"
66.249.78.204 40226 - [26/Dec/2015:07:42:51 +0100] "GET /images/doc/200610_savoie_dossier_FTTH_Maurienne_annexe_2.jpg HTTP/1.1" 304 4648 "-" "Googlebot-Image/1.0"
66.249.78.204 57353 - [26/Dec/2015:07:46:58 +0100] "GET /images/dsp/Maurienne_article_2006_3.jpg HTTP/1.1" 304 4649 "-" "Googlebot-Image/1.0"
66.249.66.72 40305 - [26/Dec/2015:07:51:03 +0100] "GET /images/logo/logo_3F.png HTTP/1.1" 304 4647 "-" "Googlebot-Image/1.0"
66.249.78.218 65272 - [26/Dec/2015:07:55:03 +0100] "GET /val-dorge/le-deploiement-du-tres-haut-debit-sur-le-val-dorge-cavo/?action=dlattach;attach=19518 HTTP/1.1" 304 4742 "-" "Googlebot-Image/1.0"
66.249.78.218 40339 - [26/Dec/2015:07:59:11 +0100] "GET /images/4g/201510_free_mobile_antenne_tube_16.jpg HTTP/1.1" 304 4649 "-" "Googlebot-Image/1.0"
66.249.66.72 43816 - [26/Dec/2015:08:03:12 +0100] "GET /orange-internet/livebox-play-incapable-de-tenir-une-semaine-up/?action=dlattach;attach=3574;image HTTP/1.1" 304 4742 "-" "Googlebot-Image/1.0"
66.249.78.218 39111 - [26/Dec/2015:08:07:19 +0100] "GET /images/orange_pmz/201311_brest_fibre_orange_1.jpg HTTP/1.1" 304 4649 "-" "Googlebot-Image/1.0"
66.249.78.218 38419 - [26/Dec/2015:08:11:23 +0100] "GET /images/orange_pmz/201401_franconville_fibre_orange_4.jpg HTTP/1.1" 304 4649 "-" "Googlebot-Image/1.0"
66.249.78.204 64655 - [26/Dec/2015:08:15:23 +0100] "GET /images/orange/201107_France_Telecom_Marine_39.jpg HTTP/1.1" 304 4649 "-" "Googlebot-Image/1.0"
66.249.78.204 35337 - [26/Dec/2015:08:19:34 +0100] "GET /images/dsp/201406_ain_siea_change_pmz_pour_orange_15.jpg HTTP/1.1" 304 4649 "-" "Googlebot-Image/1.0"
66.249.78.211 61030 - [26/Dec/2015:08:23:32 +0100] "GET /images/dsp/201406_ain_siea_change_pmz_pour_orange_13.jpg HTTP/1.1" 304 4649 "-" "Googlebot-Image/1.0"
66.249.78.218 38906 - [26/Dec/2015:08:27:39 +0100] "GET /index.php?action=dlattach;attach=2593;type=avatar HTTP/1.1" 304 4742 "-" "Googlebot-Image/1.0"
66.249.78.204 41846 - [26/Dec/2015:08:29:00 +0100] "GET /index.php?action=dlattach;attach=20515;type=avatar HTTP/1.1" 200 11815 "-" "Googlebot-Image/1.0"
66.249.78.204 63052 - [26/Dec/2015:08:29:23 +0100] "GET /index.php?action=dlattach;attach=15644;type=avatar HTTP/1.1" 200 11012 "-" "Googlebot-Image/1.0"
66.249.66.78 60901 - [26/Dec/2015:08:31:43 +0100] "GET /images/dsp/201310_limeil-brevannes_reseau_ftth_opale_12.jpg HTTP/1.1" 304 4649 "-" "Googlebot-Image/1.0"
66.249.66.72 46075 - [26/Dec/2015:08:35:44 +0100] "GET /images/dsp/201310_limeil-brevannes_reseau_ftth_opale_15.jpg HTTP/1.1" 304 195 "-" "Googlebot-Image/1.0"
66.249.78.218 49608 - [26/Dec/2015:08:39:51 +0100] "GET /smokeping/knet/DNS/knet_primaire_last_172800.png HTTP/1.1" 200 51675 "-" "Googlebot-Image/1.0"
66.249.66.72 49762 - [26/Dec/2015:08:43:52 +0100] "GET /images/3g/201306_nra_orange_cesson_sfr.png HTTP/1.1" 304 4648 "-" "Googlebot-Image/1.0"
66.249.78.211 62648 - [26/Dec/2015:08:48:00 +0100] "GET /haute-garonne/etat-des-deploiments-toulouse-metropole/?action=dlattach;attach=10960 HTTP/1.1" 304 4742 "-" "Googlebot-Image/1.0"
66.249.78.211 61377 - [26/Dec/2015:08:52:04 +0100] "GET /index.php?action=dlattach;attach=13433;type=avatar HTTP/1.1" 304 4742 "-" "Googlebot-Image/1.0"
66.249.78.211 62844 - [26/Dec/2015:08:56:04 +0100] "GET /kiwi-tv/nouveau-boitier-tv/?action=dlattach;attach=6092 HTTP/1.1" 304 4742 "-" "Googlebot-Image/1.0"
66.249.78.211 35847 - [26/Dec/2015:09:00:13 +0100] "GET /kiwi-tv/nouveau-boitier-tv/?action=dlattach;attach=6089;image HTTP/1.1" 304 4742 "-" "Googlebot-Image/1.0"
66.249.78.218 65281 - [26/Dec/2015:09:04:17 +0100] "GET /tester-son-debit/sondage-voulez-vous-plus-dupload/?action=dlattach;attach=1451 HTTP/1.1" 304 4742 "-" "Googlebot-Image/1.0"
66.249.66.72 53879 - [26/Dec/2015:09:08:21 +0100] "GET /images/ovh/201107_rbx1_remplacement_carte_hs_5.jpg HTTP/1.1" 304 4649 "-" "Googlebot-Image/1.0"
66.249.66.78 49781 - [26/Dec/2015:09:12:25 +0100] "GET /images/tuto/201308_diametre_cable_288fo.jpg HTTP/1.1" 304 4648 "-" "Googlebot-Image/1.0"
66.249.78.211 46882 - [26/Dec/2015:09:16:25 +0100] "GET /images/dsp/201406_ain_siea_change_pmz_pour_orange_16.jpg HTTP/1.1" 304 4649 "-" "Googlebot-Image/1.0"
66.249.66.75 44804 - [26/Dec/2015:09:20:33 +0100] "GET /images/dsp/201406_ain_siea_change_pmz_pour_orange_05.jpg HTTP/1.1" 304 4649 "-" "Googlebot-Image/1.0"
66.249.78.218 51862 - [26/Dec/2015:09:24:33 +0100] "GET /images/dsp/201406_ain_siea_change_pmz_pour_orange_06.jpg HTTP/1.1" 304 4649 "-" "Googlebot-Image/1.0"
66.249.78.218 54999 - [26/Dec/2015:09:28:41 +0100] "GET /images/datacenter/201305_datacenter_google_mini_PRY_03.jpg HTTP/1.1" 304 4648 "-" "Googlebot-Image/1.0"
66.249.78.204 56418 - [26/Dec/2015:09:32:41 +0100] "GET /images/datacenter/201305_datacenter_google_mini_PRY_16.jpg HTTP/1.1" 304 4648 "-" "Googlebot-Image/1.0"
66.249.78.218 58677 - [26/Dec/2015:09:36:49 +0100] "GET /images/dsp/201206_thd_seine_versailles.jpg HTTP/1.1" 304 4649 "-" "Googlebot-Image/1.0"
66.249.78.218 36431 - [26/Dec/2015:09:40:53 +0100] "GET /images/smileys/Content_26.gif HTTP/1.1" 304 4648 "-" "Googlebot-Image/1.0"
66.249.78.218 37650 - [26/Dec/2015:09:44:57 +0100] "GET /images/altice/201312_campus_sfr_saint-denis_android_11.png HTTP/1.1" 304 4649 "-" "Googlebot-Image/1.0"
66.249.78.211 42764 - [26/Dec/2015:09:49:02 +0100] "GET /images/tv/esport169.jpg HTTP/1.1" 304 4648 "-" "Googlebot-Image/1.0"
66.249.66.75 65412 - [26/Dec/2015:09:52:41 +0100] "GET /index.php?action=dlattach;attach=2804;type=avatar HTTP/1.1" 200 11842 "-" "Googlebot-Image/1.0"
66.249.78.218 51708 - [26/Dec/2015:09:53:01 +0100] "GET /index.php?action=dlattach;attach=64;type=avatar HTTP/1.1" 200 10281 "-" "Googlebot-Image/1.0"
-
Liste des user-agent utilisé sur LaFibre.info les 3 dernières semaines
Je vous ai mis dans un fichier texte la liste des user-agent utilisé (un user-agent n’apparaît qu'une seule fois dans le fichier, trié par ordre alphabétique)
=> 201512_user-agent_lafibreinfo.txt (https://lafibre.info/images/stats/201512_user-agent_lafibreinfo.txt)
Possibilité d'avoir les itérations par User-Agent ??
Je serais curieux de savoir combien de personne utilise : Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2599.0 Safari/537.36
Cdt
Bensay
-
Possibilité d'avoir les itérations par User-Agent ??
+1 l'important est le taux d'utilisation de chaque agent.
Le compte par IP unique me semble un bon moyen.
-
Comment faire ?
Là c'est assez simple :
cut -d \" -f 6 access.log | sort | uniq > user-agent.log
Compter le nb d'IP unique par user-agent cela complique pas mal la chose.
Si vous avez un script sous la main...
-
Un truc comme ça:
awk -F ' - |"' '{ua[$7][$1] = 0} END { for(i in ua) print(length(ua[i]), ":", i)}' access.log | sort -h
-
Pas mal.
Par contre, comme j'ai le numéro de port dans les fichiers de log, a la place du second argument qui est toujours à "-", il est impossible d'utiliser espace et tiret en séparateur.
L'espace me semble le seul séparateur utilisable. Par contre comment faire pour qu'il interprète les champs entourés de guillemets comme un unique champ, comme le fait calc ?
Exemple d'une ligne de mes logs :
107.178.19.4 52984 - [26/Dec/2015:15:53:22 +0100] "GET /sfr-espace-technique/ HTTP/1.1" 200 11951 "-" "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:22.0) Gecko/20100101 Firefox/22.0 AppEngine-Google; (+http://code.google.com/appengine; appid: e~viavoo-webcrawler)"
-
Tu peux faire comme ceci, en te basant sur le champ 3 au lieu du 2 :
awk -F ' [0-9]* - |"' '{ua[$7][$1] = 0} END { for(i in ua) print(length(ua[i]), ":", i)}' access.log | sort -h
Attention : ne fonctionne que si tu n'utilises pas l'authentification HTTP
Le champ 3 est un %u par défaut :
L'utilisateur distant (en provenance d'auth ; peut être faux si le statut de retour (%s) est 401).
Le séparateur de awk est une expression régulière, tu peux donc en faire ce que tu souhaites
-
Voici le résultats sur les 4 derniers jours avec le nombre d'IP unique par user-agent :
=> 201512_user-agent_lafibreinfo.txt (https://lafibre.info/images/stats/201512_user-agent_lafibreinfo.txt)
Voici le top 30 : (stats sur 4 derniers jours)
27049 : Python-urllib/1.17
4111 : Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.106 Safari/537.36
4105 : Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.106 Safari/537.36
3528 : Mozilla/5.0 (iPhone; CPU iPhone OS 9_2 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13C75 Safari/601.1
3274 : Mozilla/5.0 (Windows NT 6.1; WOW64; rv:43.0) Gecko/20100101 Firefox/43.0
2595 : Mozilla/5.0 (Windows NT 10.0; WOW64; rv:43.0) Gecko/20100101 Firefox/43.0
1594 : Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.106 Safari/537.36
1302 : Mozilla/5.0 (Windows NT 6.1; WOW64; Trident/7.0; rv:11.0) like Gecko
1267 : Mozilla/5.0 (iPad; CPU OS 9_2 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13C75 Safari/601.1
1156 : Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_2) AppleWebKit/601.3.9 (KHTML, like Gecko) Version/9.0.2 Safari/601.3.9
1025 : Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.106 Safari/537.36
1025 : Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143 Safari/601.1
1011 : Mozilla/5.0 (Windows NT 6.3; WOW64; rv:43.0) Gecko/20100101 Firefox/43.0
681 : Mozilla/5.0 (Windows NT 6.1; rv:43.0) Gecko/20100101 Firefox/43.0
640 : Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/46.0.2486.0 Safari/537.36 Edge/13.10586
525 : Mozilla/5.0 (Windows NT 5.1; rv:43.0) Gecko/20100101 Firefox/43.0
518 : facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)
505 : Mozilla/5.0 (Windows NT 6.1; Win64; x64; Trident/7.0; rv:11.0) like Gecko
470 : Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.106 Safari/537.36
452 : Mozilla/5.0 (Windows NT 6.1; WOW64; rv:42.0) Gecko/20100101 Firefox/42.0
447 : Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/42.0.2311.135 Safari/537.36 Edge/12.10240
435 : Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.106 Safari/537.36
406 : Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:43.0) Gecko/20100101 Firefox/43.0
397 : Mozilla/5.0 (Windows NT 6.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.106 Safari/537.36
381 : Mozilla/5.0 (Windows NT 6.3; WOW64; Trident/7.0; rv:11.0) like Gecko
379 : Mozilla/5.0 (iPad; CPU OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143 Safari/601.1
365 : Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; rv:11.0) like Gecko
363 : Mozilla/5.0 (Windows NT 6.1; Trident/7.0; rv:11.0) like Gecko
343 : Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_1) AppleWebKit/601.2.7 (KHTML, like Gecko) Version/9.0.1 Safari/601.2.7
Windows NT 10.0 ==> Windows 10 et Windows Server 2016
Windows NT 6.3 ==> Windows 8.1 et Windows Server 2012 R2
Windows NT 6.1 ==> Windows 7 et Windows Server 2008 R2
Windows NT 5.1 ==> Windows XP
Vous vous demandez ce que c'est ces 27049 IP unique qui ont le user agent "Python-urllib/1.17" ?
Moi aussi, c'est clairement énorme.
Le fichiers téléchargés par ces dizaines de milliers de PC est toujours le même : https://lafibre.info/images/tv/logo_rsi_la1.jpg
Voici les logs filtré avec le user-agent "Python-urllib/1.17" : 201512_log_lafibreinfo_python.txt (https://lafibre.info/images/stats/201512_log_lafibreinfo_python.txt)
Si vous avez une idée sur l'origine des requêtes...
-
Le fichiers téléchargés par ces dizaines de milliers de PC est toujours le même : https://lafibre.info/images/tv/logo_rsi_la1.jpg
L'image n’apparaît que dans le sujet suivant : https://lafibre.info/adeli-fibre/bouquet-tv-adeli/
-
Si vous avez une idée sur l'origine des requêtes...
Une recherche (https://www.google.com/search?q="images%2Ftv%2Flogo_rsi_la1.jpg") sur l'URL semble indiquer ce fichier est visiblement hotlinké dans les ressources d'un plugin XMBC (https://github.com/cubicle-vdo/xbmc-israel/tree/master/plugin.video.israelive) permettant de regarder des chaînes internationales.
-
Effectivement, ils ont pris les images du premier site venu...
{
"group": "10716",
"name": "RSI La 1",
"url": "it/1?mode=9",
"image": "https://lafibre.info/images/tv/logo_rsi_la1.jpg",
"type": "video",
"id": "11591"
},
Il y a même une image piquées sur github :
{
"group": "10716",
"name": "Rai Storia",
"url": "it/25?mode=9",
"image": "https://github.com/ocram/picons/diff_blob/27b88708b8720453a5a0c9b0f176fb9473380337/picons/raistoria.png?raw=true",
"type": "video",
"id": "10734"
},
-
Plus qu'à bloquer le user-agent :
Robotparser by default was using in 2.* the Python-urllib/1.17 user agent which is traditionally blocked by many sysadmins. A solution has been already proposed above:
-
Plus qu'à bloquer le user-agent :
Pourquoi ?
Robotparser by default was using in 2.* the Python-urllib/1.17 user agent which is traditionally blocked by many sysadmins. A solution has been already proposed above:
Quel rapport et qu'est-ce que c'est censé justifier ?
-
Je ne vais pas bloquer et pénaliser les utilisateurs de ce plug-in qui sont visiblement très nombreux.
Si je souhaitais bloquer, la solution la plus simple serait de renommer l'image. Je note que l'image github répond 404.
Sinon, je note que Windows XP est tout sauf mort. Il y a un nombre significative de visite depuis LaFibre.info avec cet OS : 525 IP uniques pour Firefox 43 sous Windows XP et 470 IP uniques pour Chrome/47.0 sous Windows XP. (plus de mises à jour de Chrome sous XP dans quelques mois)
-
Plus qu'à bloquer le user-agent :
Robotparser by default was using in 2.* the Python-urllib/1.17 user agent which is traditionally blocked by many sysadmins. A solution has been already proposed above:
Est-ce la faute des utilisateurs de Python-urllib si UN plugin fait du hotlinking?
Pourquoi bloquer les gens qui ne modifient pas le user-agent par défaut?
-
Pour comparer, les parts de marché des différents systèmes d’exploitation, en France en novembre 2015, selon Statcounter :
(https://lafibre.info/images/stats/201511_part_marche_systeme_exploitation.png)
-
perso je pense qu'envoyer un mail au dev du plugin serait une bonne idée.
c'est quand même pas top de prendre au hasard une image sur un site x
tu charge un site inutilement avec toutes ces requêtes...
-
Pourquoi ?
Quel rapport et qu'est-ce que c'est censé justifier ?
Je ne connais pas la raisons qui pousse autant de sysadmin à le bloquer , mais si tu l'as cela m’intéresse :)
Est-ce la faute des utilisateurs de Python-urllib si UN plugin fait du hotlinking?
Certainement pas non ;) mais l'UA cité est surtout utilisé par des robots de crawl
Pourquoi bloquer les gens qui se bidonnent pas leur UA?
Je comprends pas désolé ???
Tu voulais dire ?
-
Je ne connais pas la raisons qui pousse autant de sysadmin à le bloquer , mais si tu l'as cela m’intéresse :)
urllib/urllib2 est l'interface HTTP haut-niveau incluse par défaut dans la bibliothèque standard Python. Elle peut être utilisée par à peu près tout et aucun usage n'y est afférent.
Parler de « autant de sysadmin » est strictement dénudé de sens dans le cas où tu n'as aucune valeur statistique à ta disposition et que ton raisonnement se fonde exclusivement sur une phrase complètement sortie de son contexte trouvée depuis Google pour ensuite être copiée sans être par ailleurs comprise. Si tu as une autre variable à fournir (observation empirique ou effectuée de manière automatisée sur un large panel d'hôtes) elle pourra cependant être prise en compte.
-
Tu voulais dire ?
Que le user-agent est assez facilement modifiable par l'utilisateur et que tu ne vas bloquer que les gens qui laissent celui par défaut, et non pas spécialement les abuseurs.
-
Je continue mon analyse de log du serveur LaFibre.info en me focalisant maintenant sur les requêtes effectuées en http 1.0 (et non http 1.1 comme le fait tout navigateur web)
Voici le résultats sur le mois de janvier avec http 1.0 après avoir supprimé les "Python-urllib/1.17" qui sont en http 1.0 (requêtes effectuées par un fichier hotlinké dans les ressources d'un plugin XMBC permettant de regarder des chaînes internationales) :
=> 201601_log_lafibreinfo_http_version1.ods (https://lafibre.info/images/stats/201601_log_lafibreinfo_http_version1.ods) (format Libre Office Calc, lisible avec Microsoft Excel et Open Office)
J'ai mis un onglet avec les log intégrales en http 1.0 (sans "Python-urllib/1.17") et ensuite 3 onglets avec :
- La liste unique des IP et le nb d’occurrence d'apparition de chaque IP
- La liste unique des referer et le nb d’occurrence d'apparition de chaque referer
- La liste unique des user-agent et le nb d’occurrence d'apparition de chaque user-agent
Pour les deux derniers, j'ai des souci : la formule nb.si refuse de trouver les occurrences d'apparitions, problème qui doit être lié a des caractères spéciaux, mais j'ai pas trouvé la solution. Si vous savez ce qu'il faut faire pour que cela fonctionne sous calc...
Sinon, il y a des surprises sur les referer, avec de nombreux sites porno. Je suppose que le but est d’apparaître dans les log pour faire connaître le site.
-
Tu as vérifié que les sites porno de font pas référence à lafibre?
-
Et pourquoi on serait en http 1.0 ?
Cela montre que c'est un simple programme qui fait cette requête.
Dans mes statistiques IPv4 vs IPv6, je pense qu'il est souhaitable de virer toutes ces requêtes en http 1.0
Tout ce qui est en http 1.0 n'est pas légitime (ce ne sont pas des visites de clients).
Je pense qu'il y a une partie du trafic non légitime en http 1.1. Je le verrais quand je passerais en http 2.0
Tous les navigateurs maintenus supportent http/2 (il me reste a vérifier IE 11 sous Windows 7 / 8.1 - j'ai vu que IE 11 sous Win 10 support http/2 mais je me demande si la modif a été mise sur IE11 dans les autres OS. Chorme / Firfox / Safari / Opéra supportent http/2 sur toutes les plate-formes.
-
Parce que les mateurs de boules utilisent Mosaic?
-
Tous les navigateurs maintenus supportent http/2 (il me reste a vérifier IE 11 sous Windows 7 / 8.1 - j'ai vu que IE 11 sous Win 10 support http/2 mais je me demande si la modif a été mise sur IE11 dans les autres OS. Chorme / Firfox / Safari / Opéra supportent http/2 sur toutes les plate-formes.
Voici dans le détail: http://caniuse.com/#feat=http2
IE 11, uniquement dans W10 pour cette techno.
Safari 9+, uniquement dans OSX 10.11+.
Et côté mobiles et autres, c'est tout ou rien selon le navigateur maintenu... Cliquer sur "Show all" pour la liste complète. Elle n'y est pas par défaut.
Je ne connais pas HTTP/2, mais pour le moment, les navigateurs ne le supportent que via TLS (https). Ce qui ne sera pas un problème pour lafibre.info.
-
Je ne connais pas HTTP/2, mais pour le moment, les navigateurs ne le supportent que via TLS (https). Ce qui ne sera pas un problème pour lafibre.info.
C'est un peu l'idée : seul le fonctionnement en chiffré en prévu.
-
Ah ok.
Bon, Iron 40, basé sur Chromium, n'est pas compatible HTTP/2. Testé sur https://http2.akamai.com/demo avec mon navigateur.
Et sur le blog de Chrome, impossible de savoir à partir de quelle version.
Je pense passer à la 44 dans quelques semaines. Peut être que...
En attendant, j'ai regardé dans les tréfonds d'Iron:
- chrome://net-internals/#spdy : les sites en https sont en SPDY/3.1 dans mon cas, quand HTTP/2 est activé côté serveur. Et oui, c'est le bon lien pour voir un éventuel HTTP/2... Ah, la logique de Google. ::) => http://venturebeat.com/2015/03/17/google-adds-full-http2-support-to-latest-chrome-build/
- chrome://flags/ : j'ai un paramètre pour activer SPDY/4. C'est une base, mais pas le protocole final, donc cela ne changera pas grand chose en compatibilité.^^
-
Ah ok.
Bon, Iron 40, basé sur Chromium, n'est pas compatible HTTP/2. Testé sur https://http2.akamai.com/demo avec mon navigateur.
Et sur le blog de Chrome, impossible de savoir à partir de quelle version.
Je pense passer à la 44 dans quelques semaines. Peut être que...
En attendant, j'ai regardé dans les tréfonds d'Iron:
- chrome://net-internals/#spdy : les sites en https sont en SPDY/3.1 dans mon cas, quand HTTP/2 est activé côté serveur. Et oui, c'est le bon lien pour voir un éventuel HTTP/2... Ah, la logique de Google. ::) => http://venturebeat.com/2015/03/17/google-adds-full-http2-support-to-latest-chrome-build/
- chrome://flags/ : j'ai un paramètre pour activer SPDY/4. C'est une base, mais pas le protocole final, donc cela ne changera pas grand chose en compatibilité.^^
la logique ? c'est normal car spdy/4 c'est http/2 ...a l'époque de chrome 40 on parlais de spdy pas de http/2
L'annonce a été faite en fev 2015: http://blog.chromium.org/2015/02/hello-http2-goodbye-spdy-http-is_9.html donc les travaux on débuter avec la v40.
Depuis dans Chrome y'a plus de spdy dans les flags et c'est chrome://net-internals/#http2 maintenant.
ps: c'est la v43 du 19 mai 2015 qui supprime spdy au profit de http/2
-
Ok pour v43.
Car même sous Chrome 40 et 41, il y en a qui disent que ce n'était pas actif... ou bugué. Enfin, ce sont des retours en anglais , donc pas tout compris dans le détail.
Iron 44 devrait être bon alors. :)
Sinon, pas compris ceci:
la logique ? c'est normal car spdy/4 c'est http/2 ...
Pourtant, j'ai lu que SPDY/4 c'était arrêté... en version alpha! :o
HTTP/2 est de l'alpha, ou c'est juste une transition rapide de SPDY/4 alpha vers HTTP/2 release?
Car certains serveurs ont déjà enlevé le support de toutes versions de SPDY...
Parenthèse rapide, SPDY en v1 et v2 sont déconseillés, donc à désactiver.
-
http/2 est une normalisation de spdy4 et le nom retenu est http/2 et non spdy.
Je pense me servir de la version de http pour détecter ceux qui ont des outils et se font passer pour un navigateur grand public via le user-agent. Quand lafibre.info passera en http/2 (probablement le 1er juin 2016), je serais en mesure de voir les aspirateur de sites via analyse des logs. Les aspirateurs ne gèrent pas http/2 mais se font passer pour un navigateur moderne pour être discret.
-
Que feras-tu, une fois les aspirateurs de sites repérés?
Le mien, par défaut, il a ceci, et il est pourtant encore maintenu^^, là avec une version de 2015 installée sur Windows 7: Mozilla/4.5 (compatible; HTTrack 3.0x; Windows 98)
Il ne se cache pas! :P
Enfin, c'est très rare que je l'utilise, et il y a plein de paramètres pour ne pas tout saturer à nous tout seul...
-
C'est juste pour des stats fiables (vous pouvez vous amusez a aspirer le site, pas de pb)
Le but est d'avoir des stats sur le déploiement IPv6 par opérateur et les GGC par opérateur (via des ports de retours hors de la plage)
Les aspirateurs faussent les stats (un aspirateur sous Linux qui se fait passer pour un windows via le user-agent, va engendrer des ports invalides qui seront compté comme étant du CG-Nat par exemple)
-
Ok, en parlant d'IPv6, je viens de résoudre mon problème d'IPv6 sur PC portable.
Et j'en ai profité pour éditer le post où j'avais tiré à boulet rouge contre Clevo... qui y sont pour rien: https://lafibre.info/orange-les-news/actualites-ipv6-orange/msg283561/#msg283561
Entre Bitdefender 2014 qui bloquait simplement le surf en IPv6... et Bitdefender 2015 qui ne bloquait strictement rien en IPv6 (ports ouverts, pas de blocage des scans extérieurs, etc). Je suis content de m'en être (enfin!) débarrassé sur tous mes PC. :)
-
Je pense me servir de la version de http pour détecter ceux qui ont des outils et se font passer pour un navigateur grand public via le user-agent. Quand lafibre.info passera en http/2 (probablement le 1er juin 2016), je serais en mesure de voir les aspirateur de sites via analyse des logs. Les aspirateurs ne gèrent pas http/2 mais se font passer pour un navigateur moderne pour être discret.
Pendant une période de transition seulement. Dans quelques années (à mois selon les cas), je suis à peu près sûr que les bibliothèques standards des principaux langages de script l'auront intégré de manière plus ou moins transparente. Pour ce qui est de repérer les bots, il y a d'autres facteurs déjà utiles (les en-têtes HTTP que tu ne journalises pas toutes, leur ordre et leur forme, le comportement des connexions, la récupération des ressources, les plages d'adresses IP... et un grand nombre potentiel d'autres en choisissant d'inclure du JavaScript).
Le but est d'avoir des stats sur le déploiement IPv6 par opérateur et les GGC par opérateur (via des ports de retours hors de la plage)
Tu voulais sûrement dire CGN au lieu de GGC.
Sinon pour les GGC, je pourrais essayer de générer ça aussi si ça t'intéresse, j'ai commencé depuis quelques mois à collecter des noms d'hôtes de caches via plusieurs sources, dont un service de DNS passif. La liste n'est vraisemblablement pas complète mais inclut au moins 576 opérateurs dans le monde (donc 10 se trouvent en France : Orange (parti), SFR, Free, Numericable, Néo Télécoms, Renater, Adista, Rézopole, Céleste, K-Net (en Suisse)). Il semble clair qu'il y a eu une grosse croissance ces derniers mois (et c'est bien utile à certains régions mal desservies, comme l'Afrique).
-
Pendant une période de transition seulement. Dans quelques années (à mois selon les cas), je suis à peu près sûr que les bibliothèques standards des principaux langages de script l'auront intégré de manière plus ou moins transparente.
Je ne pense pas, car http1.1 qui date de 1997, n'est toujours pas implèmenté dans beaucoup de bibliothèques standards.
Un exemple : la bibliothèque "Python-urllib/1.17" utilisée par XBMC est en http 1.0 (nombreuses requêtes car un plug-in utilise une image hotlinké du forum)
Voici quelques robots qui utilisent eux aussi http 1.0 :
Gigabot/1.0
linkapediabot (+http://www.linkapedia.com)
Mozilla/5.0 (compatible; archive.org_bot +http://archive.org/details/archive.org_bot)
Mozilla/5.0 (compatible; archive.org_bot +http://www.archive.org/details/archive.org_bot)
Mozilla/5.0 (compatible; heritrix/3.3.0-SNAPSHOT-20140702-2247 +http://archive.org/details/archive.org_bot)
Mozilla/5.0 (compatible; ltbot/0.3.6 +http://www.kdsl.tu-darmstadt.de/de/kdsl/research-program/crawling-and-semantic-structuring/)
Mozilla/5.0 (compatible; MJ12bot/v1.4.5; http://www.majestic12.co.uk/bot.php?+)
Mozilla/5.0 (compatible; special_archiver/3.1.1 +http://www.archive.org/details/archive.org_bot)
Mozilla/5.0 (compatible; thumboweb_bot/BETA0.8; +http://www.thumboweb.com/bot.php)
Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.6) Gecko/20070725 Firefox/2.0.0.6 - James BOT - WebCrawler http://cognitiveseo.com/bot.html
SafeDNS search bot/Nutch-1.9 (https://www.safedns.com/searchbot; support [at] safedns [dot] com)
Microsoft Office est aussi en http1.0 pour ses requêtes :
Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.1; WOW64; Trident/7.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; InfoPath.2; .NET4.0C; .NET4.0E; MSOffice 12)
Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Trident/4.0; BTRS98653; InfoPath.2; .NET CLR 2.0.50727; .NET CLR 3.0.4506.2152; .NET CLR 3.5.30729; .NET4.0C; .NET4.0E; MSOffice 12)
Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.1; Trident/5.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; .NET4.0C; .NET4.0E; ms-office; MSOffice 14)
Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.1; Win64; x64; Trident/7.0; .NET CLR 2.0.50727; SLCC2; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; .NET4.0C; .NET4.0E; Tablet PC 2.0; GWX:DOWNLOADED; ms-office; MSOffice 14)
Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.1; WOW64; Trident/7.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; .NET4.0C; .NET4.0E; CMDTDFJS; ms-office; MSOffice 15)
Exemple de requêtes de Microsoft Office, visiblement pour récupérer des logo :
/Smileys/default/wink.gif HTTP/1.0
/Smileys/default/cry.gif HTTP/1.0
/images/logo/Mozilla_Thunderbird_logo.png HTTP/1.0
/images/logo/Windows_Live_Mail_logo.png HTTP/1.0
/images/logo/Microsoft_Outlook_logo.png HTTP/1.0
/images/logo/Apple_Mail_logo.png HTTP/1.0
/images/logo/Evolution_logo.png HTTP/1.0
/images/logo/Kmail_logo.png HTTP/1.0
/images/logo/Claws_Mail_logo.png HTTP/1.0
/images/bbox/mail_bbox_smtp_thunderbird.png HTTP/1.0
/images/bbox/mail_bbox_pop3_thunderbird.png HTTP/1.0
/images/bbox/mail_bbox_imap_thunderbird.png HTTP/1.0
/images/bbox/mail_bbox_windows_live_mail1.png HTTP/1.0
/images/bbox/mail_bbox_windows_live_mail2.png HTTP/1.0
/images/orange/201405_pub_orange_fibre_reims.jpg HTTP/1.0
-
Je vois aussi du http1.0 venir avec des user-agent WordPress :
WordPress/4.4.1; http://gembala.tk
WordPress/4.4.1; http://www.korte-kapsels.nl
WordPress/4.4.1; https://blog.philippklaus.de
WordPress/4.4.1; http://1web-host.cf
WordPress/4.4.1; https://ipv6.net
WordPress/4.3.2; http://www.imgcell.com
WordPress/4.4.1; http://gufdes.tk
WordPress/4.4.1; http://lafripouille.org
WordPress/4.4.1; http://showboxdigital.com
WordPress/4.3.2; http://androidbelab.com
WordPress/4.3.2; http://dwswebservices.com/congallagher/wp-backup
WordPress/4.4.1; http://ferienz.xyz
WordPress/4.4; https://wiki.neo-services.com:44443
WordPress.com; https://ununiversdeslivres.wordpress.com
Là ce sont majoritairement des requêtes sur des images, mais pas que des images :
/images/dsp/201303_ain_carte_reseau_liain_big.png HTTP/1.0
/images/free/2008_11_Free_FTTH_paris.jpg HTTP/1.0
/images/free/201101_carte_reseau_free_france.png HTTP/1.0
/images/dsp/201210_carte_fibre_oise_1_original.jpg HTTP/1.0
/images/dsp/201411_eure-et-loir_carte.jpg HTTP/1.0
/images/orange/20100702_Couverture_Orange_Fibre_Metz.png HTTP/1.0
/images/altice/201112_carte_ftth_18.png HTTP/1.0
/images/bistro/201303_packard_bell_imedia_s_2.png HTTP/1.0
/images/ovh/201105_test_quizz_%20c_est_quoi.jpg HTTP/1.0
/images/altice/Alcatel_ISAM_7342_FTTU.png HTTP/1.0
/images/dsp/201501_bpe_boite_de_protection_epissure.jpg HTTP/1.0
/images/international/logo_belgacom2_big.png HTTP/1.0
Il y a aussi du PDF ou des articles :
/images/doc/201106_spec_AR8327.pdf HTTP/1.0
/iperf/online-iperf/msg180514/ HTTP/1.0
/free-la-fibre/cgn-14-chez-free-une-ipv4-partagee-par-4-clients/ HTTP/1.0
-
Je ne pense pas, car http1.1 qui date de 1997, n'est toujours pas implèmenté dans beaucoup de bibliothèques standards.
Un exemple : la bibliothèque "Python-urllib/1.17" utilisée par XBMC est en http 1.0 (nombreuses requêtes car un plug-in utilise une image hotlinké du forum)
Tu prends un exemple pour lequel il existe une version supérieure (urllib2, module qui existe depuis 2000 d'après l'arbre de source Python et qui envoie bien du HTTP/1.1) et qui est considérée comme déprécié (supprimé avec Python3) depuis un bon paquet d'années aussi ::)
Si tu as du plus sérieux...
Microsoft Office est aussi en http1.0 pour ses requêtes :
Je vois aussi du http1.0 venir avec des user-agent WordPress :
J'ai bien parlé en années, parce qu'il y a plusieurs autres temps de dépréciation à prendre en compte.
-
Je vois aussi du http 1.0 qui semble venir du téléchargement de PDF sous Android :
Mozilla/5.0 (Linux; Android; 4.1.2; GT-I9100 Build/000000) AppleWebKit/537.22 (KHTML, like Gecko) Chrome/25.0.1234.12 Mobile Safari/537.22 OPR/14.0.123.123
Mozilla/5.0 (Linux; Android 4.4.2; SM-G355H Build/KOT49H) AppleWebKit/537.36 (KHTML, like Gecko) Version/4.0 Chrome/30.0.0.0 Mobile Safari/537.36
Mozilla/5.0 (Linux; Android 4.4.2; SM-G910S Build/KOT49H) AppleWebKit/537.36 (KHTML, like Gecko) Version/4.0 Chrome/30.0.0.0 Mobile Safari/537.36
Mozilla/5.0 (Linux; Android 5.0.1; GT-I9505 Build/LRX22C; wv) AppleWebKit/537.36 (KHTML, like Gecko) Version/4.0 Chrome/43.0.2357.121 Mobile Safari/537.36
Mozilla/5.0 (Linux; Android 5.0.1; GT-I9505 Build/LRX22C; wv) AppleWebKit/537.36 (KHTML, like Gecko) Version/4.0 Chrome/46.0.2490.76 Mobile Safari/537.36
Mozilla/5.0 (Linux; Android 5.0; ASUS_Z008D Build/LRX21V) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/48.0.2564.95 Mobile Safari/537.36
Mozilla/5.0 (Linux; Android 5.0; ASUS_Z00AD Build/LRX21V; wv) AppleWebKit/537.36 (KHTML, like Gecko) Version/4.0 Chrome/43.0.2357.121 Mobile Safari/537.36
Mozilla/5.0 (Linux; Android 5.1.1; falcon Build/LMY48W; wv) AppleWebKit/537.36 (KHTML, like Gecko) Version/4.0 Chrome/46.0.2490.76 Mobile Safari/537.36
Mozilla/5.0 (Linux; Android 5.1.1; Mi-4c Build/LMY47V; wv) AppleWebKit/537.36 (KHTML, like Gecko) Version/4.0 Chrome/47.0.2526.100 Mobile Safari/537.36
Mozilla/5.0 (Linux; Android 5.1.1; SM-A800F Build/LMY47X; wv) AppleWebKit/537.36 (KHTML, like Gecko) Version/4.0 Chrome/43.0.2357.121 Mobile Safari/537.36
Mozilla/5.0 (Linux; Android 5.1.1; SM-G920F Build/LMY47X) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.83 Mobile Safari/537.36
Mozilla/5.0 (Linux; Android 5.1.1; SM-J500F Build/LMY48B; wv) AppleWebKit/537.36 (KHTML, like Gecko) Version/4.0 Chrome/43.0.2357.121 Mobile Safari/537.36
Mozilla/5.0 (Linux; Android 5.1.1; SM-N910F Build/LMY47X; wv) AppleWebKit/537.36 (KHTML, like Gecko) Version/4.0 Chrome/43.0.2357.121 Mobile Safari/537.36
Mozilla/5.0 (Linux; Android 5.1; XT1032 Build/LPB23.13-56; wv) AppleWebKit/537.36 (KHTML, like Gecko) Version/4.0 Chrome/47.0.2526.100 Mobile Safari/537.36
Mozilla/5.0 (Linux; U; Android 4.1.2; fr-fr; LG-E430 Build/JZO54K) AppleWebKit/534.30 (KHTML, like Gecko) Version/4.0 Mobile Safari/534.30 ACHEETAHI/2100502012
Les requêtes associées ne concernent que des fichiers PDF :
/images/doc/201301_SDTAN_CG40.pdf HTTP/1.0
/images/doc/201301_SDTAN_CG03_CG15_CG43_CG63.pdf HTTP/1.0
/images/4g/201202_ericsson_remote_radio_unit_description.pdf HTTP/1.0
/images/doc/201301_SDTAN_CG59_CG62.pdf HTTP/1.0
/images/4g/201004_ericsson_rbs6201_lte1800.pdf HTTP/1.0
/testdebit/wifi/200803_WDS_connection_using_3AP.pdf HTTP/1.0
/images/bbox/201505_bbox_liste_des_chaines_tv.pdf HTTP/1.0
/images/orange/201407_guide_livebox_2.pdf HTTP/1.0
/images/bbox/201505_bbox_liste_des_chaines_tv.pdf HTTP/1.0
Je vois aussi pas mal de requêtes PhantomJS (WebKit scriptable with a JavaScript API http://phantomjs.org/)
Le user-agent est toujours le même : Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/534.34 (KHTML, like Gecko) PhantomJS/1.9.7 Safari/534.34
Cela représente 16959 requêtes uniquement pour janvier 2016 et c'est toujours une demande sur la racine du site (GET / HTTP/1.0)
Les 16959 requêtes proviennent seulement de deux IP, qui sont deux IP Free :
- 2a01:e34:ee4f:xxxx:xxxx:xxxx:xxxx:xxxx
- 78.228.245.xx
-
C'est BadMax ça :)
-
Exact, je cache son IP.
Et sinon en phase, il y a du vieux en http 1.0 comme ce user agent : Mozilla/4.0 (compatible; Lotus-Notes/6.0; Windows-NT)
Lotus Notes 6.0 est sortie en 2002. Je ne sais pas comment il arrive à faire du https avec mon serveur.
-
Cela représente 16959 requêtes uniquement pour janvier 2016 et c'est toujours une demande sur la racine du site (GET / HTTP/1.0)
Les 16959 requêtes proviennent seulement de deux IP, qui sont deux IP Free :
- 2a01:e34:ee4f:xxxx:xxxx:xxxx:xxxx:xxxx
- 78.228.245.xx
Pourquoi tu caches le chiffre :x?
T'es pas logique!
(C'est 5 le chiffre?)
-
J'ai quel Useragent à cet instant ?
EDIT: j'ai trouvé, c'est Vigilia :)
Me rappelle plus si j'ai custo le UserAgent de ma propre version mais en tout cas, Vigilia n'utilise pas le UserAgent de wget
-
Et pourquoi du http1.0 ?
Il me semble que les autres vigilia utilisent du http1.1 (j'avais peu de log wget en http1.0)
-
Version de wget différente ? La mienne n'est sans doute pas la plus fraiche.
-
Depuis dans Chrome y'a plus de spdy dans les flags et c'est chrome://net-internals/#http2 maintenant.
ps: c'est la v43 du 19 mai 2015 qui supprime spdy au profit de http/2
Apparement, dans Chrome, SPDY y est toujours. C'est juste que HTTP/2 est préféré à SPDY.
SPDY sera supprimé de Chrome dans les versions qui sortiront après le 15 mai 2016:
https://www.nextinpact.com/news/98524-chrome-abandonnera-protocole-spdy-15-mai.htm
Publié le 12/02/2016
Primo-source (en anglais): http://blog.chromium.org/2016/02/transitioning-from-spdy-to-http2.html
Publié le 11/02/2016
-
oui je parlais des flags pas du proto lui meme.