Auteur Sujet: Analyser la progression d'IPv6 via les logs Apache2  (Lu 13750 fois)

0 Membres et 1 Invité sur ce sujet

vivien

  • Administrateur
  • *
  • Messages: 47 231
    • Twitter LaFibre.info
Analyser la progression d'IPv6 via les logs Apache2
« Réponse #24 le: 22 décembre 2015 à 15:59:27 »
format texte (oui, cela se compresse)

corrector

  • Invité
Analyser la progression d'IPv6 via les logs Apache2
« Réponse #25 le: 22 décembre 2015 à 16:22:29 »
Sans même parler d'algorithme coûteux de compression, ou même de Huffman :

En format texte, une IPv4 de 32 bits (4 octets) prend jusqu'à 16 octets incluant le délimiteur : surcoût facteur 4.

Le user-agent "Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.106 Safari/537.36" (qui occupe 110 octets) correspond à une entropie de 12.89 bits (<4 octets) d'après https://panopticlick.eff.org/

C'est pas juste que cela se compresse, cela se compresse beaucoup, beaucoup.

Donc avant de détruire de l'information, tu peux envisager d'optimiser la représentation sans pour autant rendre le format complexe : tu peux représenter certains champs comme des nombres et non comme du texte. En plus l'adresse IPv* est bien à la base un nombre et se manipule avec des opérateurs binaires.

corrector

  • Invité
Analyser la progression d'IPv6 via les logs Apache2
« Réponse #26 le: 22 décembre 2015 à 17:22:19 »
Il manque une information cruciale dans ce log : inscrit ou anonyme?

kgersen

  • Modérateur
  • Abonné Bbox fibre
  • *
  • Messages: 9 092
  • Paris (75)
Analyser la progression d'IPv6 via les logs Apache2
« Réponse #27 le: 26 décembre 2015 à 22:36:20 »
regardes ca aussi: http://www.logswan.org/

C'est fait par le type qui avait fait http://www.telize.com/, (l'équivalent d'un ip.lafibre.info), service qui a eu trop de succès (150 millions de hit par jour). Pour analyser ses logs il a fait logswan.

Lecture intéressante pourquoi il a arrêté de fournir gratuitement le service: http://www.cambus.net/adventures-in-running-a-free-public-api/
(en espérant que ca ne t'arrive pas avec ip.lafibre.info  ;D).

vivien

  • Administrateur
  • *
  • Messages: 47 231
    • Twitter LaFibre.info
Analyser la progression d'IPv6 via les logs Apache2
« Réponse #28 le: 28 janvier 2016 à 13:53:55 »
Pour les stats du site, je pense qu'il faut créer un outil qui analyse chaque ligne de log Apache2 et qui utilise les informations
- adresse IP (deux choses m'intéressent : l'AS (le réseau à et le fait qu'elle soit IPv4 ou IPv6)
- port de retour TCP (je suis intéressé pour savoir si il est cohérent avec le user-agent ou non. Un % important de port non cohérent indique la présence de CG-Nat)
- Taille de téléchargement
- User-agent

Pour remplir une table My-SQL comme ceci :

Système   Navigateur   IPTaille   Nb hits total   Nb hits port retour anormal
TotalTotalIPv4   
TotalTotalIPv6
TotalMozillaIPv4
TotalMozillaIPv6
TotalGoogleIPv4
TotalGoogleIPv6
TotalMicrosoftIPv4
TotalMicrosoftIPv6
TotalAutreIPv4
TotalAutreIPv6
Windows10TotalIPv4
Windows10TotalIPv6
Windows legacyTotalIPv4
Windows legacyTotalIPv6
Windows XPTotalIPv4
Windows XPTotalIPv6
Windows PhoneTotalIPv4
Windows PhoneTotalIPv6
MacOS XTotalIPv4
MacOS XTotalIPv6
MacOS X legacyTotalIPv4
MacOS X legacyTotalIPv6
Linux 64bitsTotalIPv4
Linux 64bitsTotalIPv6
Linux 32bitsTotalIPv4
Linux 32bitsTotalIPv6
AndroidTotalIPv4
AndroidTotalIPv6
Android legacyTotalIPv4
Android legacyTotalIPv6
iOSTotalIPv4
iOSTotalIPv6
TVTotalIPv4
TVTotalIPv6
RSSTotalIPv4
RSSTotalIPv6
ProgrammesTotalIPv4
ProgrammesTotalIPv6
RobotsTotalIPv4
RobotsTotalIPv6
AutreTotalIPv4
AutreTotalIPv6
Windows10MozillaIPv4
Windows10MozillaIPv6
Windows10GoogleIPv4
Windows10GoogleIPv6
Windows10MicrosoftIPv4
Windows10MicrosoftIPv6
Windows10AutreIPv4
Windows10AutreIPv6
Windows legacyMozillaIPv4
Windows legacyMozillaIPv6
Windows legacyGoogleIPv4
Windows legacyGoogleIPv6
Windows legacyMicrosoftIPv4
Windows legacyMicrosoftIPv6
Windows legacyAutreIPv4
Windows legacyAutreIPv6
Windows XPMozillaIPv4
Windows XPMozillaIPv6
Windows XPGoogleIPv4
Windows XPGoogleIPv6
Windows XPMicrosoftIPv4
Windows XPMicrosoftIPv6
Windows XPAutreIPv4
Windows XPAutreIPv6
MacOS XMozillaIPv4
MacOS XMozillaIPv6
MacOS XGoogleIPv4
MacOS XGoogleIPv6
MacOS XAppleIPv4
MacOS XAppleIPv6
MacOS XAutreIPv4
MacOS XAutreIPv6
MacOS X legacyMozillaIPv4
MacOS X legacyMozillaIPv6
MacOS X legacyGoogleIPv4
MacOS X legacyGoogleIPv6
MacOS X legacyAppleIPv4
MacOS X legacyAppleIPv6
MacOS X legacyAutreIPv4
MacOS X legacyAutreIPv6
Linux 64bitsMozillaIPv4
Linux 64bitsMozillaIPv6
Linux 64bitsGoogleIPv4
Linux 64bitsGoogleIPv6
Linux 64bitsAutreIPv4
Linux 64bitsAutreIPv6
Linux 32bitsMozillaIPv4
Linux 32bitsMozillaIPv6
Linux 32bitsGoogleIPv4
Linux 32bitsGoogleIPv6
Linux 32bitsAutreIPv4
Linux 32bitsAutreIPv6
AndroidMozillaIPv4
AndroidMozillaIPv6
AndroidGoogleIPv4
AndroidGoogleIPv6
AndroidAutreIPv4
AndroidAutreIPv6
Android legacyMozillaIPv4
Android legacyMozillaIPv6
Android legacyGoogleIPv4
Android legacyGoogleIPv6
Android legacyAutreIPv4
Android legacyAutreIPv6
AutreMozillaIPv4
AutreMozillaIPv6
AutreGoogleIPv4
AutreGoogleIPv6
AutreAutreIPv4
AutreAutreIPv6


Une seconde table My-SQL serait remplie, avec une ligne par AS puis toutes les informations de cette table sous forme de colonnes (plusieurs centaines de colonnes)

En fait si la ligne correspondant à l'AS xxxxx existe déjà, les colonnes correspondantes sont incrèmentée d'un hit ou de la taille.

Si la ligne correspondant à l'AS xxxx n'existe pas, il faut la créer.

Je me demande si cela ne pourrait pas faire l'objet d'un projet en école d'ingénieur (je m'adresse a ceux qui sont étudiants) vu que ce type de logiciel d'analyse de log ne semble pas exister.

Ensuite la seconde étape serait de faire une interface qui va chercher les informations et calcul le % d'IPv4 vs IPv6 , le % port anormal, le % d'utilisation des différents système d’exploitation et navigateurs.

Je pense qu'il faudrait créer tous les mois une nouvelle table pour les informations pas AS afin de rajouter une dimension temporelle et faire des courbes d'évolutions.

e-TE

  • Abonné Free fibre
  • *
  • Messages: 1 145
  • Déville-les-Rouen (76)
Analyser la progression d'IPv6 via les logs Apache2
« Réponse #29 le: 28 janvier 2016 à 14:54:18 »
pas besoin d'une nouvelle table, mais juste une colonne de plus au format date...

et soit tu définis que tu faiss une colonne avec une date à la précision du jour (et pour tous les hits de la même journée tu updates cette ligne), soit heure, soit semaine, ou mois...


ou alors une seule colonne date avec le timestamp du hit, et tu faiss l’agrégation de donnée dans un deuxième temps... (plus de ligne en table, moins de traitement à l'insertion, mais plus de taff à la restitution)

vivien

  • Administrateur
  • *
  • Messages: 47 231
    • Twitter LaFibre.info
Analyser la progression d'IPv6 via les logs Apache2
« Réponse #30 le: 28 janvier 2016 à 15:36:42 »
Je pense qu'un granularité au mois ou au trimestre est la bonne granularité.

Pour chaque AS (un AS = une ligne) j'ai des centaines de colonnes quand je compile les hits / taille / ipv4 / IPv6 avec tous les navigateurs et systèmes d’exploitations.

donc pour rajouter la date, il me semble plus simple de re-créer une table, ce qui évite aussi les tables qui s'alourdissent et qui sont de plus en plus longue a manipuler. (quand une table fait plusieurs centaines de Mo, chaque opération prend une éternités)

C'est aussi sur le fait que je vais avoir des centaines d'AS avec très peu de hits qui seront différents chaque mois (des réseaux étrangers) donc j'ai pensé plus pertinent d'avoir une table par mois (ou trimestre) au lieu d'avoir une table pour chaque couple  hits / taille / ipv4 / IPv6 / OS / navigateur

J'ai faux ?

e-TE

  • Abonné Free fibre
  • *
  • Messages: 1 145
  • Déville-les-Rouen (76)
Analyser la progression d'IPv6 via les logs Apache2
« Réponse #31 le: 28 janvier 2016 à 15:44:40 »
bah faut voir les données, mais on peut imaginer une clé sur numero d'AS / date (yyyyMM) / OS / type IP (les champs sur lesquels tu veux l'unicité) et les autres tu les incrèmentes aux besoins...

niveau perf ca devrait pas poser trop de soucis si tu as bien une clé composé / index dessus