Hello Axel, et tout le monde ici !
Je me permet de répondre (un dimanche 31 décembre) en tant que France-IX pour répondre aux points que tu soulèves en toute transparence sur ce forum
Test :
Après ces arguments béton, me voilà conquis pour tester cette nouvelle offre via un de nos partenaires.
Nous avons donc mis en production la connectivité via notre partenaire hier soir. C'est ainsi que j'ai annoncé nos 100 préfixes IPv4 et environ 40 IPv6. J'ai pu constater que la whitelist de prefix-list n'était pas automatique. Dans notre cas, on rajoute des préfixes chaque jour et on ne peut pas contacter chaque transitaire pour s'assurer qu'il a bien pris en compte tous les préfixes. Nous avons demandé pourquoi le préfixe 2a10:4641::/32 ne passait pas, ils nous ont notifié qu'ils l'ont ajouté. Mais qu'en est-t-il pour l'IPv4 ? Et bien, la personne n'a pas update V4+V6 !
D'après les informations sur la page FranceIX, la société dispose de deux adductions orange différentes avec 2 session BGP (IPv4+IPv6) par lien.
Lorsque nous avons annoncé nos préfixes et que la max-limit sur notre session était levée, nous avons fait sauter les sessions IPV4/IPv6 de FranceIX <-> Orange (20h58 le 29/12/2023).
La fullview n'était constituée plus que de.. 35 préfixes.
L'uptime garanti de 99.95% du service (et 100% si doublement adducté) est donc loin d'être garanti. Nous avons mis plus de 2h30 à avoir à nouveau du transit, mais sans possibilité d'annoncer nos préfixes. Nous avons pu annoncer à nouveau nos préfixes ce midi, soit plus de 12 heures après l'incident. La GTR 4h a failli se transformer en GTR 4 jours.
Pendant les premières 1h30 de coupure, il n'y a pas eu une seule communication de la part de FranceIX à propos de l'incident.
Plusieurs questions me parviennent :
1) FranceIX semble avoir 2x100G avec orange, que font-t-il si un client se fait ddos avec 500Gbps ? Coupent-t-ils l'annonce BGP ?
2) Comment une erreur si bête peut arriver, et surtout le fait d'avoir des max-limit aussi basses (50IPv4/20IPv6 d'après peeringdb) pour un transitaire qui se veut revendeur ?
3) Qu'en pensez-vous ?
Effectivement, je confirme que toute la description du service est exacte, le service n'a aucun SPOF physique (routeurs + PoP + backbone divers), et surtout, comme il n'est pas rate-limité : tout ce qui peut arriver jusqu'à vous doit arriver jusqu'à vous (sauf blackholing et option d'anti-DDoS). France-IX s'engage contractuellement à une disponibilité sur ce nouveau service ce qui n'était historiquement pas le cas sur le peering. Dans le cas d'un non respect des SLA, tout est décrit dans le contrat, le client à le droit de demander des pénalités, ce qui est le standard du marché. Je confirme également que France-IX a un NOC 24/7 et une astreinte de niveau deux qui permet de répondre aux demandes et/ou incidents, y compris complexe, en un temps minimal.
Petit disclaimer : Dijyx n'est dans le cas présent pas notre client, mais un client final (ce qui ne nous empêche par ailleurs pas de répondre aux solicitations pour rendre cela le plus fluide possible).
Dans le cas que tu évoques dans ton premier message soyons clairs : oui, nous aurions dû faire mieux, et nous nous considérons fautifs. Les Max-Pref étaient trop bas, cela a été corrigé, en lien avec Orange à 23h30 CET le 29/12. Je ne comprends cependant pas ton point sur les Prefix-List IPv4 et IPv6 puisque mon collègue a indiqué dans le ticket (le 29/12 à 15h20 CET) que tous les préfixes avaient été mis à jour. Pour la mise à jour de ces PL, elles ne sont effectivement pas automatiques pour le moment (contrairement au peering), et c'est un sujet qui est bien évidemment déjà en roadmap. C'est effectivement dommage que cela n'ai pas été fait plus tôt, France-IX reste cependant une structure qui n'a pas des moyens illimités, et le service ciblait initialement surtout des toutes petites structures, qui n'ont besoin de mettre à jour leur PL qu'occasionnellement. Il y a à présent une marge supplémentaire pour permettre à nos clients d'annoncer bien plus de préfixes sans qu'aucun autre ne puisse être impacté par un max-pref des upstreams de l'AS39801.
Sur les sujets des SLA, comme je l'ai évoqué plus haut, tout cela est encadré par le contrat. On peut également débattre du fait que compter des ajouts de préfixes doit compter dans la GTR ou non, ce qui ne veut pas dire pour autant qu'on ne va pas améliorer cet aspect comme je l'ai écrit plus haut. Le retour du service à son état précédent a été fait en 2h30 comme tu le mentionnes.
Par ailleurs, sur le sujet du support, nous allons améliorer le monitoring pour que notre NOC 24/7 soit plutôt proactif lorsqu’une session BGP tombe et n’ait pas à à attendre qu’un ticket soit ouvert pour réagir (et ce dans les 45 minutes). Par ailleurs, pour ce genre de sujet, un numéro de téléphone pour appeler notre NOC existe, et cela permet d'être bien plus réactif que des mails.
Pour répondre aux questions que tu poses :
1) Par défaut, nous ne faisons rien tant qu’on n’a pas observé une saturation des 2 accès Orange. Le cas hypothétique que tu poses (500Gbps qui rentrent par un seul transit, et qui pourrait donc saturer la capacité de Transit de l'AS39801), le client aura probablement fait un RTBH pour se protéger. Le cas de figure pour couper le service d’un client est vraiment le cas extrême. Nous n'avons pour le moment pas prévu de drop le service d'un client qui se ferait DDoS, et nous ajouterons de la capacité au fil des besoins. Par ailleurs, un client qui serait fortement sujet au DDoS aurait tout de même tendance à prendre l'offre associée de mitigation DDoS pour éviter d'impacter son propre service final.
2) La raison de l'erreur est surtout le type de client initialement envisagé (des gens avec un ou deux préfixes), où nous pensions pouvoir simplement voir venir. Ça n'est pas le cas et a été corrigé. Par ailleurs, cet AS ne sert pas qu'à cela.
3) Je pense en toute transparence que le service est perfectible, vos retours sont importants pour comprendre quels sont les éléments que vous voulez voir venir.
Pour ton second message :
On subit une attaque de 245Gbps environ. J'en ai profite pour mettre le préfixe visé (/24 entier) sur le transit orange.
J'ai pu constater du packet loss, mais FranceIX non. On a peu de visibilité pour l'instant donc on avancera pas plus d'informations là-dessus.
Non, il n'y a eu aucun paquet loss (en tout cas chez nous), y compris sur le port du client final (10G vs nos 2x100G au dessus). Cela sous-entends donc (si les 10G n'ont pas sauré) qu'il n'y a pas eu plus de 10G à rentrer par ce biais.
Pour les deux screenshot :
Le premier, l'autre client semble voir du drop ICMP (ce qui n'est par ailleurs pas un signe certain de saturation) en permanence, probablement lié à un rate-limiteur sur le routeur. Voici par exemple un mtr que j'ai pris sur un peu moins d'1h30 (reproductible par qui le souhaite) depuis chez moi :
My traceroute [v0.95]
MBPM.local (192.168.42.108) -> 45.66.108.1 (45.66.108.1) 2023-12-31T16:34:51+0100
Keys: Help Display mode Restart statistics Order of fields quit
Packets Pings
Host Loss% Snt Last Avg Best Wrst StDev
1. AS??? 192.168.42.254 44.6% 4969 2.9 4.6 1.9 17.7 1.8
2. AS30781 hu0-0-2-1-4001.er01.par01.jaguar 0.1% 4969 8.2 6.3 3.5 31.9 2.5
3. AS??? 81.52.188.23 0.0% 4969 7.6 6.2 3.4 175.3 7.4
4. AS??? 193.251.152.104 6.3% 4969 4.7 5.5 2.9 26.0 2.0
5. (waiting for reply)
6. AS43619 45.66.111.1 0.0% 4969 6.2 7.3 4.3 20.1 2.0
7. (waiting for reply)
8. AS43619 45.66.109.251 21.4% 4969 8.9 7.8 5.2 85.8 2.2
9. (no route to host)
Pour le second, d'après ce que j'en sais et ce que je vois sur l'interface Orange, c'est une IP du préfixe précisément visé par le DDoS (qui recevait donc les 245Gbps que tu cites, bien qu'ils ne soient pas tous passés par Orange 5511), je suppose donc qu'il a pu y avoir une saturation quelque part avant le host qui porte cette IP. A nouveau, aucun autre client n'a été impacté.
Bonne soirée, et bon nouvel-an pour tout ceux qui le fêtent
PS : merci pour tes edit pour refleter les éléments qu'on t'a fourni au cours de la journée