Bon après c'est hautement spéculatif, l'avenir de l'IA si y'en a un c'est peut-être pas avec de l'inférence local mais du full cloud comme maintenant (j'en doute quand meme si tout les humains veulent faire de l'inférence faudra bien 'localiser' l'inférence...) ou bien l'IA dans sa forme actuelle n'a pas d'avenir du tout 
Il me semble assez probable que la majorité de l'inférence se fasse dans le cloud, et que seul des inférences simples, avec de petits modèles, se fassent en local, dans la très grande majorité des cas.
La majorité des utilisateurs consomment de l'IA sur des smartphones ou des PC portable de boulot aux ressources très limitées, bien loin des 70Go de RAM dont tu parles.
Pour ces utilisateurs, il est beaucoup plus pertinent de faire transiter la donnée via les réseaux (voix, texte, image, vidéo), donc quelques Mo à chaque interaction, plutôt que de déplacer les modèles entiers, à coup de dizaines de Go.
Oui, les "stations de travail IA" qui arrivent sur le marché, elles vont se déployer, et elles auront besoin de gros débits; mais de mon point de vue ça restera un petit marché assez confidentiel. Soit pour des gens qui font des recherches et développements en IA, soit pour garantir un haut niveau de confidentialité en conservant les données en local exclusivement.
Leon.