L'enthousiasme IA a un prix : les entreprises passent du tokenmaxxing au tokenminimizing

Anne-Marie LIBMANN

Blog du

01 juillet 2026

L'enthousiasme IA a un prix : les entreprises passent du ... Image 1

Pendant plusieurs mois, de nombreuses entreprises technologiques ont encouragé leurs équipes à utiliser l'IA de manière intensive. Chez Meta, certains salariés ont mis en place des classements internes pour mesurer qui consommait le plus de tokens. Chez Amazon, des agents ont parfois tourné en continu sur des tâches secondaires, dans le but d'améliorer leur classement dans les statistiques.

Ce comportement, qualifié de tokenmaxxing dès le printemps 2026 par la presse tech américaine, n'était pas uniquement le résultat d'une directive descendante mal calibrée.

Il résultait d'après les analyses d'une volonté affirmée du top management d'accélérer l'adoption de l'IA et d'initiatives de gamification souvent initiées par les équipes elles-mêmes.

Mais le principal accélérateur a été l'arrivée des usages agentiques. Contrairement aux interactions classiques en chatbot, ces systèmes fonctionnent en boucles, appellent des outils et raisonnent par étapes, ce qui multiplie fortement la consommation de tokens.

LIRE AUSSI :

Quand les LLM disent « limite atteinte » : comprendre et maîtriser ses quotas d’IA

Un classement interne qui a révélé l'ampleur du phénomène

À Meta, un employé a créé un tableau de bord interne nommé "Claudeonomics". Il permettait de classer les 250 plus gros consommateurs de tokens parmi les 85 000 salariés de l'entreprise, en attribuant des titres tels que "Token Legend" ou "Cache Wizard". Le dispositif a produit l'effet attendu : la consommation globale a atteint 60 000 milliards de tokens en 30 jours, un chiffre qui avait déjà grimpé à 73 700 milliards au moment où le classement a été désactivé. Le record individuel dépassait 281 milliards de tokens sur le mois, soit potentiellement plus d'un million de dollars de coûts pour un seul employé.

Le classement a été stoppé deux jours après que Fortune en eut révélé l'existence, en avril 2026. Mais Meta est allé plus loin : en juin, un mémo interne envoyé à 6 000 collaborateurs annonçait l'instauration de limites formelles sur les dépenses en tokens, accompagnées d'une nouvelle plateforme de suivi en temps réel baptisée "AI Gateway".

Une facture qui est arrivée plus vite que prévu

Le cas de Meta n'était pas isolé. Uber avait ouvert l'accès à Claude Code à ses ingénieurs à la fin de l'année 2025. En avril 2026, quatre mois seulement après le lancement, le budget annuel alloué à l'IA était intégralement épuisé. Le directeur technique, Praveen Neppalli Naga, l'a reconnu publiquement : "Je repars de zéro, parce que le budget que j'imaginais nécessaire a déjà sauté." Uber a depuis plafonné chaque employé à 1 500 dollars par mois et par outil.

La couverture médiatique de ce basculement est elle-même instructive. En avril 2026, les articles célébraient encore les records de revenus des éditeurs d'outils de codage IA. En mai, Fortune publiait une analyse intitulée "Tokenmaxxing is over. That’s because it never measured what really counts to see ROI from AI" et documentait les premiers reculs. Le 17 juin, The Next Web forgeait le terme tokenminimizing pour désigner la réponse correcte qui s'installait. En six semaines, le registre était passé de l'enthousiasme à la recherche de garde-fous.

Des coûts qui ont augmenté plus vite que les prix n'ont baissé

Le coût médian par million de tokens a pourtant chuté de 67 % entre le premier trimestre 2025 et le premier trimestre 2026, passant de 18,40 dollars à 6,07 dollars. Le vrai problème n'est donc pas une hausse des tarifs, mais une augmentation des volumes consommés qui a largement dépassé ce que les baisses de prix pouvaient absorber.

Deux éléments expliquent principalement cette dynamique. D'abord, le passage aux systèmes agentiques : une interaction traitée par un agent orchestré avec outils et raisonnement itératif coûte environ 1,20 dollar en 2026, contre 0,04 dollar pour un traitement linéaire équivalent en 2023, soit un facteur 30. Ensuite, le fait que la plupart des organisations ont, par défaut, dirigé l'ensemble de leurs requêtes vers les modèles les plus avancés, sans aucune distinction selon la complexité réelle des demandes.

Reprendre le contrôle sans tout arrêter

Face à cette situation, les entreprises ont commencé à mettre en place plusieurs types de mesures, qui correspondent à trois niveaux d'intervention distincts.

Le premier est le routage entre modèles : réserver les modèles coûteux aux tâches qui le justifient réellement et basculer les usages courants vers des alternatives moins chères, parfois open source. Andy Markus, directeur IA d'AT&T, indique que les entreprises peuvent économiser jusqu'à 90 % par ce seul levier, en notant que "pour la majorité des cas d'usage, le dernier modèle frontier en date n'est pas nécessaire".
Le deuxième est la gouvernance par les budgets : instaurer des plafonds en temps réel par équipe, par application, par agent, avec des alertes automatiques avant que la dépense ne se produise. C'est précisément ce que Meta est en train de construire avec son AI Gateway.
Le troisième axe, moins visible mais souvent très efficace, consiste à optimiser la construction des requêtes elles-mêmes. En stockant temporairement les parties stables des prompts, on évite de les renvoyer intégralement à chaque appel. Ce mécanisme, appelé prompt caching, peut dans certains cas réduire les coûts de manière très significative sans modifier les résultats produits.

Ces ajustements ne visent pas à freiner l'usage de l'IA, mais à le rendre plus soutenable sur la durée.

Une tentative de structuration collective

Le 3 juin 2026, la Linux Foundation a annoncé la création de la Tokenomics Foundation. L'initiative rassemble des membres fondateurs de premier plan (Google Cloud, Microsoft, IBM, JPMorgan Chase, Accenture, Salesforce, SAP et Booking.com) autour d'un objectif commun : développer des standards ouverts, des benchmarks et des bonnes pratiques pour mesurer et piloter les coûts liés à l'IA.

L'idée est de faire pour les tokens ce qui a été accompli pour les dépenses cloud avec le FinOps : créer un langage commun et des indicateurs comparables entre fournisseurs. Le directeur exécutif de la Fondation, J. R. Storment, a formulé le basculement sans détour : "En avril et mai, j'ai commencé à entendre des entreprises dire : "mon dieu ! nous sommes à trois fois notre budget token 2026 et on est seulement en avril." Sans ce cadre partagé, chaque organisation reste seule face à un problème qui devient de plus en plus complexe à gérer à grande échelle.

Ce que cette séquence change pour les organisations qui utilisent l'IA au quotidien

La phase d'adoption intensive a montré que laisser les usages se développer sans pilotage conduit rapidement à des volumes de consommation déconnectés de la valeur réellement produite. Les mesures correctives qui émergent actuellement ne consistent pas simplement à réduire les dépenses. Elles reposent sur un travail plus fin : mieux répartir les requêtes selon leur complexité réelle, suivre les coûts en temps réel, et optimiser la construction des prompts.

Les organisations qui semblent tirer le mieux parti de cette situation ne sont pas forcément celles qui ont le plus réduit leur consommation. Ce sont celles qui ont commencé à construire une forme de visibilité et de gouvernance sur leurs usages, sans pour autant brider l'expérimentation.

L'enjeu n'est plus seulement de savoir combien de tokens sont consommés. Il est de mieux comprendre ce que ces tokens permettent de produire, et à quel coût.