L'essentiel
- Mistral Large 2 rivalise avec GPT-4 Turbo sur la plupart des benchmarks standards.
- L'argument de souveraineté européenne reste le différenciateur le plus solide de Mistral.
- OpenAI et Google conservent une avance sur les tâches de raisonnement complexe.
- Le modèle open-weights de Mistral change la dynamique compétitive mondiale.
Ce que les benchmarks disent - et ce qu'ils taisent
Mistral AI a publié des scores impressionnants : sur MMLU, Mistral Large 2 atteint 84 %, contre 86 % pour GPT-4 Turbo. Sur HumanEval (code), il obtient 92 %, dépassant GPT-4 sur ce seul critère. En surface, la parité est presque atteinte.
Mais les benchmarks standards mesurent des capacités moyennes sur des tâches bien définies. Ils ne capturent pas la fluidité conversationnelle, la capacité à gérer des instructions longues et ambiguës, ou la cohérence sur des raisonnements en plusieurs étapes - domaines où GPT-4o et Claude 3.5 restent supérieurs à l'usage réel.
"Un bon benchmark, c'est comme un bon CV : il montre ce que vous voulez montrer, pas forcément ce que vous savez vraiment faire."
La carte souveraineté : un atout réel, pas un argument de confort
Ce qui distingue fondamentalement Mistral de ses concurrents américains, ce n'est pas (encore) la performance brute. C'est l'hébergement européen des données, la conformité native au RGPD et la disponibilité de versions open-weights que les entreprises peuvent déployer sur leur propre infrastructure.
Pour les administrations publiques françaises, les hôpitaux, les cabinets d'avocats ou les grands groupes industriels européens, cette proposition de valeur est considérable. Utiliser GPT-4 implique d'envoyer des données potentiellement sensibles vers des serveurs américains soumis au Cloud Act. Avec Mistral, ce risque est éliminé.
L'open-source comme stratégie géopolitique
En publiant Mistral 7B, Mixtral 8x7B et désormais des variantes open-weights de ses modèles plus puissants, Mistral AI joue une partie d'échecs à long terme. Chaque modèle open-source devient une infrastructure sur laquelle l'écosystème mondial se construit - et Mistral en capture la valeur via ses offres API et entreprise.
C'est une stratégie qui rappelle celle de Red Hat avec Linux : donner le code, vendre le service. Et qui positionne Mistral comme un acteur de référence bien au-delà de ses capacités actuelles.
Ce qui reste à prouver
Mistral doit franchir deux obstacles majeurs. D'abord, tenir le rythme : GPT-5 arrive, Gemini 2.0 est déjà là. Avec une équipe de quelques centaines de personnes face aux milliers d'ingénieurs de Google et Microsoft, l'effort de R&D est asymétrique.
Ensuite, construire l'écosystème applicatif. La valeur d'un LLM ne réside pas que dans ses capacités brutes, mais dans les outils, les intégrations et les plugins qui l'entourent. Sur ce terrain, OpenAI a plusieurs années d'avance.
La France a une carte à jouer. Mais la fenêtre d'opportunité est étroite.