Claude Opus 4.7 dans Claude Code : ce qui change vraiment

J’ai passé deux mois à utiliser Claude Opus 4.7 dans Claude Code sans rien changer à mes prompts de 4.6, et j’ai trouvé que la qualité des sorties n’était pas tout à fait celle annoncée. Ce n’était pas le modèle, c’était mes habitudes. Le nouveau défaut s’appelle xhigh, la pensée n’a plus de budget fixe, les subagents ne se déclenchent plus tout seuls, et la sortie n’est plus verbeuse par défaut. Si vous portez vos réglages 4.6 tels quels, vous travaillez contre le modèle, pas avec.

Trois changements valent vraiment qu’on adapte son flux. Le reste est cosmétique.

L’effort `xhigh` est le bon défaut, pas `max`

Anthropic recommande explicitement xhigh comme niveau d’effort par défaut pour Opus 4.7 dans Claude Code. C’est un nouveau cran entre high et max, et c’est là que la frontière intelligence/coût se trouve désormais.

Le réflexe d’instinct est de pousser à max “pour les tâches dures”. L’article s’inscrit en faux :

Max squeezes out additional performance on genuinely hard problems, but shows diminishing returns and is more prone to overthinking.

En pratique, sur du refactoring multi-fichiers ou de la revue de code, xhigh produit la sortie utile sans le max qui se met à se relire. Réservez max aux évals et aux problèmes où vous mesurez explicitement le plafond du modèle. Pour le reste, xhigh, et si vous étiez utilisateur Claude Code sans réglage manuel, vous y êtes déjà passé automatiquement.

Le repère pratique : si une réponse part en boucle de réflexion sur un problème que vous savez petit, descendez à high pendant cette tâche. La consigne xhigh n’est pas un dogme, c’est un défaut.

Le premier tour est devenu (encore plus) l’essentiel

La phrase qui résume le mieux 4.7 dans Claude Code, c’est celle-ci :

Treat Claude more like a capable engineer you’re delegating to than a pair programmer you’re guiding line by line.

Concrètement : le premier tour porte l’intention, les contraintes, les critères d’acceptation et les chemins de fichiers concernés. Pas progressivement, sur dix tours. Une seule spécification dense au départ, et beaucoup moins de tokens et de dérive ensuite. Chaque tour utilisateur ajoute son propre coût de raisonnement ; en grouper trois en un, c’est trois fois moins de réflexion en surcoût.

C’est la même discipline que celle dont je parlais dans comment empêcher un binôme IA de réécrire la moitié du dépôt : la qualité du résultat est plafonnée par la qualité du brief, et 4.7 amplifie ce levier.

Si la session bascule en mode autonome (auto mode, en research preview chez Claude Code Max, Shift+Tab pour basculer), c’est encore plus vrai, votre brief initial est la seule consigne que le modèle aura pendant une heure.

La pensée s’adapte, pilotez-la avec des phrases

Le fixed thinking budget n’existe plus. Opus 4.7 décide à chaque étape s’il a besoin de réfléchir plus longtemps. Il y a deux choses à savoir.

D’abord, c’est pour ça que les réponses sont plus rapides sur le trivial : il saute simplement l’étape de réflexion quand elle ne sert à rien. Sur les sessions agentiques longues, ça change la latence perçue.

Ensuite, le contrôle est passé du paramètre à la phrase. Si vous voulez plus de réflexion, Anthropic suggère exactement :

Think carefully and step-by-step before responding; this problem is harder than it looks.

Et pour en avoir moins :

Prioritize responding quickly rather than thinking deeply. When in doubt, respond directly.

Ces deux lignes vivent désormais dans mon CLAUDE.md de projet selon la nature du repo. Pour un repo où je veux de la prudence (migrations, sécurité, dépendances), la première. Pour un repo où je veux du débit (édition de markdown, scripts one-off), la seconde.

Subagents : la valeur par défaut a changé

4.7 délègue moins par défaut. Si vous comptiez sur la parallélisation automatique pour scanner cinquante fichiers, ça n’arrive plus tout seul. Il faut la demander.

L’exemple qu’Anthropic donne mérite d’être copié tel quel dans un CLAUDE.md ou un agent custom :

Do not spawn a subagent for work you can complete directly in a single response. Spawn multiple subagents in the same turn when fanning out across items or reading multiple files.

C’est aussi un rappel que la mémoire ne traverse pas les frontières d’agent : chaque subagent démarre frais. Si vous fan-out sur dix tâches, le contexte que chacun reçoit est celui que vous (ou l’agent parent) lui transmettez explicitement, un point que j’ai approfondi dans la fragmentation mémoire entre agents IA.

Décrivez ce que vous voulez, pas ce que vous ne voulez pas

La phrase qui aurait pu être un détail mais qui ne l’est pas :

Positive examples of the voice you want work better than negative “Don’t do this” instructions.

C’est valable pour la longueur de réponse (qui n’est plus default-verbose et qu’on peut récupérer par exemple plutôt que par interdit), pour le style de code, et pour le ton dans un agent d’écriture. Sortez un bon exemple, le modèle s’aligne. Sortez une liste de “ne fais pas X, ne fais pas Y”, il consomme des tokens à vous éviter et finit par le faire quand même.

Cette règle vaut aussi pour les skills qu’un agent va vraiment utiliser : un skill qui montre la forme attendue bat un skill qui interdit la forme refusée.

Ce qui reste vrai entre 4.6 et 4.7

Les fichiers CLAUDE.md, les hooks, les skills et la discipline de premier tour valaient quelque chose en 4.6 et valent davantage en 4.7. Le modèle est meilleur, mais il est aussi plus économe : il vous fait moins de tours pour clarifier, donc la première transmission de contexte doit être proportionnellement plus complète.

Mon plan pour les prochaines semaines : garder xhigh, réécrire mes CLAUDE.md projet avec la consigne de pensée adaptative explicite, et reformuler mes anti-patterns en exemples positifs. Trois petites disciplines, pas un changement de modèle mental.

Si cela vous a parlé, vous aimerez Écrire des skills que votre agent de code utilisera vraiment et Mémoire partagée entre agents IA : la fragmentation est un choix. Abonnez-vous ci-dessous pour recevoir le billet de vendredi prochain.