Souveraineté de l'IA générative en entreprise européenne
Comment un RSSI évalue une stack IA agentic en 2026 — Claude Code, Cursor, et la Box on-premise comme contrôle réseau.
LMbox · Document interne RSSI · 12 pages · Lecture ≈ 25 min · Réf. WP-2026-05
Le compromis qu'aucun éditeur n'explique honnêtement à un RSSI
Une équipe de 30 développeurs équipée de Claude Code ou de Cursor en mode agentic consomme entre 4 000 et 7 000 € par mois en API Anthropic, plus le siège éditeur. Et chaque session expédie le contexte du repo — chemins, snippets, stack traces — vers une infrastructure US soumise au CLOUD Act.
Les modèles open-weights de 2026 (Mistral Large 2, Kimi K2.6, DeepSeek V4 Pro, Qwen 3.6) couvrent 70 à 80 % de la qualité d'usage sur du code agentic. Les 20-30 % restants — sessions très longues, planification croisée multi-fichiers — restent l'apanage de Claude Sonnet ou GPT-5.
La stratégie défendable, ni le « tout cloud » ni le « tout local », est une cascade routée par requête sur une Box on-premise qui héberge à la fois les modèles locaux, le routeur de décision, et un serveur MCP qui sert vos connecteurs internes (SharePoint, Confluence, Jira) sans exfiltration. Ce livre blanc en détaille la mécanique, le coût, et la conformité.
Pour une équipe de 30 développeurs en mode agentic intensif : économie estimée 105 à 170 k€ sur 3 ans, ratio de trafic local 70-80 %, conformité RGPD / HDS native, kill-switch frontière en une commande, compatibilité air-gap pour OIV. Coût d'entrée : une LMbox M ou L (25 à 38 k€) + accompagnement annuel (9,6 à 14,4 k€).
- §1 — Résumé exécutif
- §2 — La trappe coût des LLM agentic en équipe
- §3 — Le trilemme de souveraineté EU / US / CN
- §4 — Pattern Cascade : trois tiers, une décision par requête
- §5 — Pattern MCP : RAG sans exfiltration
- §6 — Carte de conformité : RGPD, HDS, OIV, AI Act
- §7 — Modèle économique : 10, 50, 200 développeurs
- §8 — Roadmap d'implémentation : POC à 30 jours, GA à 6 mois
- §9 — FAQ RSSI · 8 questions difficiles
- §10 — Annexe : paysage open-weights mai 2026
La trappe coût des LLM agentic en équipe
Les outils Claude Code (Anthropic) et Cursor (sa.io) ont divisé le temps de cycle dev par deux à trois sur les tâches structurées. Le revers : leur facture cloisonnée par utilisateur ne tient pas à l'échelle d'une équipe de production.
Trois sources de coût concurrentes
- Le siège éditeur — Cursor Pro à 20 $/dev/mois, Cursor Business à 40 $. Sur 30 dev, c'est 7 200 à 14 400 $/an.
- Les API du modèle — Claude Sonnet 4.5 à 3 $/M input, 15 $/M output. Une session agentic de 2h consomme 200-500k tokens. Pour 30 dev, on dépasse facilement 6 000 €/mois.
- Les frais de gouvernance cachés — DPIA dédiée (10-20 jours/avocat), audit du chemin de données (annuel), justification au DPO sur chaque incident. Coût direct + coût d'opportunité.
L'effet ratchet
Plus l'usage productif augmente, plus la facture grimpe — sans plafond visible côté DSI. Sur 12 mois, un déploiement Cursor + Claude qui démarre à 3 000 €/mois finit régulièrement à 8 000-12 000 €/mois sans qu'aucun reporting natif ne signale la dérive.
Cabinet ETI, 25 développeurs, déploiement Cursor en avril 2025 : 2 800 €/mois en mai → 5 200 €/mois en septembre → 9 100 €/mois en décembre. Pas de gouvernance technique (kill-switch, alertes par tier). La DSI a découvert l'ampleur en clôture annuelle.
Le trilemme de souveraineté EU / US / CN
Les trois zones juridictionnelles qui produisent les modèles open-weights compétitifs en 2026 offrent des compromis très différents pour un RSSI européen :
Mistral Large 2, Codestral, Mistral Small 3. Juridiction UE native, RGPD, recours direct, audit corpus possible.
Gemma 4, Llama 3, Whisper. CLOUD Act applicable, sanctions US possibles. Acceptable pour ETI standard.
Kimi K2.6, DeepSeek V4 Pro, Qwen 3.6, GLM 5.1. Qualité frontière mais corpus opaque, EAR potentielles 12-24 mois.
Le faux dilemme « cloud vs local »
Le débat habituel oppose « cloud propriétaire » (Anthropic, OpenAI) à « local open-weights ». Cette dichotomie occulte que la zone juridictionnelle des poids open-weights compte autant que celle de l'infrastructure d'inférence. Faire tourner Kimi K2.6 sur sa propre infrastructure ne neutralise pas le risque géopolitique sur l'origine des poids.
La position défendable : choisir explicitement le tier de souveraineté en fonction du secteur réglementé (cabinet juridique → EU pur ; industrie → EU + US acceptable ; OIV / défense → EU air-gap), et documenter ce choix dans la DPIA.
Pattern Cascade : trois tiers, une décision par requête
LMbox héberge un service lmbox-router qui reçoit les appels Anthropic Messages API émis par Claude Code
ou Cursor. Pour chaque requête, le routeur calcule un score sur 6 dimensions et choisit le tier d'inférence :
| Tours | × 1, max 10 |
| Tokens | + 5 si ≥ 8k · + 10 si ≥ 32k |
| Outils | + 5 si présents |
| Mots-clés agentic | × 4, max 12 (« plan », « refactor », « architect »…) |
| Mots-clés complexes | × 3, max 6 (« concurrent », « migration », « algorithm »…) |
| Override | X-LMbox-Force-Tier (header par requête) |
Les trois tiers
- fast — Mistral Small 3 local, ≈ 80 ms/token. Reformulations, Q&A 1 tour, génération de tests simples.
- medium — Qwen 2.5 Coder 32B local, ≈ 30 tok/s. Code review multi-fichiers, refactor d'un module, debug.
- frontier — Claude Sonnet 4.5 via Bedrock EU, ≈ 200 ms TTFT. Plans agentic 20+ tours, refactor cross-fichiers, stack traces complexes.
Chaque décision est tracée dans un audit log JSONL avec le score, les raisons, les tokens d'entrée/sortie et la latence.
L'admin dispose de lmbox router stats 7 pour voir le ratio par tier sur les 7 derniers jours, et de
lmbox router config --frontier=disabled comme kill-switch de couverture sortante.
Sur 5 635 requêtes mesurées en cascade chez un design partner ETI tech (avril 2026) : 75 % fast · 20 % medium · 5 % frontier. Coût mensuel frontier : 58,74 €. Économie réalisée vs direct Anthropic : ≈ 5 100 €/mois.
Pattern MCP : retrieval sans exfiltration
Le Model Context Protocol (MCP, spec rév. 2025-11-25) standardise l'interface entre un IDE LLM et des outils externes. Claude Code et Cursor le supportent nativement.
LMbox héberge lmbox-mcp, un serveur qui expose les connecteurs internes
(SharePoint, Confluence, Jira, GitLab, GitHub, Notion, Slack, ServiceNow) comme outils MCP.
Quand l'IDE invoque @LMbox.search("flux SSO"), la requête s'exécute à l'intérieur de la Box
contre l'index Ragnight local. Seul le top-K classé est passé au modèle. Le contenu brut des pages
Confluence ne quitte jamais l'appliance.
Les 4 outils exposés
search— recherche vectorielle / hybride, fan-out ou par-sourceread_doc— lecture du body d'un document (désactivable par tenant)list_sources— liste des connecteurs et fraîcheur d'indexationfind_similar— similarité par texte (typique d'IDE : « montre-moi du code similaire »)
L'authentification v1 utilise une master-key (x-lmbox-mcp-key) chiffrée dans le coffre age.
La roadmap inclut la délégation OIDC à Authentik pour un scoping par utilisateur / groupe.
Le RAG MCP ne diffère pas d'un appel à un moteur de recherche interne du point de vue RGPD — l'index reste sous votre maîtrise, l'opérateur de traitement reste le client. Aucune nouvelle sous-traitance externe n'est introduite.
Carte de conformité : RGPD, HDS, OIV, AI Act
| Cadre | Exigence clé | Réponse LMbox |
|---|---|---|
| RGPD | Localisation UE, droit à l'effacement, AIPD | Box on-prem en UE, lmbox gdpr erase, AIPD type fournie |
| HDS | Hébergement Données de Santé certifié | Mode lmbox-health sur Mistral, audit logs SIEM-ready |
| OIV / PSSIE | Air-gap, mises à jour livrées, audit corpus | Mode air-gap, registry signé GPG, marketplace USB offline |
| AI Act (UE) | Documentation, traçabilité décisionnelle | Audit log JSONL exhaustif + export Loki, lmbox router replay |
| Secret pro (CNB Art. 5) | Pas de réquisition étrangère possible | Tier EU pur (Mistral) + frontier désactivable |
| CLOUD Act | Risque sur fournisseur US | Bedrock EU eu-west-3 (Paris) ou cascade plafonnée medium |
Le kit de conformité livré avec la Box
- AIPD type RGPD adaptable (Word + PDF), validée par cabinet d'avocats partenaire
- Schéma d'architecture et chemin de données pour annexe DPIA
- Audit logs exportables Splunk / Elastic / Wazuh (CEF + ECS)
- Rapport ANSSI type pour candidature SecNumCloud (en cours)
Modèle économique : 10, 50, 200 développeurs
| Profil | Cloud direct €/an | Box recommandée | CAPEX + OPEX 3 ans | Économie 3 ans |
|---|---|---|---|---|
| 10 dev agentic | ≈ 48 000 € | LMbox M (25 k€) | ≈ 78 800 € | ≈ 65 200 € |
| 50 dev agentic | ≈ 240 000 € | LMbox L (38 k€) | ≈ 161 200 € | ≈ 558 800 € |
| 200 dev agentic | ≈ 960 000 € | LMbox XL (95 k€) | ≈ 365 400 € | ≈ 2 514 600 € |
Hypothèses : 8 h/jour ouvrées agentic intensif, ratio cascade 70/25/5 (fast/medium/frontier), Bedrock EU pricing mai 2026, Box amortie sur 36 mois, accompagnement annuel inclus, modules métier non comptés.
Postes de coût additionnels
- Modules métier — Contract Review, Helpdesk Assistant, Code Reviewer : 5-8 k€ install + 2-3 k€/an
- Intégrations connecteurs custom — selon source (typique : 5-15 j/h)
- Formation utilisateurs — 0,5-1 j sur site par cohorte de 30, incluse dans l'accompagnement
Le seuil de bascule en faveur de la Box se situe entre 5 et 8 développeurs agentic selon l'intensité d'usage. En-dessous, le siège cloud reste plus simple. Au-dessus, le ROI est mécanique.
Roadmap : POC à 30 jours, GA à 6 mois
Phase 1 — POC (jours 1 à 30)
- Installation LMbox M sur site (3 jours, ingénieur LMbox)
- SSO Active Directory ou Okta connecté
- 2 connecteurs prioritaires indexés (typique : SharePoint + Confluence)
- Cohorte pilote : 5-15 développeurs sur Claude Code ou Cursor
- Mesure quotidienne du ratio cascade et du coût frontier
Phase 2 — Pré-prod (jours 31 à 90)
- Élargissement à 30-50 développeurs
- Tous les connecteurs internes indexés
- Module métier ajouté (Contract Review pour le juridique, Code Reviewer pour la dev)
- Audit logs branchés au SIEM, alertes coût/tier configurées
- DPIA finalisée et validée par DPO
Phase 3 — GA (jours 91 à 180)
- Déploiement à toute l'équipe (jusqu'à la capacité de la Box)
- Multi-tenant si plusieurs filiales / marques
- Mode air-gap activé pour les équipes les plus sensibles si nécessaire
- Bilan trimestriel : ratio cascade, coût économisé, satisfaction utilisateurs
POC payant 30 jours sur site, déductible si signature. Si le ratio cascade local ne dépasse pas 60 % sur vos repos pendant le POC, on remballe et on rembourse.
FAQ RSSI · 8 questions qu'on nous pose réellement
Q1. Bedrock EU est-il vraiment souverain ? AWS reste US.
Non, Bedrock EU n'est pas pleinement souverain. C'est un compromis : juridiction AWS Europe, pas de rétention, pas d'entraînement, mais AWS Inc. reste le contrôleur final. Pour un client OIV ou cabinet juridique, le tier frontier doit être désactivé. Pour une ETI tech standard, c'est le compromis acceptable que la plupart des DPO valident.
Q2. Les modèles chinois sont-ils rédhibitoires partout ?
Non — pour de l'usage non-sensible (RH, conseil interne, productivité bureautique sur des doc non-confidentiels), ils sont défendables. La règle : pas de Kimi / DeepSeek / Qwen sur du juridique, du médical, du fiscal, du défense. Pour le reste, leur rapport qualité/coût peut justifier un usage encadré documenté.
Q3. La Box est-elle un single point of failure ?
Sans HA, oui — comme tout serveur on-prem. La Box L et XL supportent un déploiement actif/passif (lmbox-failover) avec basculement automatique. Pour les clients OIV, deux Boxes sur deux datacenters est la configuration recommandée. La promesse de disponibilité avec lmbox-managed est 99,5 % en single, 99,9 % en HA.
Q4. Et si Mistral est racheté par un acteur non-européen ?
Vous gardez les poids téléchargés sur la Box ad vitam. La licence open-weights ne se révoque pas rétroactivement. Vous perdez les futures versions, mais le modèle déjà installé continue de fonctionner. C'est exactement le scénario qui justifie le mode air-gap : votre Box conserve les poids téléchargés indéfiniment.
Q5. Comment expliquer la cascade au DPO ?
Le routeur prend une décision technique (modèle local vs Bedrock) qui a une conséquence juridique (transfert hors UE ou pas). Cette décision est tracée intégralement dans l'audit log JSONL. Le DPO peut auditer en agrégat (ratio par tier, % de transfert) ou en granulaire (chaque requête, son score, son tier). C'est le niveau de visibilité que la plupart des DPO demandent et que peu de stacks fournissent réellement.
Q6. Quelle est la fenêtre de réponse à incident ?
Kill-switch frontier : une commande, effet immédiat. Rotation de clés API : 5 minutes via lmbox vault. Effacement utilisateur RGPD : 15 minutes (recherche + erase + audit trail). Restauration depuis backup Restic : 30-60 minutes selon la taille de l'index.
Q7. Comment éviter le drift de coût frontier ?
Trois leviers : (1) seuils du routeur ajustables dans config.yaml, (2) règle force_tier=medium par projet sensible, (3) alerte Prometheus sur dépassement de budget mensuel frontier. Le tableau de bord Grafana inclus expose la consommation en temps réel.
Q8. Est-ce que la stack peut migrer entre Boxes ?
Oui, et c'est requis pour les remplacements de hardware. La procédure lmbox migrate snapshot le state (audit logs, vault age, KB Ragnight) et le restaure sur une nouvelle Box. Testée trimestriellement chez les design partners. Compte sur 4-6 h d'indisponibilité pour une migration complète.
Paysage open-weights — mai 2026
| Modèle | Origine | Licence | Usage LMbox |
|---|---|---|---|
| Mistral Large 2 | FR (Mistral) | Apache 2 | tier fast / medium |
| Codestral 22B | FR (Mistral) | MNPL (research+commercial) | tier fast (code) |
| Mistral Small 3 | FR (Mistral) | Apache 2 | tier fast (chat) |
| Gemma 4 31B | US (Google) | Gemma TOS | tier medium |
| Llama 3 70B | US (Meta) | Llama 3 Community | tier medium |
| Qwen 2.5 Coder 32B | CN (Alibaba) | Apache 2 | tier medium (code, sur opt-in) |
| Kimi K2.6 | CN (Moonshot) | Modified MIT | XL only, sur opt-in |
| DeepSeek V4 Pro | CN (DeepSeek) | MIT | XL only, sur opt-in |
| Claude Sonnet 4.5 | US (Anthropic) | Propriétaire (API Bedrock) | tier frontier |
Le détail des compromis qualité × souveraineté × coût pour chaque modèle est sur la page /box/souverainete.
Discutons votre cas concret
30 minutes pour comprendre votre stack actuelle, votre cadre réglementaire, votre volumétrie cible. Si votre LMbox a du sens, on propose un POC. Sinon, on vous le dit franchement.