IA locale vs IA cloud : ce qui tourne vraiment sur votre appareil

Chaque produit IA lance au cours de l’annee ecoulee revendique etre “local”, “prive” ou “on-device”. Apple Intelligence. Google Gemini Nano. Une douzaine de startups avec des pages d’accueil elegantes promettant que vos donnees ne quittent jamais votre machine. Le terme est devenu si dilue qu’il risque de ne plus rien signifier du tout.

Mais la realite technique derriere l’IA locale est a la fois plus nuancee et plus interessante que ce que le marketing suggere. Faire tourner un modele de langage sur votre ordinateur portable est desormais reellement possible d’une maniere qui ne l’etait pas il y a deux ans. La question n’est pas de savoir si c’est faisable, mais ce qui tourne reellement ou, quels sont les vrais compromis, et comment distinguer les produits qui tiennent leur promesse de ceux qui font simplement du “local-washing”.

Voici une analyse technique de l’etat actuel de l’IA on-device, ecrite pour ceux qui veulent des details plutot que des slogans.

Les trois niveaux de “l’IA locale”

Toutes les revendications d’IA locale ne signifient pas la meme chose. Il existe trois niveaux distincts, et les differences entre eux sont significatives.

Niveau 1 : Veritablement local — tout sur l’appareil

Dans la definition la plus stricte, l’IA locale signifie que les poids du modele, le calcul d’inference et tout le stockage de donnees existent entierement sur votre materiel. Zero requete reseau n’est effectuee pendant le fonctionnement. Vous pourriez debrancher le cable ethernet, desactiver le Wi-Fi, et le systeme fonctionnerait de maniere identique.

C’est le niveau le plus difficile a atteindre pour un assistant IA generaliste, mais c’est entierement possible pour des capacites specifiques : les embeddings, la reconnaissance vocale, les petits modeles de langage et la recherche vectorielle tournent tous confortablement sur du materiel grand public moderne.

Niveau 2 : Hybride — local pour le prive, cloud pour le complexe

Le juste milieu pragmatique. Les taches simples, frequentes ou sensibles en termes de confidentialite tournent localement. Le raisonnement complexe ou les taches necessitant des capacites de modele de pointe escaladent vers les API cloud. La question architecturale critique n’est pas de savoir si l’hybride existe, mais comment la frontiere est tracee et qui la controle.

Un systeme hybride bien concu rend la decision d’escalade transparente et protegee par le consentement. L’utilisateur voit ce qui sera envoye au cloud avant que cela ne se produise. Un systeme mal concu prend la decision silencieusement, en utilisant par defaut le traitement cloud et en ne se rabattant sur le local que lorsque le reseau est indisponible.

Niveau 3 : “Local-washing” — du marketing sans substance

C’est la categorie la plus repandue. Des produits qui font la publicite de “l’IA on-device” mais envoient en realite vos donnees a des API cloud, mettent en cache les reponses localement et appellent cela du traitement local. Ou des produits qui font tourner un classificateur trivial sur l’appareil (pour decider quel modele cloud appeler) et presentent ce classificateur comme de “l’IA locale”.

Comment identifier le local-washing : surveillez votre trafic reseau pendant l’utilisation du produit. Des outils comme Little Snitch (macOS), Wireshark, ou meme l’onglet Reseau des outils developpeur vous diront si vos prompts quittent votre machine. Si un produit revendique l’IA locale mais effectue des requetes HTTPS vers api.openai.com ou api.anthropic.com chaque fois que vous posez une question, vous avez votre reponse.

Ce qui peut reellement tourner localement en 2025-2026

Le paysage de l’IA on-device a change de maniere spectaculaire. Voici une evaluation realiste, basee sur les chiffres, de ce que le materiel grand public peut gerer aujourd’hui.

Les grands modeles de langage

L’ecosysteme des modeles ouverts a muri rapidement. Les modeles a connaitre pour l’inference locale :

Llama 3 (Meta, 2024-2025) : La version 8B parametres est le cheval de bataille de l’inference LLM locale. Il tient confortablement dans 16 Go de RAM une fois quantifie en precision 4 bits et produit des resultats veritablement utiles pour la synthese, la reecriture, la reponse aux questions et l’assistance au code. La variante 70B necessite 32-48 Go de RAM en quantification 4 bits, ce qui la met a portee des MacBook et stations de travail haut de gamme mais hors du materiel grand public typique.

Qwen 2.5 (Alibaba, 2025) : Particulierement fort en mathematiques et raisonnement structure. La variante 7B performe bien au-dessus de sa categorie sur des benchmarks comme GSM8K et MATH, ce qui en fait un choix convaincant pour les applications necessitant des capacites analytiques. Nous l’avons teste de maniere approfondie dans notre propre travail de competition mathematique, et ses chaines de raisonnement sur les problemes d’algebre et de theorie des nombres sont remarquablement coherentes pour un modele de cette taille.

Phi-3 et Phi-3.5 (Microsoft, 2024-2025) : Les petits modeles de langage de Microsoft — la variante mini de 3,8B est notable parce qu’elle tourne sur des appareils avec aussi peu que 8 Go de RAM tout en produisant des resultats etonnamment coherents. Elle demontre qu’une curation soigneuse des donnees d’entrainement peut partiellement compenser le nombre de parametres.

Mistral 7B et Mixtral (Mistral AI, 2024) : Mistral 7B a fixe la reference de ce qu’un modele a 7 milliards de parametres pouvait accomplir. Son mecanisme d’attention a fenetre glissante le rend particulierement efficace pour l’inference locale en contexte long. Mixtral, la variante mixture-of-experts, n’active qu’un sous-ensemble de ses parametres par jeton, atteignant une qualite proche du 13B pour un cout d’inference de 7B.

Gemma 2 (Google, 2024-2025) : Disponible en 2B, 9B et 27B parametres. La variante 9B est bien adaptee a l’usage local, et les versions instruction-tuned de Google gerent proprement les taches conversationnelles. La variante 2B est suffisamment petite pour tourner sur des appareils mobiles.

Configuration materielle requise

Le materiel minimum pour une inference LLM locale utile :

Apple Silicon M1-M4 : L’architecture memoire unifiee est le plus grand avantage pour l’IA locale sur du materiel grand public. Parce que le CPU et le GPU partagent le meme pool memoire, un MacBook avec 16 Go de memoire unifiee peut charger un modele 7B sans la surcharge de copie memoire qui penalise les configurations avec GPU discret. Un M2 Pro avec 16 Go gere les modeles 7B a 30-50 tokens par seconde. Un M3 Max avec 36 Go ou 48 Go peut faire tourner des modeles 70B a des vitesses utilisables (8-15 tokens/s).
GPU NVIDIA (RTX 4060 et superieur) : L’inference sur GPU discret necessite que le modele tienne dans la VRAM. Une RTX 4060 avec 8 Go de VRAM peut faire tourner des modeles 7B quantifies. Une RTX 4090 avec 24 Go de VRAM gere des modeles quantifies de 30B et plus. Le goulot d’etranglement est la VRAM, pas la puissance de calcul.
RAM minimum : 16 Go est le plancher pratique pour faire tourner un modele 7B aux cotes d’un systeme d’exploitation et d’une application. 32 Go est recommande pour un fonctionnement confortable avec des modeles plus grands ou des taches concurrentes multiples.

La revolution GGUF

Le catalyseur technique de l’inference LLM locale sur du materiel grand public est llama.cpp et le format de modele GGUF. Ecrit initialement par Georgi Gerganov en C/C++, llama.cpp effectue de l’inference quantifiee sans necessiter un framework ML complet comme PyTorch ou TensorFlow.

La quantification compresse les poids du modele de leur representation originale en virgule flottante 16 ou 32 bits vers des largeurs de bits inferieures. Les niveaux de quantification cles en GGUF :

Q4_K_M (4 bits, medium) : Le meilleur compromis pour la plupart des utilisateurs. Environ 4,5 bits par poids en moyenne. Un modele 7B se compresse a environ 4,5 Go. La degradation de qualite est minimale pour les taches conversationnelles et d’instruction — typiquement dans les 1-3 % du modele en pleine precision sur les benchmarks standards.
Q5_K_M (5 bits, medium) : Qualite legerement superieure pour une augmentation de taille modeste. Un modele 7B fait environ 5,5 Go. La difference de qualite entre Q4_K_M et Q5_K_M est mesurable sur les benchmarks mais rarement perceptible en pratique pour la plupart des usages.
Q8_0 (8 bits) : Quantification quasi sans perte. Un modele 7B fait environ 7,5 Go. Utile quand vous avez la marge de RAM et souhaitez minimiser toute perte de qualite, mais les rendements decroissants par rapport au Q5 sont significatifs.

L’implication pratique : un modele de langage 7B de haute qualite tient dans un fichier de 4,5 Go et tourne a une vitesse conversationnelle sur un ordinateur portable de trois ans. Ce n’etait pas possible en 2023.

Les embeddings : le meilleur argument pour l’IA locale

S’il y a une capacite IA ou le traitement local est un avantage indiscutable, ce sont les embeddings textuels. Les modeles d’embedding convertissent le texte en vecteurs numeriques pour la recherche semantique, le clustering et la generation augmentee par recuperation (RAG). Les modeles sont petits, rapides et produisent des resultats indiscernables des alternatives cloud.

all-MiniLM-L6-v2 : Sortie en 384 dimensions, fichier de modele d’environ 80 Mo. Genere les embeddings d’un paragraphe typique en moins de 10 millisecondes sur n’importe quel CPU moderne. Ce modele alimente la recherche semantique de milliers d’applications et il n’y a zero penalite de qualite a le faire tourner localement par rapport a l’appel de l’API d’embeddings d’OpenAI.

BGE-small-en-v1.5 : Egalement 384 dimensions, taille similaire, competitif avec des modeles plusieurs fois plus grands sur les benchmarks de recuperation. Developpe par la Beijing Academy of Artificial Intelligence et largement utilise dans les pipelines RAG open-source.

nomic-embed-text : Un entrant plus recent qui atteint de bonnes performances a la fois sur les requetes courtes et les documents longs. Sa sortie en 768 dimensions capture plus de nuances semantiques au prix d’un index vectoriel legerement plus grand.

Ces modeles tournent via ONNX Runtime, un moteur d’inference multiplateforme qui atteint des accelerations de 2 a 5 fois par rapport au PyTorch natif pour de nombreuses architectures de modeles. ONNX est particulierement efficace pour les modeles d’embedding parce que leurs graphes de calcul sont relativement simples et beneficient enormement de la fusion d’operateurs et de l’optimisation de graphe.

Le point ne saurait etre trop souligne : il n’y a aucune raison technique d’envoyer votre texte a une API cloud pour la generation d’embeddings. Les modeles locaux sont tout aussi bons, incomparablement moins chers (gratuits), et eliminent entierement le risque pour la vie privee.

Reconnaissance vocale : Whisper change tout

Les modeles Whisper d’OpenAI, publies en poids ouverts, ont fait de la reconnaissance vocale de haute qualite une capacite locale par defaut.

whisper-base (74M parametres) : Tourne a la vitesse temps reel sur une puce Apple M1, ce qui signifie qu’il transcrit une seconde d’audio en environ une seconde de calcul. La precision est suffisante pour la dictee, les notes vocales et la transcription conversationnelle en environnement calme. Le fichier de modele fait environ 140 Mo.

whisper-small (244M parametres) : Une amelioration significative de la precision par rapport a base, particulierement pour les accents et les environnements bruyants. Tourne a environ 2x le temps reel sur un M1 (une seconde d’audio prend environ 0,5 seconde de traitement). Environ 460 Mo.

whisper-large-v3 (1,5B parametres) : Qualite de transcription quasi professionnelle dans 99 langues. Sur un M2 Pro, il traite l’audio a environ 3x la vitesse temps reel. Le modele fait environ 3 Go. C’est le plafond de qualite pour la reconnaissance vocale locale, et il est remarquablement eleve.

Toutes les variantes de Whisper peuvent tourner via ONNX Runtime ou via des bibliotheques d’inference dediees comme whisper.cpp (le meme developpeur que llama.cpp). Sur Apple Silicon, les versions optimisees CoreML de Whisper exploitent le Neural Engine — un accelerateur ML dedie a 16 coeurs qui gere les operations matricielles tout en laissant le CPU et le GPU libres pour d’autres taches.

L’avantage Apple Silicon

Le Neural Engine d’Apple merite une attention specifique. Present dans chaque puce Apple Silicon depuis le M1, il fournit jusqu’a 15,8 TOPS (billions d’operations par seconde) sur le M1 et jusqu’a 38 TOPS sur le M4. CoreML, le framework ML d’Apple, dispatche automatiquement les operations compatibles vers le Neural Engine, le CPU ou le GPU en fonction d’un modele de cout.

Pour les modeles d’embedding et Whisper, les versions optimisees CoreML peuvent etre 2 a 3 fois plus rapides que l’inference ONNX generique parce qu’elles exploitent le materiel a fonction fixe du Neural Engine pour les calculs d’attention et les multiplications de matrices. C’est du silicium dedie qui consomme un minimum d’energie par rapport a l’execution des memes operations sur le GPU.

Cet avantage materiel est l’une des raisons pour lesquelles l’IA locale sur les appareils Apple parait qualitativement differente de l’IA locale sur de nombreuses machines Windows. Ce n’est pas seulement de l’optimisation logicielle — il y a du materiel concu expressement pour accelerer la charge de travail.

La comparaison honnete

Voici une comparaison cote a cote sur les dimensions qui comptent reellement, sans enjolivement marketing.

Dimension	Veritablement local	API cloud	Hybride (bien fait)
Confidentialite	Complete — les donnees ne quittent jamais l’appareil	Le fournisseur voit toutes les entrees/sorties	Les donnees privees restent locales ; seules les requetes generales atteignent le cloud
Latence (premier token)	50-200ms (chargement modele si froid), <50ms si chaud	200-800ms (reseau + file d’attente + inference)	Variable selon la decision de routage
Debit (tokens/s)	30-50 tok/s (7B sur M2 Pro)	50-100+ tok/s (modeles de pointe)	Le meilleur des deux selon la tache
Qualite de sortie (7B local)	Bon pour les taches ciblees, plus faible en raisonnement complexe	Les modeles de pointe (GPT-4o, Claude Opus) sont nettement superieurs	Haute qualite cloud pour les taches difficiles, local rapide pour les simples
Cout	Materiel uniquement (investissement unique)	0,002-0,06$ par 1K tokens, continu	Depenses cloud reduites, investissement materiel
Capacite hors ligne	Pleine fonctionnalite	Aucune	Degradation gracieuse vers le local
Impact batterie	Modere a eleve pendant l’inference	Minimal (requete reseau uniquement)	Depend du ratio local/cloud
Complexite de mise en place	Telechargement de modeles, exigences materielles	Cle API et client HTTP	Architecture plus complexe

L’ecart de qualite : evaluation honnete

Les modeles cloud de pointe — GPT-4o, Claude Opus, Gemini Ultra — sont veritablement meilleurs que les modeles locaux 7B pour le raisonnement complexe, l’ecriture nuancee, l’analyse en plusieurs etapes et les taches necessitant une vaste connaissance du monde. Ce n’est pas une affirmation controversee. Un modele a 7 milliards de parametres tournant en quantification 4 bits sur votre ordinateur portable ne peut pas egaler un modele avec des centaines de milliards de parametres (ou un mixture-of-experts avec des billions de parametres effectifs) tournant sur un centre de donnees rempli de GPU H100.

Mais l’ecart de qualite compte moins qu’on pourrait le penser pour la plupart des taches quotidiennes. Considerez ce pour quoi les gens utilisent reellement les assistants IA :

Resumer un email ou un document : Un modele 7B gere cela bien. L’entree contraint la sortie, donc le risque d’hallucination est faible.
Rediger une reponse : Les modeles locaux produisent un texte coherent et adapte pour la communication standard.
Rechercher dans ses notes de maniere semantique : Les modeles d’embedding sont de qualite identique en local. C’est purement une tache de recuperation.
Transcrire une note vocale : Whisper-large-v3 en local egale ou depasse la plupart des services de transcription cloud.
Repondre a des questions factuelles sur ses propres donnees : Avec du RAG sur des documents locaux, le travail du modele est principalement de la synthese, pas du rappel de connaissances. Un modele 7B avec une bonne recuperation suffit souvent.
Raisonnement complexe en plusieurs etapes, ecriture creative, codage de grands systemes : C’est la que les modeles de pointe gardent un avantage clair.

La conclusion pratique : environ 70-80 % des interactions typiques avec un assistant IA peuvent etre gerees par des modeles locaux a une qualite acceptable. Les 20-30 % restants beneficient reellement des modeles cloud de pointe. Un systeme bien concu route en consequence.

La tendance

L’ecart se reduit aussi. La trajectoire des modeles ouverts sur les 18 derniers mois est frappante :

Llama 2 7B (juillet 2023) etait sensiblement moins bon que GPT-3.5 sur la plupart des taches.
Llama 3 8B (avril 2024) egalait ou depassait GPT-3.5 sur de nombreux benchmarks.
Qwen 2.5 7B et Llama 3.1 8B (fin 2024) approchaient les performances du GPT-4 initial sur des categories de taches specifiques.

Cette amelioration vient de trois forces convergentes : une meilleure curation des donnees d’entrainement (la qualite plutot que la quantite), des innovations architecturales (grouped-query attention, sliding window attention, mixture of experts) et des techniques de distillation ou les petits modeles apprennent des plus grands. Chaque generation de modeles 7B absorbe des techniques qui etaient exclusives aux modeles 100B+ un an auparavant.

La recherche sur la quantification progresse en parallele. Les methodes de quantification GPTQ, AWQ et GGML/GGUF sont devenues suffisamment sophistiquees pour que les modeles 4 bits conservent 95-97 % de leurs scores de benchmark en pleine precision. Il y a deux ans, la quantification 4 bits causait une degradation significative de la qualite. Aujourd’hui, elle est quasiment transparente pour la plupart des taches.

Comment Morphee aborde la frontiere local-cloud

Plutot que de prendre parti dans le debat local contre cloud, nous avons construit Morphee autour d’un principe : local par defaut, cloud par consentement explicite. L’application est pleinement fonctionnelle sans aucune connexion reseau. Les capacites cloud existent comme des ameliorations optionnelles, protegees par des controles de consentement granulaires qui expliquent exactement quelles donnees seront envoyees et a qui.

Traitement local par defaut

Toutes les capacites IA fondamentales de Morphee tournent entierement sur votre appareil. Les embeddings textuels, l’inference de modele de langage, la reconnaissance vocale et la recherche semantique se font tous localement en utilisant les modeles ouverts et techniques d’inference decrits plus haut dans cet article. Il n’y a pas de comportement de “phone-home”, pas d’appels cloud silencieux et pas de telemetrie sur vos conversations.

Quand vous enregistrez une note, avez une conversation ou ajoutez du contenu a Morphee, il est immediatement traite et indexe sur votre appareil. La recherche semantique — trouver du contexte pertinent non par correspondance de mots-cles mais par signification — s’execute sur un index vectoriel local avec une latence inferieure a la milliseconde.

Au premier lancement, Morphee profile le materiel disponible — coeurs CPU, RAM disponible, capacite GPU — et recommande une taille de modele et un niveau de quantification adaptes a votre machine. Un appareil avec beaucoup de memoire obtient un modele de meilleure qualite ; une machine plus contrainte obtient un modele plus petit et plus rapide. Dans tous les cas, tout tourne localement.

Une memoire que vous pouvez inspecter

Le systeme de memoire de Morphee est concu autour d’une position philosophique : la memoire de votre IA devrait etre transparente, inspectable et portable. Vous devriez pouvoir voir exactement ce que l’IA a appris, quand elle l’a appris, et modifier ou supprimer tout ce que vous choisissez. Vos donnees sont stockees localement dans des formats lisibles par l’humain, pas enfermees dans des bases de donnees cloud opaques.

Escalade cloud consentie

Quand une tache depasse ce que le modele local gere bien — raisonnement complexe en plusieurs etapes, taches necessitant des connaissances tres recentes du monde, ou generation de contenu creatif long — Morphee peut escalader vers des API cloud (Claude, GPT-4o et autres). Mais cette escalade n’est jamais silencieuse.

Avant que toute donnee ne quitte l’appareil, Morphee presente un dialogue de consentement qui montre exactement ce qui sera envoye, quel fournisseur le recevra et quelle est la politique de conservation des donnees de ce fournisseur. L’utilisateur peut approuver, refuser ou modifier la requete. Ce consentement est granulaire : vous pouvez autoriser le traitement cloud pour les requetes de connaissances generales tout en le bloquant pour tout ce qui implique des donnees personnelles ou familiales.

Ce n’est pas un bouton enfoui dans les parametres. C’est un point de decision actif, requete par requete. L’architecture l’impose — les fournisseurs cloud ne peuvent pas etre appeles sans le consentement explicite de l’utilisateur pour la tache specifique en cours. Lisez-en davantage sur notre approche de la vie privee et des donnees familiales et comment nous maintenons la conformite RGPD.

Pourquoi cette architecture compte pour les familles

Morphee est concu pour les groupes — familles, classes, petites equipes. Dans ces contextes, la question local-versus-cloud prend un poids supplementaire.

L’assistant IA d’une famille traite des conversations sur les devoirs des enfants, des questions de sante, des discussions financieres, de la planification et des sujets personnels. C’est exactement la categorie de donnees qui ne devrait pas transiter par des serveurs tiers par defaut. Un enfant qui demande a son assistant IA de l’aide pour ses devoirs de mathematiques ne devrait pas generer un point de donnees d’entrainement sur les serveurs d’un fournisseur cloud.

L’architecture local-first fait de cela le comportement par defaut plutot qu’une option de configuration. L’assistant fonctionne. Les donnees restent a la maison. Si la famille decide que les modeles cloud seraient utiles pour certaines taches, elle opte pour avec une pleine visibilite sur ce que cela implique.

C’est aussi pourquoi l’ensemble des fonctionnalites de Morphee se concentre sur les capacites qui fonctionnent le mieux localement : la recherche semantique sur les connaissances personnelles, la transcription vocale, la synthese et l’assistance conversationnelle fondee sur vos propres donnees. Ce sont les taches ou les modeles locaux egalent deja la qualite cloud, et ou la vie privee compte le plus.

L’avenir

La trajectoire des capacites de l’IA locale ne pointe que dans une direction : plus de capacite dans moins de materiel. La quantification continuera de s’ameliorer. Les architectures deviendront plus efficaces. Apple, Qualcomm et Intel livrent tous des accelerateurs ML dedies dans le silicium grand public, augmentant les TOPS disponibles pour l’inference on-device a chaque generation.

D’ici deux a trois ans, un modele de classe 7B tournant sur du materiel grand public egalera probablement la qualite des modeles cloud de pointe actuels pour la plupart des taches. La question du local versus cloud passera de “les modeles locaux peuvent-ils gerer cela ?” a “y a-t-il une raison d’envoyer cela au cloud ?”.

Nous construisons Morphee pour cet avenir tout en le rendant utile aujourd’hui. L’architecture est concue pour que de meilleurs modeles locaux puissent etre adoptes a leur arrivee — pas de migration d’infrastructure, pas d’exposition de donnees, juste des capacites ameliorees tournant sur votre propre materiel.

Morphee est actuellement en acces anticipe. Si vous souhaitez un assistant IA qui tourne sur votre appareil, respecte la vie privee de votre famille et s’ameliore a mesure que les modeles locaux progressent, rejoignez la liste d’attente.