Pourquoi votre assistant IA ne devrait jamais s'entraîner sur les données de votre famille

En 2023, la Federal Trade Commission a condamné Amazon à payer 25 millions de dollars pour clore des allégations selon lesquelles son assistant vocal Alexa avait conservé indéfiniment les enregistrements vocaux d’enfants — même après que les parents en aient explicitement demandé la suppression. Les enregistrements étaient utilisés pour entraîner des modèles de machine learning. Des millions de familles avaient invité un appareil dans leur cuisine, leur salon et leur chambre, faisant confiance au fait que les voix de leurs enfants seraient traitées de manière responsable. Cette confiance a été trahie à l’échelle industrielle.

Ce n’est pas un incident isolé. C’est le modèle économique par défaut de l’IA grand public. Et si vous utilisez un assistant IA chez vous aujourd’hui, les données les plus intimes de votre famille sont presque certainement traitées d’une manière à laquelle vous n’avez jamais consenti et que vous ne pouvez pas pleinement comprendre.

Ce que les assistants IA collectent réellement

La personne moyenne génère environ 1,7 mégaoctet de données par seconde d’activité en ligne, selon les estimations des rapports annuels Data Never Sleeps de DOMO. Pour un foyer de quatre personnes utilisant un assistant IA vocal tout au long de la journée, le volume de données comportementales produites est considérable. Mais le volume n’est qu’une partie du problème. La vraie préoccupation est la nature de ce qui est capturé.

La couche visible

Vous connaissez vos interactions directes : les questions que vous posez, les rappels que vous programmez, les événements de calendrier que vous créez, les messages que vous dictez. Ce sont les données que vous générez consciemment, et la plupart des gens supposent que c’est tout ce qui est traité.

La couche invisible

Sous chaque commande explicite se trouve un ensemble de données bien plus riche. Les assistants IA capturent couramment les patterns vocaux et empreintes vocales biométriques, l’audio ambiant avant et après les mots d’activation (les tampons dits « pre-roll » et « post-roll »), le timing des interactions qui cartographie les rythmes quotidiens de votre foyer, les données de proximité des appareils révélant quels membres de la famille sont à la maison et quand, les patterns de langage naturel qui révèlent les états émotionnels, les niveaux d’éducation et le développement cognitif des enfants, et la composition inférée du foyer basée sur le nombre et les caractéristiques des locuteurs distincts.

L’Alexa d’Amazon, par exemple, créait des « profils vocaux » détaillés des membres du foyer, y compris des enfants, qui persistaient entre les appareils et étaient liés au comportement d’achat. Les appareils Google Nest ont été identifiés comme collectant en continu des données de température ambiante, de mouvement et d’audio, construisant ce qui équivaut à un modèle d’occupation en temps réel de votre domicile.

Ce ne sont pas des métadonnées. C’est un portrait intime, continuellement mis à jour, de la vie privée de votre famille.

Pourquoi les données familiales sont catégoriquement différentes

Les défenseurs de la vie privée soutiennent depuis longtemps que toutes les données personnelles méritent d’être protégées. C’est vrai. Mais les données familiales — spécifiquement les données générées dans les foyers avec enfants — présentent des risques qui sont qualitativement différents des données individuelles d’adultes. Trois facteurs expliquent cela.

Les enfants ne peuvent pas donner un consentement éclairé

Le Règlement Général sur la Protection des Données de l’Union européenne aborde cette question directement. L’article 8 du RGPD établit que le traitement des données personnelles d’un enfant nécessite le consentement parental, les États membres fixant le seuil d’âge entre 13 et 16 ans. En Irlande, où de nombreuses entreprises technologiques sont domiciliées pour des raisons réglementaires, l’âge est de 16 ans. Au Royaume-Uni (sous le UK GDPR post-Brexit), il est de 13 ans. Aux États-Unis, le Children’s Online Privacy Protection Act (COPPA) fixe le seuil à 13 ans et impose des exigences strictes aux opérateurs de sites web et de services en ligne destinés aux enfants.

Ce ne sont pas des principes juridiques abstraits. Ils ont un réel poids d’application. En 2019, la FTC a infligé à TikTok (alors Musical.ly) une amende de 5,7 millions de dollars pour collecte d’informations personnelles d’enfants de moins de 13 ans sans consentement parental — la plus grosse pénalité civile COPPA à l’époque. La même année, Google et YouTube ont accepté de payer 170 millions de dollars pour régler les allégations de la FTC et du procureur général de New York selon lesquelles YouTube avait illégalement collecté les données personnelles d’enfants et les avait utilisées pour de la publicité ciblée.

Pourtant, la plupart des assistants IA déployés dans les foyers familiaux ne font aucune distinction significative entre les données adultes et les données enfants. Quand un enfant de six ans demande à Alexa des informations sur les dinosaures, cet enregistrement vocal entre dans le même pipeline de données que la demande d’itinéraire d’un adulte. Les cadres juridiques existent. Les actions d’application prouvent qu’ils ne sont pas théoriques. Mais la technologie déployée dans la plupart des foyers ignore simplement la distinction.

Les routines révèlent des vulnérabilités de sécurité

Un seul point de données sur votre emploi du temps matinal est anodin. Six mois de données continues sur l’heure de réveil de votre famille, l’heure de départ des enfants pour l’école, les moments où la maison est vide, l’heure de retour du travail et l’heure du coucher constituent un profil de sécurité complet. Ces données, si elles sont piratées ou vendues, indiquent à un cambrioleur potentiel exactement quand votre domicile est inoccupé et pour combien de temps.

L’industrie des courtiers en données, estimée à environ 350 milliards de dollars de revenus annuels au niveau mondial, échange précisément ce type de renseignements comportementaux. Des courtiers en données de localisation ont été pris en flagrant délit de vente de données géolocalisées autour d’écoles, de lieux de culte et d’établissements médicaux. En 2022, un prêtre catholique aux États-Unis a été publiquement identifié et révélé en utilisant des données de localisation commercialement disponibles achetées auprès de Grindr via un courtier en données. Si les données de localisation d’un prêtre sont commercialement disponibles, les patterns comportementaux de votre famille captés par un assistant IA domestique ne sont pas plus en sécurité simplement parce qu’ils résident sur les serveurs d’une autre entreprise.

Les mentions de santé deviennent des données de santé non protégées

Quand vous mentionnez à votre assistant IA que votre fille a une allergie aux arachides, ou que vous lui demandez de vous rappeler un médicament, ou que vous lui dites que votre fils a du mal à dormir, vous générez des données relatives à la santé. En milieu clinique, ces informations seraient protégées par des réglementations comme le HIPAA aux États-Unis ou les dispositions explicites du RGPD pour les données de catégorie spéciale (article 9). Mais quand les mêmes informations transitent par un assistant IA grand public, elles ne reçoivent typiquement aucune protection spéciale.

Cet écart n’est pas hypothétique. En 2019, le Wall Street Journal a révélé le « Project Nightingale » de Google, un partenariat avec le système de santé Ascension qui a donné à Google accès aux dossiers médicaux détaillés de jusqu’à 50 millions d’Américains — sans notification ni consentement des patients. Le projet était techniquement légal en vertu des dispositions HIPAA relatives aux associés commerciaux, mais il a démontré comment les données de santé, une fois numérisées, trouvent leur chemin dans les pipelines d’entraînement IA par des voies que les consommateurs n’anticipent jamais.

Les mentions de santé informelles de votre famille à un assistant IA sont traitées avec encore moins de protections que les données cliniques du Project Nightingale, parce que les interactions IA grand public ne sont pas du tout couvertes par le HIPAA.

Comment les grandes entreprises traitent réellement vos données

Comprendre les pratiques spécifiques des plus grandes entreprises d’IA ne vise pas à diaboliser des produits individuels. Il s’agit de reconnaître un pattern industriel où les données familiales sont traitées comme du carburant d’entraînement plutôt que comme un dépôt sacré.

Amazon Alexa

Les controverses d’Amazon Alexa en matière de vie privée s’étalent sur des années. En plus du règlement de 25 millions de dollars avec la FTC en 2023 pour la conservation des enregistrements vocaux d’enfants, Amazon a été découvert comme employant des milliers de travailleurs dans le monde pour écouter et transcrire les enregistrements vocaux Alexa à des fins d’amélioration de la qualité. Des documents internes ont révélé que ces travailleurs pouvaient accéder aux adresses personnelles des utilisateurs et que certains partageaient entre eux des enregistrements amusants ou perturbants. La réponse d’Amazon a été d’ajouter une option de désinscription enfouie dans les paramètres de l’appareil, mais le comportement par défaut restait — et reste — que les enregistrements sont stockés et utilisés pour l’amélioration du service.

La plainte de la FTC notait spécifiquement que le mécanisme de suppression d’Amazon était défectueux : même quand les parents supprimaient les enregistrements vocaux via l’application Alexa, les données associées (transcriptions, inférences, profils comportementaux dérivés des enregistrements) persistaient souvent dans les systèmes d’Amazon. Vous pouviez supprimer l’audio, mais l’intelligence qui en avait été extraite perdurait.

Google Assistant et Gemini

L’ensemble du modèle économique de Google repose sur la publicité basée sur les données. Quand Google traite les interactions IA de votre famille, il le fait au sein d’un écosystème explicitement conçu pour convertir les données personnelles en signaux publicitaires. La politique de confidentialité de Google utilise des formulations comme « améliorer nos services » et « en développer de nouveaux », ce qui en pratique signifie que les données d’interaction alimentent des modèles qui servent les 224 milliards de dollars de revenus publicitaires annuels de l’entreprise.

Google a apporté des améliorations significatives — proposant des options de suppression automatique et supprimant la revue humaine par défaut des enregistrements audio après qu’une enquête de 2019 du diffuseur belge VRT ait révélé que des sous-traitants de Google écoutaient des conversations intimes, y compris de l’audio de chambre à coucher qui n’aurait jamais dû être enregistré. Mais l’architecture fondamentale reste cloud-first : vos données quittent votre appareil, entrent dans l’infrastructure de Google et sont traitées selon des politiques que Google peut modifier unilatéralement.

OpenAI (ChatGPT)

L’approche d’OpenAI concernant les données d’entraînement est directe mais préoccupante pour les familles. Par défaut, les conversations avec ChatGPT sont utilisées pour entraîner les futurs modèles. OpenAI fournit un mécanisme de désinscription — vous pouvez désactiver « Historique des conversations et entraînement » dans les paramètres, ou soumettre une demande formelle via leur portail de confidentialité des données. Mais la désinscription n’est pas le choix par défaut, elle n’est pas mise en évidence et de nombreux utilisateurs ignorent son existence.

Pour les familles, cela signifie que chaque conversation qu’un enfant a avec ChatGPT — aide aux devoirs, écriture créative, questions personnelles sur la santé ou les émotions — devient des données d’entraînement pour des modèles qui seront déployés auprès de millions d’autres utilisateurs. Les formulations uniques de l’enfant, ses préoccupations et ses patterns de développement sont absorbés dans un système sur lequel il n’a aucun contrôle, au bénéfice du produit d’une entreprise d’une manière que ni l’enfant ni ses parents n’ont choisie.

La politique de confidentialité d’OpenAI note également que les données peuvent être partagées avec des « prestataires de services » et des « affiliés », et que les données agrégées ou désidentifiées peuvent être utilisées sans restriction. La communauté de recherche a démontré à plusieurs reprises que les données « désidentifiées » peuvent souvent être ré-identifiées, particulièrement quand les ensembles de données sont suffisamment riches — et les données d’IA conversationnelle sont parmi les types de données les plus riches qui existent.

Un contre-exemple positif : l’approche sur l’appareil d’Apple

L’approche d’Apple en matière de traitement IA offre un contraste instructif. Apple a massivement investi dans le machine learning embarqué, traitant les requêtes Siri, la reconnaissance photo et les données de santé localement sur l’appareil de l’utilisateur autant que possible. Quand un traitement cloud est nécessaire, Apple utilise un système appelé Private Cloud Compute, qui traite les données sur des serveurs Apple Silicon avec des garanties cryptographiques qu’Apple elle-même ne peut pas accéder aux données.

Ce n’est pas une solution complète — Apple collecte encore certaines données, et ses protections de la vie privée ont des limites. Mais cela démontre que l’IA embarquée respectueuse de la vie privée est techniquement réalisable à grande échelle. Le choix d’envoyer les données familiales vers des serveurs cloud pour l’entraînement de modèles est une décision commerciale, pas une nécessité technique.

Les signaux d’alerte dans les politiques de confidentialité

La plupart des familles ne liront jamais l’intégralité de la politique de confidentialité de leur assistant IA. Ces documents sont délibérément longs, vagues et rédigés pour maximiser la flexibilité juridique de l’entreprise plutôt que pour informer l’utilisateur. Mais certaines formulations fonctionnent comme des signaux d’avertissement fiables que vos données sont utilisées d’une manière que vous ne choisiriez pas si vous compreniez ce qui se passe.

« Améliorer nos services. » C’est l’euphémisme le plus courant pour l’utilisation de vos données dans l’entraînement de modèles IA. Quand une entreprise dit qu’elle utilise vos données pour « améliorer » ses produits, cela signifie que vos conversations, patterns vocaux et données comportementales alimentent des pipelines de machine learning qui bénéficient à l’ensemble de la base d’utilisateurs de l’entreprise — et à ses résultats financiers. Les moments privés de votre famille deviennent des intrants pour le développement de produits.

« Agréger et anonymiser. » Cette formulation semble protectrice, mais elle est souvent sans substance en pratique. Des chercheurs de l’Imperial College London et d’ailleurs ont démontré que les ensembles de données anonymisés peuvent être ré-identifiés avec plus de 99 % de précision quand suffisamment de points de données sont disponibles. Les données d’IA conversationnelle, qui contiennent des empreintes linguistiques, des patterns thématiques et des signatures temporelles, sont particulièrement vulnérables à la ré-identification. Les données familiales « anonymisées » sont rarement véritablement anonymes.

« Partenaires tiers. » Cette formulation accorde à l’entreprise la permission de partager vos données avec un ensemble indéfini et potentiellement illimité d’entités externes. Les « partenaires » peuvent inclure des réseaux publicitaires, des courtiers en données, des entreprises d’analyse et d’autres sociétés d’IA. Une fois que vos données atteignent un tiers, vous perdez toute capacité pratique de les suivre ou de les contrôler.

« Peut conserver les données après la suppression du compte. » Certaines politiques se réservent le droit de conserver les données dérivées — les modèles entraînés sur vos conversations, les inférences tirées de votre comportement, les profils agrégés — même après la suppression de votre compte. Les données brutes disparaissent, mais leur fantôme persiste indéfiniment dans les systèmes de l’entreprise.

« Transférer les données à l’international. » Pour les familles dans l’UE ou au Royaume-Uni, c’est un signal critique. Le RGPD restreint les transferts internationaux de données vers des pays sans protections adéquates de la vie privée (Chapitre V). Si votre assistant IA transfère les données familiales vers des serveurs dans des juridictions sans protections équivalentes au RGPD, les garanties juridiques sur lesquelles vous comptez pourraient ne pas s’appliquer.

Une checklist vie privée pour les familles

Avant d’accueillir un produit IA dans la vie de votre famille, posez ces sept questions. Si l’entreprise ne peut pas y répondre clairement et affirmativement, elle ne mérite pas l’accès à votre foyer.

1. Où mes données sont-elles traitées ? Exigez de la précision. « Dans le cloud » n’est pas une réponse. Quel cloud ? Quelle région ? Les lois de quelle juridiction s’appliquent ? Le standard idéal est le traitement sur l’appareil, où les données ne quittent jamais votre matériel. Si un traitement cloud est impliqué, l’entreprise devrait pouvoir vous dire exactement où vont vos données et quel cadre juridique les régit.

2. Mes données sont-elles utilisées pour entraîner des modèles IA ? C’est une question oui ou non. Si la réponse est oui, ou « oui, mais vous pouvez vous désinscrire », cela signifie que le comportement par défaut est d’utiliser les données de votre famille au profit de l’entreprise. La désinscription n’est pas la même chose que la protection de la vie privée. Le comportement par défaut devrait être que vos données vous appartiennent exclusivement.

3. Comment le produit distingue-t-il les données adultes des données enfants ? Si la réponse est « il ne le fait pas », le produit n’est presque certainement pas conforme au COPPA et pourrait violer l’article 8 du RGPD. Un produit conçu pour un usage familial doit avoir un traitement des données adapté à l’âge intégré dans son architecture, pas ajouté après coup.

4. Que se passe-t-il quand je supprime mes données ? La suppression doit signifier la suppression — pas seulement des données brutes, mais des données dérivées, des inférences, des poids de modèles entraînés et des profils comportementaux. Demandez spécifiquement : « Si je supprime mon compte, est-ce qu’une donnée ou un dérivé de donnée persiste dans vos systèmes ? » Si la réponse est autre chose que « non », vous n’avez pas de vraie suppression.

5. Puis-je voir exactement quelles données vous avez sur ma famille ? L’article 15 du RGPD accorde aux résidents de l’UE le droit d’accéder à leurs données personnelles. Le CCPA offre des droits similaires en Californie. Mais les droits sur le papier et les droits en pratique sont des choses différentes. Testez le processus d’accès aux données de l’entreprise avant de vous engager avec son produit. Si récupérer vos propres données est difficile, les supprimer sera encore plus dur.

6. Où sont stockés mes identifiants et clés API ? Si le produit IA se connecte à d’autres services en votre nom (e-mail, agenda, appareils domotiques), il doit stocker des identifiants d’authentification quelque part. Ces identifiants devraient être stockés dans l’enclave sécurisée ou le trousseau de votre appareil — jamais dans une base de données distante. Une brèche des serveurs de l’entreprise d’IA ne devrait pas donner aux attaquants accès à votre e-mail, votre agenda et vos serrures connectées.

7. Quel est le modèle économique de l’entreprise ? Si le produit est gratuit et que l’entreprise n’est pas une association à but non lucratif, c’est vous le produit. Les assistants IA financés par la publicité ont une incitation structurelle à collecter et monétiser vos données. Les produits financés par abonnement ou auto-hébergés alignent les incitations de l’entreprise avec votre vie privée, parce que l’entreprise tire profit de votre satisfaction, pas de la vente de vos données.

Comment Morphee aborde cela différemment

Nous avons construit Morphee parce que nous avons des enfants et que nous refusions d’accepter le compromis par défaut de l’industrie : échanger la vie privée de votre famille contre la commodité de l’IA. Chaque décision architecturale dans Morphee part d’un seul principe : les données de votre famille appartiennent à votre famille.

Le traitement local d’abord

Morphee exécute l’inférence IA directement sur votre appareil. Vos conversations, les questions de vos enfants, les routines de votre famille — tout est traité par des modèles qui tournent sur votre propre matériel. Les données ne quittent pas votre appareil par défaut. Il n’y a aucun serveur cloud qui ingère la vie privée de votre famille. Pour une explication technique plus approfondie de l’importance de cette approche, consultez notre comparaison entre IA locale et IA cloud.

Quand un traitement cloud est nécessaire pour des capacités qui dépassent le matériel local (comme des tâches de raisonnement complexes), Morphee exige un consentement explicite, fonctionnalité par fonctionnalité, avant que la moindre donnée ne quitte votre appareil. Ce n’est pas une option de désinscription enfouie dans les paramètres. C’est un choix clair et éclairé présenté au moment où il compte.

Aucun entraînement sur les données utilisateur

Morphee n’entraîne pas de modèles sur les données de votre famille. Point final. Vos conversations améliorent votre expérience IA personnelle via la mémoire locale et le contexte — mais elles ne quittent jamais votre appareil pour alimenter un modèle partagé. Les questions du soir de votre fille ne deviennent pas des données d’entraînement pour un produit utilisé par des inconnus.

Les identifiants dans le trousseau de votre appareil

Quand Morphee se connecte à des services externes en votre nom, les identifiants d’authentification sont stockés dans le trousseau sécurisé de votre appareil via notre architecture sécurisée de gestion des identifiants — le même stockage sécurisé matériel qui protège vos applications bancaires. Les identifiants ne touchent jamais une base de données distante. Si les serveurs de Morphee étaient compromis demain (nous opérons une infrastructure serveur minimale précisément pour réduire cette surface d’attaque), les attaquants ne trouveraient ni mots de passe, ni tokens OAuth, ni clés API. Vos services connectés restent sécurisés parce que les clés n’ont jamais quitté votre appareil.

Le consentement comme architecture, pas comme ajout

Morphee implémente un service de consentement structuré au niveau applicatif. Chaque activité de traitement impliquant des données personnelles — de l’inférence IA à l’extraction de mémoire en passant par l’intégration de calendrier — est soumise à une vérification explicite du consentement. Le système ne traite pas les données d’un type donné tant que le consentement correspondant n’a pas été accordé. Ce n’est pas une promesse de politique de confidentialité. C’est appliqué dans le code, testé dans notre suite de tests automatisés et auditable. Pour les détails techniques de notre architecture de protection de la vie privée, y compris notre approche de la conformité RGPD, nous publions tout ouvertement.

L’isolation par groupe

Chaque donnée dans Morphee est associée à votre groupe familial. Il n’y a pas de base de données partagée où les données de votre famille se mélangent avec celles d’autres familles. Les requêtes sont filtrées par groupe au niveau de la base de données. Même en cas de bug logiciel catastrophique, les données d’une famille ne peuvent pas fuiter vers une autre parce que l’isolation est structurelle, pas seulement logique.

Vous pouvez consulter notre architecture de sécurité complète sur morphee.app/security.

Les enjeux sont plus importants que vous ne le pensez

Les décisions que nous prenons aujourd’hui concernant l’IA et les données familiales façonneront l’environnement numérique dans lequel nos enfants grandiront. Un enfant qui interagit avec des assistants IA dès l’âge de trois ans aura généré un profil comportemental, cognitif et émotionnel extraordinairement détaillé à l’âge adulte — un profil qu’il n’a jamais consenti à créer, stocké dans des systèmes qu’il ne peut pas auditer, contrôlé par des entreprises dont les modèles économiques peuvent changer à tout moment.

Le paysage réglementaire rattrape son retard. Le EU AI Act, entré en vigueur en 2024 avec des dispositions s’échelonnant jusqu’en 2026, classe les systèmes d’IA interagissant avec des enfants comme à haut risque et impose des exigences strictes de transparence et de gouvernance des données. La FTC a signalé à travers ses actions d’application contre Amazon, Google et TikTok qu’elle utilisera agressivement son autorité existante pour protéger les données des enfants. Le California Age-Appropriate Design Code Act, inspiré du Children’s Code du Royaume-Uni, exige des entreprises qu’elles appliquent par défaut les paramètres de confidentialité les plus élevés pour les utilisateurs susceptibles d’être des enfants.

Mais la réglementation, aussi importante soit-elle, est réactive. Le temps qu’une violation soit découverte, enquêtée et sanctionnée, des années de données ont déjà été collectées et traitées. Le cas Amazon Alexa s’est étalé sur des années de rétention de données avant que la FTC n’agisse. Votre famille ne peut pas se permettre d’attendre que les régulateurs rattrapent les pratiques de chaque nouveau produit IA en matière de données.

La seule protection fiable est architecturale : choisissez des produits qui ne peuvent pas abuser de vos données parce qu’ils sont conçus de telle sorte que vos données ne quittent jamais votre contrôle.

Aller de l’avant

L’industrie de l’IA veut vous faire croire que vie privée et capacité sont un compromis — que vous devez abandonner les données de votre famille pour obtenir un assistant IA utile. C’est faux. Le matériel moderne est suffisamment puissant pour exécuter localement des modèles IA sophistiqués. Le traitement embarqué n’est pas une limitation ; c’est un choix de conception qui respecte la dignité de votre famille.

Vous n’avez pas besoin de devenir un expert en vie privée pour protéger votre famille. Vous devez poser les bonnes questions, reconnaître les signaux d’alerte et choisir des produits construits par des personnes qui estiment que les données de votre famille ne leur appartiennent pas.

Morphee est construit pour les familles qui refusent de faire des compromis sur la vie privée. Nous traitons l’IA localement, nous n’entraînons jamais nos modèles sur vos données, et nous stockons les identifiants dans le trousseau sécurisé de votre appareil — pas sur nos serveurs. Rejoignez la liste d’attente pour découvrir à quoi ressemble une IA qui place la vie privée au premier plan.