Amazon a signalé au National Center for Missing and Exploited Children (NCMEC) une très grande quantité de contenus pédopornographiques découverts dans les données servant à entraîner ses modèles d'IA. Ces contenus ont été retirés avant l'entraînement effectif des modèles.

Quelle est l'ampleur du problème ?

D'après les chiffres du NCMEC, Amazon compte pour la plupart des plus d'un million de rapports de contenus pédopornographiques liés à l'IA en 2025.

Pour justifier ce volume, un porte-parole d'Amazon a expliqué à Bloomberg que l'entreprise utilise un " seuil volontairement sur-inclusif pour l'analyse, ce qui produit un pourcentage élevé de faux positifs ".

Le groupe affirme également qu'à ce jour, il n'a connaissance d'aucun cas où ses modèles auraient généré du contenu pédopornographique. Cependant, l'ampleur de la détection initiale reste un sujet de préoccupation.

Des signalements qui sont jugés inutilisables

Le cœur du problème réside dans le manque d'informations exploitables. Amazon n'aurait fourni que très peu d'information sur l'origine du contenu illicite, l'identité de ceux l'ayant partagé ou s'il est toujours actif sur internet.

Sans ces détails, les signalements sont jugés inutilisables, parce qu'ils ne permettent ni au NCMEC de faire retirer le contenu, ni aux forces de l'ordre d'identifier les auteurs et de protéger les victimes.

Amazon se défend en expliquant que " en raison de la manière dont ces données sont sourcées, nous ne disposons pas des informations qui constituent un rapport exploitable ". Une absence de traçabilité qui est pointée du doigt.

data

Une transparence accrue semble urgente

En filigrane, ce sont également les risques associés à la collecte rapide et massive de données pour entraîner les modèles d'IA. Une dérive susceptible de reléguer au second plan les analyses de sécurité.

L'entraînement de l'IA sur des contenus illégaux pourrait non seulement biaiser le comportement des modèles, mais aussi risquer de remettre en circulation des images d'abus.

L'affaire souligne un besoin de transparence accrue sur la manière dont les entreprises acquièrent et filtrent leurs données d'entraînement.

Source : Bloomberg