SCIENCES FONDAMENTALESNumérique approche consiste à faire s’« affronter» deux algorithmes, l’un créant uncontenu, le second le jugeant acceptableou non. Elle est d’ailleurs parfois combinéeà la saisie de texte, comme dansGauGan 2 du géant des processeurs graphiquesNvidia.DÉRIVESLa part sombre de la performance techniqueImpossible, avec les algorithmes Midjourney ou Dall-E 2, d’obtenir une image àpartir de termes à connotation sexuelle ou violente. Ils sont paramétrés pour lesbloquer. Mais StableDiffusion n’a pas ces garde-fous… D’où les préoccupations deJoshua Achiam, un spécialiste de l’apprentissage par renforcement chez OpenAI.Dans des tweets postés le 10 septembre, il salue les promesses de créativité des« text-to-image », mais craint l’afflux de contenus violents, choquants,manipulateurs. Autre problème, récurrent en IA : les biais. Ces algorithmes étantentraînés sur des contenus trouvés sur Internet, ils en perpétuent les discriminationsen tout genre. S’y ajoutent de possibles entorses au droit d’auteur. L’agence photoGetty Images a annoncé fin septembre refuser les images créées par IA, des œuvresprotégées pouvant figurer sans autorisation dans les bases d’entraînement.L’outil GauGan de Nvidia permet de générer des photos à partir de croquis grossiers.Il préfigure GauGan 2 qui part, lui, d’un descriptif textuel.L’algorithme lie une descriptionà une image qu’il n’a jamais vue« L’innovation, du point de vue du texte,vient du modèle Clip, qui permet de représenterdans un espace commun le texte etles images », note Matthieu Labeau, spécialistedu traitement automatique dulangage à Télécom Paris. Publié en janvier2021 par OpenAI, Clip est entraînésur 400 millions d’images et leurs descriptionstextuelles trouvées sur Internet(légendes, métadonnées), et nonplus sur des images dotées d’une étiquettesommaire (« chien », « chaise »)comme dans les jeux de données destinésaux chercheurs. L’aspect massif dece matériau d’entraînement rend alorsl’algorithme capable d’extrapoler pourassocier une description à une imagequ’il n’a jamais vue.L’objectif initial d’OpenAI était de pouvoirindexer et classer plus efficacementdes images. Clip peut aussi servirà rechercher des images similaires ou àfaire de la modération de contenus. Maisce projet a mené la société à développerl’algorithme génératif Dall-E, dontla première version est sortie en mêmetemps que Clip. « Notre modèle se rapprochede celui de GPT [modèle de traitementdu langage naturel créé lui aussipar OpenAI], consistant à prédire unélément à la fois [mot, article, espace,ponctuation…] sauf qu’au lieu d’êtredes mots, ces éléments consistent en desbouts d’image », explique le créateur deCraiyon Boris Dayma.Pour le volet « image », une autreapproche est impliquée : la « diffusion ».Ce type d’algorithme d’apprentissageprofond produit du « bruit », c’est-àdireun nuage de pixels aléatoire. Puisil « débruite » graduellement en réorganisantles pixels non plus aléatoirementmais en tenant compte du textedécrivant l’image voulue. C’est l’efficacitéde cette approche qui permet lephotoréalisme de Dall-E 2, mal géré parla première version (qui n’utilisait pas ladiffusion) ou Imagen.Ce n’est qu’un commencement. Débutseptembre, une équipe du MassachusettsInstitute of Technology (Cambridge,États-Unis) présentait Composable Diffusion,une amélioration de la diffusion.« Les algorithmes actuels de “text-toimage”ont quelques difficultés à générerdes scènes issues de descriptions complexes,par exemple quand il y a plusieursadjectifs ; des éléments peuventêtre absents de l’image », note Shuang Li,coauteure de l’étude. L’approche proposéefait alors intervenir plusieurs modèlesde diffusion, chacun prenant en compteun bout de phrase. Ce qui tend à montrer,une fois de plus, que si l’IA fait preuved’aptitudes époustouflantes, l’humainreste aux commandes. C’est lui qui maîtrisele code, le publie ou non, l’améliore,fait évoluer les modèles, décide des jeuxde données d’entraînement. Si créativitédes machines il y a, elle dépend (encore)de l’humain. Arnaud Devillard@A_DevilaNVIDIA50 - Sciences et Avenir - La Recherche - Novembre 2022 - N° 909
NATUREYANN CHAVANCE/GREENLANDIALe voilier d’expédition polaire « Kamak » devant un iceberg dans la baie de Rosenvinge, où a eu lieu la collecte d’échantillonsrocheux au cours de la mission Greenlandia d’août dernier.52 - Sciences et Avenir - La Recherche - Novembre 2022 - N° 909