Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
SCIENCES FONDAMENTALES
Numérique
approche consiste à faire s’« affronter
» deux algorithmes, l’un créant un
contenu, le second le jugeant acceptable
ou non. Elle est d’ailleurs parfois combinée
à la saisie de texte, comme dans
GauGan 2 du géant des processeurs graphiques
Nvidia.
DÉRIVES
La part sombre de la performance technique
Impossible, avec les algorithmes Midjourney ou Dall-E 2, d’obtenir une image à
partir de termes à connotation sexuelle ou violente. Ils sont paramétrés pour les
bloquer. Mais StableDiffusion n’a pas ces garde-fous… D’où les préoccupations de
Joshua Achiam, un spécialiste de l’apprentissage par renforcement chez OpenAI.
Dans des tweets postés le 10 septembre, il salue les promesses de créativité des
« text-to-image », mais craint l’afflux de contenus violents, choquants,
manipulateurs. Autre problème, récurrent en IA : les biais. Ces algorithmes étant
entraînés sur des contenus trouvés sur Internet, ils en perpétuent les discriminations
en tout genre. S’y ajoutent de possibles entorses au droit d’auteur. L’agence photo
Getty Images a annoncé fin septembre refuser les images créées par IA, des œuvres
protégées pouvant figurer sans autorisation dans les bases d’entraînement.
L’outil GauGan de Nvidia permet de générer des photos à partir de croquis grossiers.
Il préfigure GauGan 2 qui part, lui, d’un descriptif textuel.
L’algorithme lie une description
à une image qu’il n’a jamais vue
« L’innovation, du point de vue du texte,
vient du modèle Clip, qui permet de représenter
dans un espace commun le texte et
les images », note Matthieu Labeau, spécialiste
du traitement automatique du
langage à Télécom Paris. Publié en janvier
2021 par OpenAI, Clip est entraîné
sur 400 millions d’images et leurs descriptions
textuelles trouvées sur Internet
(légendes, métadonnées), et non
plus sur des images dotées d’une étiquette
sommaire (« chien », « chaise »)
comme dans les jeux de données destinés
aux chercheurs. L’aspect massif de
ce matériau d’entraînement rend alors
l’algorithme capable d’extrapoler pour
associer une description à une image
qu’il n’a jamais vue.
L’objectif initial d’OpenAI était de pouvoir
indexer et classer plus efficacement
des images. Clip peut aussi servir
à rechercher des images similaires ou à
faire de la modération de contenus. Mais
ce projet a mené la société à développer
l’algorithme génératif Dall-E, dont
la première version est sortie en même
temps que Clip. « Notre modèle se rapproche
de celui de GPT [modèle de traitement
du langage naturel créé lui aussi
par OpenAI], consistant à prédire un
élément à la fois [mot, article, espace,
ponctuation…] sauf qu’au lieu d’être
des mots, ces éléments consistent en des
bouts d’image », explique le créateur de
Craiyon Boris Dayma.
Pour le volet « image », une autre
approche est impliquée : la « diffusion ».
Ce type d’algorithme d’apprentissage
profond produit du « bruit », c’est-àdire
un nuage de pixels aléatoire. Puis
il « débruite » graduellement en réorganisant
les pixels non plus aléatoirement
mais en tenant compte du texte
décrivant l’image voulue. C’est l’efficacité
de cette approche qui permet le
photoréalisme de Dall-E 2, mal géré par
la première version (qui n’utilisait pas la
diffusion) ou Imagen.
Ce n’est qu’un commencement. Début
septembre, une équipe du Massachusetts
Institute of Technology (Cambridge,
États-Unis) présentait Composable Diffusion,
une amélioration de la diffusion.
« Les algorithmes actuels de “text-toimage”
ont quelques difficultés à générer
des scènes issues de descriptions complexes,
par exemple quand il y a plusieurs
adjectifs ; des éléments peuvent
être absents de l’image », note Shuang Li,
coauteure de l’étude. L’approche proposée
fait alors intervenir plusieurs modèles
de diffusion, chacun prenant en compte
un bout de phrase. Ce qui tend à montrer,
une fois de plus, que si l’IA fait preuve
d’aptitudes époustouflantes, l’humain
reste aux commandes. C’est lui qui maîtrise
le code, le publie ou non, l’améliore,
fait évoluer les modèles, décide des jeux
de données d’entraînement. Si créativité
des machines il y a, elle dépend (encore)
de l’humain.
Arnaud Devillard
@A_Devila
NVIDIA
50 - Sciences et Avenir - La Recherche - Novembre 2022 - N° 909