Sciences et Avenir-L'avant Big-Bang

SCIENCES FONDAMENTALES

Numérique

approche consiste à faire s’« affronter

» deux algorithmes, l’un créant un

contenu, le second le jugeant acceptable

ou non. Elle est d’ailleurs parfois combinée

à la saisie de texte, comme dans

GauGan 2 du géant des processeurs graphiques

Nvidia.

DÉRIVES

La part sombre de la performance technique

Impossible, avec les algorithmes Midjourney ou Dall-E 2, d’obtenir une image à

partir de termes à connotation sexuelle ou violente. Ils sont paramétrés pour les

bloquer. Mais StableDiffusion n’a pas ces garde-fous… D’où les préoccupations de

Joshua Achiam, un spécialiste de l’apprentissage par renforcement chez OpenAI.

Dans des tweets postés le 10 septembre, il salue les promesses de créativité des

« text-to-image », mais craint l’afflux de contenus violents, choquants,

manipulateurs. Autre problème, récurrent en IA : les biais. Ces algorithmes étant

entraînés sur des contenus trouvés sur Internet, ils en perpétuent les discriminations

en tout genre. S’y ajoutent de possibles entorses au droit d’auteur. L’agence photo

Getty Images a annoncé fin septembre refuser les images créées par IA, des œuvres

protégées pouvant figurer sans autorisation dans les bases d’entraînement.

L’outil GauGan de Nvidia permet de générer des photos à partir de croquis grossiers.

Il préfigure GauGan 2 qui part, lui, d’un descriptif textuel.

L’algorithme lie une description

à une image qu’il n’a jamais vue

« L’innovation, du point de vue du texte,

vient du modèle Clip, qui permet de représenter

dans un espace commun le texte et

les images », note Matthieu Labeau, spécialiste

du traitement automatique du

langage à Télécom Paris. Publié en janvier

2021 par OpenAI, Clip est entraîné

sur 400 millions d’images et leurs descriptions

textuelles trouvées sur Internet

(légendes, métadonnées), et non

plus sur des images dotées d’une étiquette

sommaire (« chien », « chaise »)

comme dans les jeux de données destinés

aux chercheurs. L’aspect massif de

ce matériau d’entraînement rend alors

l’algorithme capable d’extrapoler pour

associer une description à une image

qu’il n’a jamais vue.

L’objectif initial d’OpenAI était de pouvoir

indexer et classer plus efficacement

des images. Clip peut aussi servir

à rechercher des images similaires ou à

faire de la modération de contenus. Mais

ce projet a mené la société à développer

l’algorithme génératif Dall-E, dont

la première version est sortie en même

temps que Clip. « Notre modèle se rapproche

de celui de GPT [modèle de traitement

du langage naturel créé lui aussi

par OpenAI], consistant à prédire un

élément à la fois [mot, article, espace,

ponctuation…] sauf qu’au lieu d’être

des mots, ces éléments consistent en des

bouts d’image », explique le créateur de

Craiyon Boris Dayma.

Pour le volet « image », une autre

approche est impliquée : la « diffusion ».

Ce type d’algorithme d’apprentissage

profond produit du « bruit », c’est-àdire

un nuage de pixels aléatoire. Puis

il « débruite » graduellement en réorganisant

les pixels non plus aléatoirement

mais en tenant compte du texte

décrivant l’image voulue. C’est l’efficacité

de cette approche qui permet le

photoréalisme de Dall-E 2, mal géré par

la première version (qui n’utilisait pas la

diffusion) ou Imagen.

Ce n’est qu’un commencement. Début

septembre, une équipe du Massachusetts

Institute of Technology (Cambridge,

États-Unis) présentait Composable Diffusion,

une amélioration de la diffusion.

« Les algorithmes actuels de “text-toimage”

ont quelques difficultés à générer

des scènes issues de descriptions complexes,

par exemple quand il y a plusieurs

adjectifs ; des éléments peuvent

être absents de l’image », note Shuang Li,

coauteure de l’étude. L’approche proposée

fait alors intervenir plusieurs modèles

de diffusion, chacun prenant en compte

un bout de phrase. Ce qui tend à montrer,

une fois de plus, que si l’IA fait preuve

d’aptitudes époustouflantes, l’humain

reste aux commandes. C’est lui qui maîtrise

le code, le publie ou non, l’améliore,

fait évoluer les modèles, décide des jeux

de données d’entraînement. Si créativité

des machines il y a, elle dépend (encore)

de l’humain.

Arnaud Devillard

@A_Devila

NVIDIA

50 - Sciences et Avenir - La Recherche - Novembre 2022 - N° 909

Previous page

Next page

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39

40

41

42

43

44

45

46

47

48

49

50

51

52

53

54

59

60

61

62

63

64

65

66

67

68

69

70

71

72

73

74

75

76

77

78

79

80

81

82

83

84

85

86

87

88

Sciences et Avenir-L'avant Big-Bang

Create successful ePaper yourself

Delete template?

Save as template?