Microsoft AI dessine des objets à partir de descriptions de texte

Selon un article académique publié par des chercheurs de Microsoft, le nouveau logiciel d'intelligence artificielle développé par Microsoft est capable de «tirer» essentiellement n'importe quoi des descriptions textuelles. Par exemple, si un utilisateur demande à l'ordinateur de "dessiner un oiseau jaune avec des ailes noires et un petit bec", le résultat sera celui que vous voyez dans l'image.

Ces oiseaux peuvent ne pas exister dans le monde réel, ils ne sont qu'un aspect de l'imagination des oiseaux de notre ordinateur

«Si vous lancez la recherche d'oiseaux Bing, vous verrez des photos d'oiseaux. Mais ici, les photos sont créées par l'ordinateur, pixel par pixel, à partir de zéro », a déclaré Xiaodong He, directeur de la recherche chez Microsoft, dans une publication officielle de Microsoft. "Ces oiseaux n'existent peut-être pas dans le monde réel, ils ne sont qu'un aspect de l'imagination des oiseaux de notre ordinateur", a-t-il ajouté.

Il précise en outre que les résultats actuels apportés par l'ordinateur ne sont pas parfaits, mais ils peuvent se rapprocher. L'idée est qu'un tel logiciel intelligent pourrait éventuellement servir d'assistant à la conception pour des artistes ou même des architectes d'intérieur.

Microsoft

À l'avenir, un tel professionnel pourrait prendre une photo de son environnement domestique, puis demander un ordinateur: "Ajoutez un fauteuil en bois capitonné de style moderniste gris dans le coin gauche." L'ordinateur pourrait non seulement aider à configurer l'environnement, mais également à créer des meubles et d'autres éléments.

Processus

Les premières recherches de l'équipe travaillant sur ce projet chez Microsoft ont débuté par l'expérimentation de CaptionBot, un système d'intelligence artificielle capable d'écrire des légendes descriptives pour n'importe quelle photo. Ils ont ensuite créé un autre logiciel d'IA capable de répondre aux questions des gens sur une photo, SeenAI, qui peut être particulièrement utile pour les malvoyants.

Enfin, le groupe a pu développer une technologie capable de générer ces dessins à partir de descriptions textuelles. La première partie s'appelle le réseau génératif d'adversaire (GAN), conçu pour générer des images, et la seconde partie est appelée "discriminateur", qui évalue la qualité des photos.

L'attention est un concept humain; nous utilisons les maths pour faire de l'attention un concept informatique

Ce système a été formé avec des paires d’images avec des légendes afin que le logiciel puisse comprendre quels mots correspondent à quelles images. Plus tard, il a fallu créer un modèle mathématique pour se concentrer sur la création développée par le système. «L’attention est un concept humain; nous utilisons les mathématiques pour faire de l'attention un concept informatique », a déclaré He.

Le chercheur pense qu’il sera éventuellement possible de créer des films d’animation à partir de scripts écrits à l’aide de systèmes tels que celui-ci, mais nous n’avons aucune prédiction quant à la possibilité d’appliquer commercialement un tel produit à un produit Microsoft.

Microsoft AI «dessine» des objets à partir de descriptions de texte via TecMundo