Baptisé sobrement Imagen 3, le nouvel outil de génération d’images de Google vient d’être accessible à l’ensemble des utilisateurs. Pourrait-il surpasser DALL-E, Midjourney ou Firefly ?
Google repousse les limites de l’IA : Midjourney menacé ?
Annoncée pour fin août, la toute nouvelle version d’Imagen promet de nombreuses fonctionnalités aux utilisateurs (avec quelques limitations concernant la génération de personnages). Que propose donc l’entreprise californienne en matière d’illustration ?
Imagen 3 : une génération toujours plus précise
C’est par le biais d’un post sur X que Google a annoncé le déploiement public de son logiciel de génération d’images. Imagen 3 promet une qualité d’image exceptionnelle avec des détails plus nets, des couleurs plus vives et moins d’imperfections. La génération de photos réalistes est enrichie de détails qui mettent en valeur vos images.
Image generation with Imagen 3 is now available to all Gemini users around the world.
Imagen 3 is our highest quality image generation model yet and brings an even higher degree of photorealism, better instruction following, and fewer distracting artifacts than ever before. pic.twitter.com/E8CrcyFcz5
— Google Gemini App (@GeminiApp) October 9, 2024
Il est également possible de jouer avec les styles et d’adapter la génération d’images à votre convenance. Si le modèle Gemini n’arrive pas à produire le résultat souhaité, l'utilisateur pourra évidemment retravailler son prompt pour soumettre une nouvelle requête à l’intelligence artificielle de Google. Imagen 3 comprend le langage courant, ce qui simplifie le processus pour obtenir le rendu recherché.
Grâce aux améliorations apportées lors de l’entraînement des données, l’outil est capable de saisir des concepts complexes comme des angles de caméra spécifiques ou des compositions détaillées pour offrir un résultat plus riche et précis, avec une large gamme de styles et de sujets.
Il est important de rappeler que, comme d'autres outils de génération d'images, Imagen 3 a du mal avec certains principes de proportion (par exemple, une maison de la même taille qu'un chat) ou d'actions (par exemple, une personne lançant un ballon).
Un outil polyvalent, mais…
Bien qu’Imagen 3 soit à présent accessible à tous, la génération de personnages reste réservée aux utilisateurs disposant d’un compte Gemini Advanced ou Enterprise.
Pour garantir une certaine éthique dans la génération de résultats, l'outil intègre la technologie SynthID, qui appose un filigrane directement dans les pixels de l’image, permettant ainsi de différencier plus facilement une image générée par l’IA d'une image réelle.
D’ailleurs, OpenAI utilise également une technologie similaire pour tracer l'origine des images et améliorer leur traçabilité. Avec l’actuel problème auquel Google fait face, où 90 % des résultats de recherche d'images sont générés par IA, les utilisateurs pourront désormais distinguer plus facilement le vrai et le faux.