Découvrez les nouvelles fonctionnalités d’édition d’images de l’application Gemini, désormais disponibles au sein de l’outil. Grâce à Gemini 2.0 Flash, modifiez vos images tout en conservant l’intégrité de la création initiale. Transformez les arrière-plans et ajoutez des éléments en toute simplicité, le tout via des commandes en langage naturel.
L’application Gemini déploie largement l’édition d’images
Disponibilité accrue de l’édition d’images
Récemment annoncée, l’édition d’images native dans l’application Gemini est maintenant plus largement accessible. Auparavant, lorsque l’utilisateur demandait une modification d’une image générée par Gemini, une nouvelle image était créée. Cette méthode entraînait des changements radicaux, ce qui pouvait être frustrant pour ceux qui souhaitaient apporter des ajustements mineurs.
Amélioration des fonctionnalités d’édition
L’édition d’images native permet désormais de maintenir l’image de base tout en apportant des modifications spécifiques à l’aide de commandes en langage naturel. Cela fonctionne avec des images générées ainsi qu’avec celles que vous téléchargez directement sur Gemini. Grâce à des invites textuelles, vous pouvez modifier les arrière-plans et les styles, remplacer des objets et ajouter des éléments, y compris du texte.
Exemple de la nouvelle fonctionnalité
Prenons un exemple pour illustrer ces changements. L’image secondée est identique (avec le même chien, les arbres en arrière-plan, le ciel, etc.) à la première, à l’exception de l’herbe bleue. Cette capacité à modifier des éléments spécifiques sans changer l’ensemble de l’image constitue un véritable pas en avant dans l’édition d’images par intelligence artificielle.
Intégration de filigranes visuels
Un autre détail intéressant est l’introduction d’un filigrane “ai” visuel dans le coin inférieur droit des images générées. Google teste cette fonctionnalité, accompagnée d’un filigrane numérique invisible appelé SynthID.
Téléchargement de photos personnelles
Google affirme également que vous pouvez télécharger une photo personnelle et demander à Gemini de générer une image pour voir à quoi vous ressembleriez avec différentes couleurs de cheveux. Cela ouvre une nouvelle dimension à l’édition d’images, offrant la possibilité d’interagir de manière personnalisée avec des photos.
Édition multi-étapes
Cette édition multi-étapes, qui préserve le contexte tout au long de la conversation, permet d’utiliser des "invites intégrant du texte et des images". Par exemple, vous pouvez fournir des instructions étape par étape accompagnées d’images, ou créer un préambule d’une histoire pour enfants sur des dragons, tout en fournissant des illustrations.
Technologie sous-jacente
Cette fonctionnalité est alimentée par Gemini 2.0 Flash, mais vous pouvez invoquer cet outil dans n’importe quel modèle. À l’heure actuelle, l’édition d’images dans l’application Gemini est plus largement disponible aux États-Unis sur plusieurs comptes gratuits et avancés.
Améliorations pour les développeurs
Pour les développeurs, Google a annoncé que Gemini 2.0 Flash Image Generation et l’édition sont actuellement en aperçu pour les développeurs. L’API Gemini est disponible dans Google AI Studio et Vertex AI. Par rapport aux tests de mars, Google met en avant des améliorations telles que :
- Meilleure qualité visuelle par rapport à la version expérimentale.
- Rendu textuel plus précis par rapport à la version expérimentale.
- Taux de blocage des filtres considérablement réduits par rapport à la version expérimentale.
Ces avancées établissent Gemini non seulement comme un outil d’édition d’images innovant pour les utilisateurs, mais aussi comme une plateforme prometteuse pour les développeurs cherchant à explorer de nouvelles fonctionnalités d’intelligence artificielle.
Mon avis :
La mise à jour de l’application Gemini permet un meilleur contrôle sur l’édition d’images via des prompts en langage naturel. Bien que ce système optimise la flexibilité et la créativité, on note des limitations dans la précision des modifications et une qualité variable des images générées. Cette avancée souligne l’importance de l’AI tout en posant des questions sur les implications éthiques de son utilisation.
Les questions fréquentes
Qu’est-ce que l’édition d’image native dans l’application Gemini ?
L’édition d’image native dans l’application Gemini permet aux utilisateurs de modifier des images générées ou téléchargées en utilisant des invites en langage naturel. Cela signifie que vous pouvez changer des éléments tels que l’arrière-plan, les styles et ajouter des objets ou du texte tout en préservant l’image de base.
Comment fonctionne le processus d’édition des images ?
Au lieu de créer une nouvelle image lorsque vous demandez une modification, l’édition native conserve l’image d’origine et applique des changements spécifiques. Par exemple, vous pouvez demander à changer la couleur de l’herbe tout en gardant les autres éléments identiques.
Quel est le symbole "ai" sur les images générées ?
Les images générées par l’application Gemini comportent désormais un filigrane visuel "ai" dans le coin inférieur droit. Ce test vise à identifier les images créées par l’intelligence artificielle, en plus d’un filigrane numérique invisible appelé SynthID.
Quelles améliorations ont été apportées à la génération d’images avec Gemini 2.0 Flash ?
Avec Gemini 2.0 Flash, Google a amélioré la qualité visuelle, la précision du rendu du texte et a considérablement réduit les taux de blocage par filtre par rapport à la version expérimentale précédente. Ces améliorations sont disponibles pour les développeurs via l’API Gemini dans Google AI Studio et Vertex AI.