Le nouveau modèle Z-Image fonctionne avec 6 Go de VRAM—le matériel Flux2 ne peut même pas y toucher.
Z-Image dispose déjà de plus de 200 ressources communautaires et de plus d'un millier d'avis positifs contre 157 avis pour Flux2.
Il est classé comme le meilleur modèle open-source à ce jour.
Hub d'Art, de Mode et de Divertissement de Decrypt.
Découvrez SCENE
Le Z-Image Turbo de Tongyi Lab d'Alibaba, un modèle de génération d'images de 6 milliards de paramètres, a été lancé la semaine dernière avec une simple promesse : une qualité de pointe sur du matériel que vous possédez réellement.
Cette promesse atterrit durement. Quelques jours après sa sortie, les développeurs avaient commencé à produire des LoRAs — des adaptations personnalisées et affinées — à un rythme qui dépasse déjà celui de Flux2, le successeur très médiatisé de Black Forest Labs au modèle Flux, qui a connu un immense succès.
Le tour de force de Z-Image est l'efficacité. Alors que des concurrents comme Flux2 nécessitent un minimum de 24 Go de VRAM ( et jusqu'à 90 Go pour le modèle complet ), Z-Image fonctionne sur des configurations quantifiées avec aussi peu que 6 Go.
C'est le territoire de la RTX 2060—essentiellement du matériel de 2019. En fonction de la résolution, les utilisateurs peuvent générer des images en aussi peu que 30 secondes.
Pour les amateurs et les créateurs indépendants, c'est une porte qui était auparavant verrouillée.
La communauté artistique de l'IA a rapidement loué le modèle.
“C'est ce que SD3 était censé être,” a écrit l'utilisateur Saruhey sur CivitAI, le plus grand dépôt au monde d'outils d'art AI open source. “L'adhérence au prompt est plutôt exquise… un modèle qui peut traiter le texte immédiatement est révolutionnaire. Cette chose a la même puissance, sinon meilleure, que Flux, qui est de la magie noire à elle seule. Les Chinois sont bien en avance dans le jeu de l'IA.”
Z-Image Turbo est disponible sur Civitai depuis jeudi dernier et a déjà reçu plus de 1 200 avis positifs. Pour donner un contexte, Flux2—publié quelques jours avant Z-Image—a 157.
Le modèle est entièrement non censuré depuis le début. Célébrités, personnages fictifs, et oui, le contenu explicite sont tous en jeu.
À ce jour, il y a environ 200 ressources (finetunes, LoRAs, workflows) pour le modèle uniquement sur Civitai, dont beaucoup sont NSFW.
Sur Reddit, l'utilisateur Regular-Forever5876 a testé les limites du modèle avec des invites gore et est resté stupéfait : “Merde !!! Ce truc comprend le gore AF ! Il le génère parfaitement,” ont-ils écrit.
Le secret technique derrière Z-Image Turbo est son architecture S3-DiT—un transformateur à flux unique qui traite les données textuelles et d'image ensemble dès le début, plutôt que de les fusionner plus tard. Cette intégration étroite, combinée à des techniques de distillation agressives, permet au modèle de répondre à des normes de qualité qui nécessitent généralement des modèles cinq fois plus grands.
Tester le modèle
Nous avons soumis Z-Image Turbo à des tests approfondis sur plusieurs dimensions. Voici ce que nous avons trouvé.
Vitesse : SDXL Tempo, Qualité de Nouvelle Génération
À neuf étapes, Z-Image Turbo génère des images à peu près à la même vitesse que SDXL, avec les 30 étapes habituelles—un modèle qui a été lancé en 2023.
La différence est que la qualité de sortie de Z-Image égale ou dépasse celle de Flux. Sur un ordinateur portable avec un GPU RTX 2060 avec 6 Go de VRAM, une image a pris 34 secondes.
Flux2, en comparaison, prend environ dix fois plus de temps pour générer une image comparable.
Réalité : La nouvelle référence
Z-Image Turbo est le modèle open-source le plus photoréaliste disponible actuellement pour le matériel grand public. Il surpasse complètement Flux2, et le modèle de base distillé surpasse les ajustements de réalisme dédiés de Flux.
La texture de la peau et des cheveux semble détaillée et naturelle. Le fameux “menton Flux” et la “peau en plastique” ont presque disparu. Les proportions du corps sont constamment solides, et les LoRAs qui améliorent encore plus le réalisme circulent déjà.
Génération de texte : Enfin, des mots qui fonctionnent
C'est ici que Z-Image brille vraiment. C'est le meilleur modèle open-source pour la génération de texte dans les images, se comportant au même niveau que le Nanobanana et Seedream de Google—des modèles qui établissent la norme actuelle.
Pour les locuteurs mandarin, Z-Image est le choix évident. Il comprend le chinois de manière native et rend les caractères correctement.
Conseil pro : Certains utilisateurs ont rapporté que le fait de donner des instructions en mandarin aide en fait le modèle à produire de meilleurs résultats, et les développeurs ont même publié un “améliorateur de prompt” en mandarin.
Le texte anglais est tout aussi solide, avec une exception : des mots longs peu courants comme “décentralisé” peuvent le faire trébucher — une limitation partagée par Nanobanana aussi.
Conscience spatiale et respect des délais : Exceptionnel
L'adhérence aux invites de Z-Image est exceptionnelle. Il comprend le style, les relations spatiales, les positions et les proportions avec une précision remarquable.
Par exemple, prenez cette invite :
Un chien avec un chapeau rouge se tenant sur le dessus d'une télévision affichant les mots “Decrypt 是世界上最好的加密货币与人工智能媒体网站” sur l'écran. À gauche, il y a une femme blonde en costume d'affaires tenant une pièce; à droite, il y a un robot se tenant sur une boîte de premiers secours, et une pyramide verte se trouve derrière la boîte. Le paysage global est surréaliste. Un chat se tient à l'envers sur un ballon de soccer blanc, à côté du chien. Un astronaute de la NASA tient un panneau sur lequel est écrit “Emerge” et est placé à côté du robot.
Comme il est évident, il n'y avait qu'une seule faute de frappe, probablement à cause du mélange des langues, mais à part cela, tous les éléments sont représentés avec précision.
Le saignement de l'invite est minimal, et les scènes complexes avec plusieurs sujets restent cohérentes. Cela dépasse Flux sur ce critère et se défend face à Nanobanana.
Qu'est-ce qui vient ensuite ?
Alibaba prévoit de lancer deux autres variantes : Z-Image-Base pour le réglage fin, et Z-Image-Edit pour les modifications basées sur des instructions. S'ils arrivent avec le même poli que Turbo, le paysage open-source est sur le point de changer de manière spectaculaire.
Pour l'instant, le verdict de la communauté est clair : Z-Image a pris la couronne de Flux, tout comme Flux a autrefois détrôné Stable Diffusion.
Le véritable gagnant sera celui qui attirera le plus de développeurs pour construire dessus.
Mais si vous nous demandiez, ouais, Z-Image est notre modèle open source orienté maison préféré en ce moment.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
L'image Z de la Chine détrône Flux en tant que roi de l'art IA—et votre PC de pomme de terre peut le faire fonctionner
En bref
Hub d'Art, de Mode et de Divertissement de Decrypt.
Découvrez SCENE
Le Z-Image Turbo de Tongyi Lab d'Alibaba, un modèle de génération d'images de 6 milliards de paramètres, a été lancé la semaine dernière avec une simple promesse : une qualité de pointe sur du matériel que vous possédez réellement.
Cette promesse atterrit durement. Quelques jours après sa sortie, les développeurs avaient commencé à produire des LoRAs — des adaptations personnalisées et affinées — à un rythme qui dépasse déjà celui de Flux2, le successeur très médiatisé de Black Forest Labs au modèle Flux, qui a connu un immense succès.
Le tour de force de Z-Image est l'efficacité. Alors que des concurrents comme Flux2 nécessitent un minimum de 24 Go de VRAM ( et jusqu'à 90 Go pour le modèle complet ), Z-Image fonctionne sur des configurations quantifiées avec aussi peu que 6 Go.
C'est le territoire de la RTX 2060—essentiellement du matériel de 2019. En fonction de la résolution, les utilisateurs peuvent générer des images en aussi peu que 30 secondes.
Pour les amateurs et les créateurs indépendants, c'est une porte qui était auparavant verrouillée.
La communauté artistique de l'IA a rapidement loué le modèle.
“C'est ce que SD3 était censé être,” a écrit l'utilisateur Saruhey sur CivitAI, le plus grand dépôt au monde d'outils d'art AI open source. “L'adhérence au prompt est plutôt exquise… un modèle qui peut traiter le texte immédiatement est révolutionnaire. Cette chose a la même puissance, sinon meilleure, que Flux, qui est de la magie noire à elle seule. Les Chinois sont bien en avance dans le jeu de l'IA.”
Z-Image Turbo est disponible sur Civitai depuis jeudi dernier et a déjà reçu plus de 1 200 avis positifs. Pour donner un contexte, Flux2—publié quelques jours avant Z-Image—a 157.
Le modèle est entièrement non censuré depuis le début. Célébrités, personnages fictifs, et oui, le contenu explicite sont tous en jeu.
À ce jour, il y a environ 200 ressources (finetunes, LoRAs, workflows) pour le modèle uniquement sur Civitai, dont beaucoup sont NSFW.
Sur Reddit, l'utilisateur Regular-Forever5876 a testé les limites du modèle avec des invites gore et est resté stupéfait : “Merde !!! Ce truc comprend le gore AF ! Il le génère parfaitement,” ont-ils écrit.
Le secret technique derrière Z-Image Turbo est son architecture S3-DiT—un transformateur à flux unique qui traite les données textuelles et d'image ensemble dès le début, plutôt que de les fusionner plus tard. Cette intégration étroite, combinée à des techniques de distillation agressives, permet au modèle de répondre à des normes de qualité qui nécessitent généralement des modèles cinq fois plus grands.
Tester le modèle
Nous avons soumis Z-Image Turbo à des tests approfondis sur plusieurs dimensions. Voici ce que nous avons trouvé.
Vitesse : SDXL Tempo, Qualité de Nouvelle Génération
À neuf étapes, Z-Image Turbo génère des images à peu près à la même vitesse que SDXL, avec les 30 étapes habituelles—un modèle qui a été lancé en 2023.
La différence est que la qualité de sortie de Z-Image égale ou dépasse celle de Flux. Sur un ordinateur portable avec un GPU RTX 2060 avec 6 Go de VRAM, une image a pris 34 secondes.
Flux2, en comparaison, prend environ dix fois plus de temps pour générer une image comparable.
Réalité : La nouvelle référence
Z-Image Turbo est le modèle open-source le plus photoréaliste disponible actuellement pour le matériel grand public. Il surpasse complètement Flux2, et le modèle de base distillé surpasse les ajustements de réalisme dédiés de Flux.
La texture de la peau et des cheveux semble détaillée et naturelle. Le fameux “menton Flux” et la “peau en plastique” ont presque disparu. Les proportions du corps sont constamment solides, et les LoRAs qui améliorent encore plus le réalisme circulent déjà.
Génération de texte : Enfin, des mots qui fonctionnent
C'est ici que Z-Image brille vraiment. C'est le meilleur modèle open-source pour la génération de texte dans les images, se comportant au même niveau que le Nanobanana et Seedream de Google—des modèles qui établissent la norme actuelle.
Pour les locuteurs mandarin, Z-Image est le choix évident. Il comprend le chinois de manière native et rend les caractères correctement.
Conseil pro : Certains utilisateurs ont rapporté que le fait de donner des instructions en mandarin aide en fait le modèle à produire de meilleurs résultats, et les développeurs ont même publié un “améliorateur de prompt” en mandarin.
Le texte anglais est tout aussi solide, avec une exception : des mots longs peu courants comme “décentralisé” peuvent le faire trébucher — une limitation partagée par Nanobanana aussi.
Conscience spatiale et respect des délais : Exceptionnel
L'adhérence aux invites de Z-Image est exceptionnelle. Il comprend le style, les relations spatiales, les positions et les proportions avec une précision remarquable.
Par exemple, prenez cette invite :
Un chien avec un chapeau rouge se tenant sur le dessus d'une télévision affichant les mots “Decrypt 是世界上最好的加密货币与人工智能媒体网站” sur l'écran. À gauche, il y a une femme blonde en costume d'affaires tenant une pièce; à droite, il y a un robot se tenant sur une boîte de premiers secours, et une pyramide verte se trouve derrière la boîte. Le paysage global est surréaliste. Un chat se tient à l'envers sur un ballon de soccer blanc, à côté du chien. Un astronaute de la NASA tient un panneau sur lequel est écrit “Emerge” et est placé à côté du robot.
Comme il est évident, il n'y avait qu'une seule faute de frappe, probablement à cause du mélange des langues, mais à part cela, tous les éléments sont représentés avec précision.
Le saignement de l'invite est minimal, et les scènes complexes avec plusieurs sujets restent cohérentes. Cela dépasse Flux sur ce critère et se défend face à Nanobanana.
Qu'est-ce qui vient ensuite ?
Alibaba prévoit de lancer deux autres variantes : Z-Image-Base pour le réglage fin, et Z-Image-Edit pour les modifications basées sur des instructions. S'ils arrivent avec le même poli que Turbo, le paysage open-source est sur le point de changer de manière spectaculaire.
Pour l'instant, le verdict de la communauté est clair : Z-Image a pris la couronne de Flux, tout comme Flux a autrefois détrôné Stable Diffusion.
Le véritable gagnant sera celui qui attirera le plus de développeurs pour construire dessus.
Mais si vous nous demandiez, ouais, Z-Image est notre modèle open source orienté maison préféré en ce moment.