Home » OpenAI se lance dans la création de vidéos à partir de texte avec Sora, défiant Meta, MidJourney et Pika Labs

OpenAI se lance dans la création de vidéos à partir de texte avec Sora, défiant Meta, MidJourney et Pika Labs

by v

OpenAI a dévoilé aujourd’hui Sora, un nouveau modèle d’intelligence artificielle capable de prendre des instructions textuelles et de créer des vidéos longues et captivantes. Enfin, des vidéos d’une minute.

Il s’agit actuellement d’une version bêta fermée qui n’est accessible qu’aux développeurs invités, et qui représente une entrée quelque peu tardive de la part du leader mondial de l’IA. La conversion de texte en vidéo n’est pas vraiment un terrain inconnu. Des sociétés telles que RunwayML et Pika Labs sont dans le jeu depuis un certain temps et dominent actuellement la scène avec des modèles capables de créer des visuels époustouflants en quelques secondes.

Mais il y a toujours un hic : ces vidéos ont tendance à être courtes, l’histoire perdant de son intérêt et de sa cohérence au fur et à mesure qu’elles se prolongent.

Avec Sora, OpenAI vise à atteindre la cohérence, en générant des vidéos très détaillées, d’une durée d’une minute, qui peuvent s’enchaîner et évoluer de manière transparente. L’objectif n’est pas simple, car les modèles d’IA improvisent chaque image à partir de zéro. Un minuscule défaut dans une seule image peut faire boule de neige et provoquer une cascade d’hallucinations et d’images irréalistes.

OpenAI semble toutefois avoir fait des progrès, Sora présentant des images fluides et captivantes qui n’ont jusqu’à présent pas été égalées par les acteurs actuels du secteur. Des exemples de vidéos ont été mis en ligne par OpenAI, et certains ont été republiés officieusement sur YouTube.

OpenAI est en concurrence avec d’autres entreprises d’IA qui testent également les eaux de la vidéo générative. Le populaire générateur de texte à image Midjourney a récemment annoncé qu’il travaillait sur un générateur de texte à vidéo, mais n’a pas donné de date de sortie. Stability AI a également fait parler de lui avec Stable Video Diffusion, un logiciel libre capable de générer des vidéos de 25 images à une résolution de 576×1024.

Même Meta présente son générateur de vidéos EMU, dans le cadre de son effort pour intégrer l’IA dans les médias sociaux et le métavers.

Sora, dont la diffusion est pour l’instant limitée, OpenAI donnant accès à des « artistes visuels, des concepteurs et des cinéastes » pour recueillir leurs commentaires, se distingue par la manière dont il comprend le langage. Il génère des images vibrantes et très détaillées tout en interprétant les nuances des messages écrits. Besoin d’un mouvement de caméra spécifique ? De multiples personnages aux émotions réalistes ? Aucun problème.

Sora génère même des transitions transparentes entre les différents plans d’une même vidéo, imitant ainsi ce que certains outils d’édition vidéo font déjà aujourd’hui. Voici une autre vidéo de passionnés publiée aujourd’hui sur YouTube:

Même si la créativité alimentée par l’IA s’accompagne de bizarreries. Sora n’est pas encore un maître du cinéma. En d’autres termes, il peut y avoir des problèmes avec la physique ou des relations complexes de cause à effet, et bien qu’il soit déjà l’un des générateurs de vidéos les plus cohérents, il n’atteint pas des niveaux de fidélité absolue, de sorte qu’il faut s’attendre à des hallucinations.

En outre, Sora, qui vient d’OpenAI, sera sans aucun doute un modèle fortement censuré. L’entreprise a souligné qu’elle mettait l’accent sur les tests de sécurité et les outils de détection pour repérer les contenus potentiellement dangereux et trompeurs. OpenAI travaille avec son équipe rouge pour peaufiner son modèle et espère que sa stratégie de diffusion précoce conduira à une collaboration dans la construction d’une IA de plus en plus sûre dans les années à venir.

Aucune date de publication n’a été annoncée pour la mise en œuvre de Sora à plus grande échelle.

Related Posts

Leave a Comment