Après avoir révolutionné le monde de l'IA textuelle et captivé des millions d'utilisateurs en un temps record avec ChatGPT, OpenAI a continué sur sa lancée en proposant un modèle d'IA capable de traiter des images, appelé « GPT-4 ». Cette évolution a marqué une nouvelle étape dans la concrétisation de leur vision futuriste, allant au-delà de la génération du texte pour englober les domaines visuels. Il y a deux mois, la société a franchi un nouveau cap en dévoilant SORA, son outil de génération de vidéos. Qu'est-ce que cet outil est capable de faire et comment fonctionne-t-il ?
Qu’est-ce que SORA ?
Le modèle d'IA « SORA » est capable de générer des scènes imaginaires à partir d'instructions textuelles et de patchs visuels, tels que des images et des séquences vidéo. Le modèle démontre une aptitude remarquable à interpréter et exécuter des instructions humaines complexes, en générant des scènes détaillées avec plusieurs personnages réalisant des actions spécifiques sur des arrière-plans complexes avec des bonnes résolutions (1080p). Quelques exemples et leurs prompts sont présentés sur le site de la société OpenIA. Les vidéos présentées sont d’une qualité impressionnante, dotées d’animations fluides et présentant peu de défauts.
Comment fonctionne SORA et quels sont ses fondements ?
Au cœur de SORA se trouve un modèle de génération de vidéos basé sur les modèles de diffusion. Ces modèles sont des architectures d'apprentissage profond qui apprennent la distribution sous-jacente des données pour générer de nouvelles images ou vidéos. Cela signifie qu'il est capable de prendre des données visuelles, appelées "patchs", ainsi que des informations textuelles et de prédire des patchs propres sans bruit.
Les fondements de SORA sont les techniques suivantes :
• Transformation de données visuelles en patchs visuels : D'un point de vue global, ce processus consiste à compresser les vidéos dans un espace latent plus bas. Une fois compressée, la représentation est décomposée en "patchs espace-temps", ce qui signifie que les données sont divisées en unités plus petites basées à la fois sur les dimensions spatiales et temporelles. Cette méthode permet une analyse ou une manipulation efficace des vidéos en réduisant leur complexité tout en préservant les informations essentielles.
• La représentation spatiale et temporelle : Les données spatiales désignent les informations capturées dans une représentation visuelle d'un espace ou d'un emplacement. Dans chaque image ou vidéo, divers types de données spatiales peuvent être présents, tels que le nombre de voitures dans la scène, leurs positions, mouvements, couleurs, etc. Les données temporelles, quant à elles, reflètent les informations capturées au fil du temps, comme le mouvement et la position des objets, les changements d'éclairage, l'évolution d'une scène, etc.
• Architecture « transformer de diffusion » dans SORA : SORA utilise une architecture de transformateur de diffusion, une variante de modèle de diffusion qui intègre une architecture de transformateur pour traiter les données d'entrée. Cela permet au modèle de générer des patchs propres à partir de séquences de patchs bruyants en tenant compte de l'ensemble de la séquence, plutôt que de se baser uniquement sur des informations locales. Ainsi, SORA peut générer des images ou des vidéos de haute qualité et réalistes.
Les recherches se poursuivent dans le domaine de l’IA générative dans le but d'améliorer sa capacité à générer des vidéos encore plus réalistes et diversifiées à partir de données textuelles. L'objectif est d'affiner les techniques de compression, de représentation latente et de modélisation des relations spatiales et temporelles, afin de permettre à SORA de produire des vidéos de qualité supérieure dans une variété de scénarios et de contextes.
En parallèle des avancées techniques, OpenIA devrait également prendre en compte des problématiques cruciales liées à l'éthique, à la propriété intellectuelle, à l'authenticité du contenu généré, ainsi qu'à son impact sur la société. L'élaboration de mécanismes de gouvernance et de normes éthiques solides sera indispensable pour garantir que le potentiel de SORA et d'outils similaires soit utilisé de manière responsable, dans l'intérêt de la société dans son ensemble.