Make a Video : générer des vidéos avec un texte

Make a Video : générer des vidéos avec un texte

Tandis que la course aux modèles de générations d’images bat son plein, Meta vient d’introduire le modèle Make-A-Video.

L’un des premiers modèles de génération de vidéos à partir de textes.

Les vidéos générées sont d’une bonne qualité et le modèle de compréhension de texte utilisé fonctionne parfaitement bien.

Comment fonctionne le modèle ?

Le fonctionnement du modèle est décrit dans l’article de recherche publié par Meta.

Les modèles de génération d’images sont entraînés à partir de paires images/textes. Dans l’article il est expliqué qu’adopté une approche similaire serait compliqué pour plusieurs raisons :

  • D’abord, on n’a pas de dataset très fournis contrairement aux images (notamment grâce à Instagram ou alt text dans HTML)
  • De plus, le temps nécéssaire et la capacité de calcul pour entraîner un tel modèle seraient trop élevés

Les chercheurs ont voulus utiliser les modèles de générations d’images, qui fonctionnent déjà très bien, pour construire leur modèle. Ils ont proposé une solution pour passer du texte-to-image (T2I dans l’article) au text-to-video (T2V).

L’astuce réside dans leur modèle non-supervisé qui permet d’animer des objets statiques.

Comment utiliser Make a Video ?

Cette fois pour Make a video, contrairement au précédent modèle, Meta s’inspire d’OpenAI sur l’aspect marketing.

Vous pouvez vous inscrire à la waitlist via ce lien.

Je sais pas combien de temps ils prendront pour accorder ou non l’accès aux personnes sur la waitlist, et rien n’est garanti, je suis resté près d’un an sur la waitlist de DALL-E sans jamais recevoir de nouvelles de la part d’OpenAI.

Quelles pourraient-être les applications de Make a Video ?

Même si les vidéos que le modèle permet de générer sont très courtes, ont pourrait imaginer pleins d’applications.

Pour la publicité

Une des applications les plus naturelles que je vois est dans la création publicitaires. Le format de vidéos s’y prête bien.

Surtout dans l’alimentaire, les images sont souvent similaires et les scènes ne sont pas très élaborées.

Création de contenu

De manière plus général, les modèles comme make a video, pourront être utilisés pour de la création de contenu. On ne compte plus le nombre de compte Instagram qui utilisent DALL-E pour de la création artistique, j’ai hâte de voir ce que ces gens vont faire avec ce nouveau jouet !