Google DeepMind stellt mit Gemini Omni Flash ein neues KI-Modell vor, das multimodale Eingaben in Videoausgaben umwandeln kann.

Das Modell ist Teil der neuen Gemini-Omni-Familie und kombiniert laut Unternehmensangaben Fähigkeiten zur Analyse, zum Schlussfolgern und zur kreativen Generierung.

Ziel sei es, verschiedene Eingabeformen wie Text, Bild, Audio und Video in einem gemeinsamen System zu verarbeiten und daraus konsistente Videoinhalte zu erzeugen. Dabei steht insbesondere die Verbindung von inhaltlichem Verständnis und visueller Umsetzung im Mittelpunkt.

Gemini Omni Flash ist bereits in der Gemini App sowie in Google Flow verfügbar. Zusätzlich wird das Modell laut Angaben in Produkte wie YouTube Shorts und YouTube Create integriert.

Für zahlende Nutzer der Tarife AI Plus, Pro und Ultra steht es weltweit bereit, während Entwicklerzugänge über APIs folgen sollen. Erstellte Inhalte werden mit einem unsichtbaren SynthID-Wasserzeichen versehen, um die Herkunft nachvollziehbar zu machen.

Gemini Omni Flash erweitert KI-gestützte Videoproduktion

Multimodale Bearbeitung und kreative Steuerung

Das System ermöglicht laut Google die Bearbeitung von Videos über natürliche Spracheingaben, wobei einzelne Anweisungen aufeinander aufbauen können. Szenen, Objekte und Bewegungen lassen sich verändern, ohne die gesamte Sequenz neu zu erstellen.

Laut Beschreibung bleibt dabei die Konsistenz von Figuren und physikalischen Eigenschaften über mehrere Bearbeitungsschritte hinweg erhalten. Zudem kann das Modell verschiedene Referenzen kombinieren und daraus neue visuelle Ergebnisse erzeugen.

  • Bearbeitung von Videos per Spracheingabe
  • Kombination von Text-, Bild- und Audioeingaben
  • Erzeugung konsistenter Szenen über mehrere Schritte
  • Nutzung von physikalischem und kontextuellem Verständnis
  • Integration kreativer Stil- und Effektanpassungen

Darüber hinaus kann das Modell laut Google komplexe Inhalte wie Erklärvideos oder stilisierte Szenen generieren, indem es Wissen über Physik, Geschichte und Kontext in die Videoproduktion einbezieht. Auch die Anwendung von Stilen, Bewegungen und Effekten soll direkt über Prompts möglich sein, wodurch sich kreative Prozesse stärker automatisieren lassen.

Aus meiner Sicht zeigt die Entwicklung, dass KI-Systeme zunehmend nicht mehr nur einzelne Medienarten verarbeiten, sondern komplette Produktionsketten für audiovisuelle Inhalte abbilden. Dadurch verschiebt sich der Schwerpunkt von reiner Generierung hin zu einem stärker interaktiven und iterativen Gestaltungsprozess.


Fehler meldenKommentare

   

Durch Kommentieren stimmst du unserer Netiquette und Datenschutzerklärung zu.

Du bist hier:
mobiFlip / News / Dienste / Google stellt Gemini Omni Flash für multimodale Videoerstellung vor