Gemini přináší video analýzu – naše zkušenosti s novou funkcí AI

Gemini nyní umí analyzovat videa až 5 minut, rozpoznávat objekty a odpovídat na detaily.

V poslední aktualizaci aplikace Google Gemini získala schopnost nahrávání videa až do délky pěti minut, kterou můžete připojit k dotazu. Hned první test jsme provedli se záznamem erupce vulkánu Kīlauea. Gemini dokázala správně identifikovat místo i dění na snímku, což nás nadchlo a ukázalo potenciál multimodální AI.

Nicméně v dalších pokusech jsme narazili i na omezení. Při analýze rychle se pohybujících scén, jako jsou vlny na moři nebo divoká zvířata, si AI občas spletla objekty a jejich činnosti. V jednoho testu se u záznamu vaření snažila rozpoznat suroviny podle barev a stínů, ale některé ingredience označila nesprávně. Přesto ale zvládla vysvětlit klíčové momenty videa a poskytla podrobné odpovědi na následné dotazy.

Výhody nové funkce:

  • Analýza objektů a prostředí v nahraném videu
  • Možnost klást dodatečné otázky k libovolné části záznamu
  • Integrované přehrávání videa přímo v chatovacím rozhraní

Nevýhody a omezení:

  • Nelze nahrávat video přímo z kamery v aplikaci, jen předem pořízené klipy
  • Maximální délka videa je 5 minut, delší záznamy je třeba nahrát na YouTube jako neveřejné
  • Na webové verzi funkce zatím není dostupná

Celkově je Google Gemini s video analýzou krok správným směrem k bohatšímu, multimodálnímu zážitku. Funkce je pro uživatele zdarma i součástí placených tarifů, ale stále se může zdokonalit v přesnosti u složitějších scén.