Quando o Google lançou o Gemini há três anos, o objetivo era construir um grande modelo de linguagem multimodal — uma rede neural treinada em texto, imagem, áudio e vídeo capaz de gerar conteúdo em qualquer um desses formatos. Hoje, na conferência de desenvolvedores Google I/O, a empresa deu um passo concreto em direção a essa meta com o Gemini Omni, uma nova família de modelos multimodais que, segundo o CEO Sundar Pichai, será capaz de “criar qualquer coisa a partir de qualquer entrada”.
O Omni começará com vídeo. Os usuários agora podem combinar imagens, áudio, vídeo e texto, e, em vez de simplesmente unir essas entradas, o modelo raciocina sobre todas elas para produzir uma saída consistente. O resultado são vídeos de alta qualidade que refletem compreensão de física, cultura, história e ciência. O Omni também permite editar fotos com comandos em texto simples, sem necessidade de softwares complexos, similar ao Google Nano Banana.
O Google já possui um modelo de vídeo dedicado, o Veo, que permite transformar texto e imagens em vídeos, além de dirigir e personalizar avatares. Mas Nicole Brichtova, diretora de gerenciamento de produtos do Google DeepMind, afirma que o lançamento de hoje é mais do que uma atualização do Veo: “É o próximo passo em direção à progressão de combinar a inteligência do Gemini com as capacidades de renderização de nossos modelos de mídia.” Um exemplo dado por Koray Kavukcuoglu, tecnólogo-chefe do DeepMind, durante uma coletiva na segunda-feira: quando o Omni recebeu um prompt simples como “um vídeo em claymation explicando o dobramento de proteínas”, ele renderizou rapidamente um vídeo em stop-motion com narração dizendo: “As proteínas começam como cadeias de aminoácidos. Elas se dobram em padrões como a hélice alfa e seções planas chamadas folhas beta, formando uma forma tridimensional perfeita.”
A visão de longo prazo para o Omni é mais ampla, incluindo o uso do modelo para gerar imagens a partir de áudio, ou áudio a partir de vídeo, ampliando as fronteiras da criação de conteúdo multimodal.

