新一輪生成AI技術(shù)更新。
多知12月18日消息,谷歌公告稱,發(fā)布了視頻生成模型 Veo 2,官方聲稱新模型可以更好地理解現(xiàn)實(shí)世界物理、人類運(yùn)動(dòng)及表達(dá)的細(xì)微差別,進(jìn)一步提升整體細(xì)節(jié)和逼真度。
谷歌 Veo 2 模型可以生成分辨率最高 4K(4096 x 2160 像素),時(shí)長(zhǎng)為 2 分鐘的視頻片段,分辨率是 OpenAI 的 Sora 模型的 4 倍,時(shí)長(zhǎng)是Sora 的 6 倍。
不過目前在 Google 的實(shí)驗(yàn)性視頻創(chuàng)建工具 VideoFX 中,Veo 2 模型分辨率上限為 720p,長(zhǎng)度為 8 秒。
DeepMind 產(chǎn)品副總裁 Eli Collins 表示:" 在接下來的幾個(gè)月里,我們將根據(jù)用戶的反饋繼續(xù)進(jìn)行迭代。"
與 Veo 一樣,Veo 2 可以在給定文本提示或文本和參考圖像的情況下生成視頻,還可以更真實(shí)地模擬運(yùn)動(dòng)、流體動(dòng)力學(xué)和光的屬性。據(jù) DeepMind 稱,這包括不同的鏡頭和電影效果。
谷歌表示,雖然視頻生成模型往往會(huì)生成不需要的細(xì)節(jié),例如多余的手指或物體等,但Veo 2在這一方面的表現(xiàn)更為真實(shí),生成錯(cuò)誤的頻率較低。
Deepmind 表示,為了降低 Deepfake 的風(fēng)險(xiǎn),利用專有的水印技術(shù) SynthID,它將隱形標(biāo)記嵌入到 Veo 2 生成的幀中。
谷歌還改進(jìn)了Imagen 3圖像生成模型,現(xiàn)在該模型可以生成更明亮、構(gòu)圖更好的圖像。它現(xiàn)在可以更準(zhǔn)確地渲染更多不同的藝術(shù)風(fēng)格——從照片寫實(shí)主義到印象派,從抽象到動(dòng)漫。此次升級(jí)還可以更忠實(shí)地遵循提示,并渲染更豐富的細(xì)節(jié)和紋理。
( Imagen 3生成的圖像 )
最新的 Imagen 3 模型將在全球 100 多個(gè)國家/地區(qū)推出。
此外,谷歌還推出了Whisk,這是一款結(jié)合了Imagen 3和Gemini視覺分析能力的創(chuàng)意工具。允許用戶輸入或創(chuàng)建能夠表達(dá)您心中主題、場(chǎng)景和風(fēng)格的圖像。然后,您可以將它們組合在一起并重新混合,以創(chuàng)建屬于用戶自己的獨(dú)特物品,從數(shù)字毛絨玩具到琺瑯別針或貼紙。