Naujai atidengtas „Google“ „VEO 3“ modelis rimtai iš naujo apibrėžia, ką gali padaryti AI sukurtas vaizdo įrašas. Paskelbta „Google I/O 2025“, „VEO 3“ gamina vaizdo įrašus tokius realistiškus, kad dauguma žiūrovų stengiasi jiems pasakyti, išskyrus tiesioginio veiksmo filmuotą medžiagą.
„VEO 3“ pristatė galimybes, pavyzdžiui, vietinę garso generavimą ir kino vaizdą, žymiai sumažina profesionalaus lygio vaizdo įrašų kūrimo kliūtį.
„Silent eros“ sulaužymas su integruotu garso įrašu
Pirmą kartą AI vaizdo generatorius pateikiamas su savo garso peizažu. „Veo 3“ sukuria garso efektus, aplinkos triukšmą ir netgi charakterio dialogą, kad pridėtų kiekvieną sceną, visa tai sinchronizuodami su veiksmu. „Google DeepMind“ generalinis direktorius Demis Hasabis jį įrėmino kaip “Atsiranda iš tylios vaizdo įrašų kartos eros “, kur kūrėjai gali paskatinti„ Veo 3 “ne tik su scenos aprašymu, bet ir kaip ji turėtų skambėti.
Po gaubtu modelis analizuoja savo sugeneruotus rėmus ir automatiškai sinchronizuoja tinkamą garso įrašą, kad pėdsakai, durys, durys ar simboliai tiksliai kalba, kada ir kaip jie turėtų. Ši įmontuota garso galimybė yra žaidimų keitiklis-ankstesni generatyviniai modeliai sukūrė nutildytą filmuotą medžiagą, todėl vartotojai gali rankiniu būdu pridėti garsą. Priešingai, „Veo 3“ gali išspjauti visą vaizdo klipą su „Rich Audio“, efektyviai tvarkydamas videografo ir garso dizainerio vaidmenis vienu metu.
Pridėjus realų garsą, kūrėjams labai padidėja panardinimas ir naudingumas. Dialogo generavimas yra ypač ryškus – duokite „Veo 3“ scenarijų arba leiskite jam sugalvoti personažo kalbą, ir ji pateiks balsus, suderintus su vaizdais, lūpos, judančios tobulai sinchroniškai. Fono triukšmas ir muzika taip pat patenka, nesvarbu, ar tai paukščiai čirškia parko scenoje, ar dramatiškas orkestro balo patinimas kulminacijoje.
„Google“ sako, kad „Veo 3“ buvo išmokytas sklandžiai maišyti šiuos elementus, informuotus atliekant „Deepmind“ tyrimus, susijusius su vaizdo įrašų modeliavimu. Praktiškai solo kūrėjas dabar gali įvesti „perkūniją jūroje su jūreiviu šaukdamas užsakymus“ ir gauti trumpametražį filmo klipą su žlugdančiomis bangomis, kaukimo vėju ir jūreivio balsu per audrą – visa tai sugeneruota vienu perėjimu. Ši garso ir vizualinė karta iš galo pašalina kitą kompetencijos sluoksnį, reikalingą profesionaliems vaizdo įrašams sukurti, todėl aukštos kokybės rezultatai yra prieinami tiems, kurie neturi garso redagavimo įgūdžių.
Kino kokybė ir neįtikėtinas realizmas
„VEO 3“ savo filmuotą medžiagą priartina prie Holivudo kokybės nei bet kada anksčiau. Modelis išveda ryškesnį, išsamesnį vaizdo įrašą (iki 4K skiriamąją gebą) ir parodo stiprų realaus pasaulio fizikos ir apšvietimo suvokimą. Ankstyvieji pavyzdžiai pribloškė žiūrovus savo gyvenimo vaizdu: „Veo 3“ sugeneruotos scenos dažnai neturi akivaizdžių pasakojimų apie sintetinius. Judėjimas yra sklandus ir nuoseklus per rėmus – AI retai nutraukia tęstinumą, tai reiškia, kad nematysite niūrių artefaktų ar simbolių, kurie nenuspėjamai susierzina iš vienos akimirkos į kitą.
Jei automobilis greitį virš kampo, dulkių seka ir šešėliai elgiasi natūraliai; Jei žmogus bėga, jų judesiai gerbia fizinius įstatymus, tokius kaip pagreitis ir gravitacija. Šis realybės laikymasis apima net žinomai keblias detales, tokias kaip žmogaus rankos ir kalba. „Veo 3“ žmonės turi natūralias proporcijas (taip, penki pirštai už ranką), o jų veido judesiai tiksliai sinchronizuojami iki šnekamojo garso-žygdarbis, dėl kurio ekrano dialogas yra kur kas įtikinamas.
Visi šie patobulinimai atsiranda dėl didesnio mokymo korpuso ir modelio optimizavimo, leidžiančio VEO 3 išversti sudėtingus, išsamius raginimus į poliruotus, tikrojo gyvenimo vaizdo įrašus.
Svarbu tai, kad modelio dėmesys kinematografiniam produkcijai leidžia pasiekti meninę kokybę, kuri anksčiau buvo nepasiekiama be studijos. „Google Touts Veo 3“ „Didesnis realizmas ir ištikimybė, įskaitant 4K išvestį“, ir iš tikrųjų jo demonstracinių klipų tekstūra, apšvietimas ir fotoaparato gylis demonstruoja profesionalų filmo išvaizdą.
PJ ACE/X.
Tikslūs raginimai ir kūrybinė kontrolė palengvino
Vienas iš „Veo 3“ išskirtinių stipriųjų pusių yra tai, kaip ištikimai tai seka režisieriaus vizija, kaip aprašyta raginime. Modelis puikiai aiškina sudėtingus, kelių linijų raginimus-net trumpą istoriją ar siužetinę liniją-ir paverčiant juos nuosekliu vaizdo įrašu. „Google“ praneša apie reikšmingus greito laikymosi patobulinimus: „VeO 3“ gali sekti veiksmų seką arba kelis scenos pakeitimus, padiktuojamus tekste, ir pateikti juos tinkamu laiku ir detale.
Kūrėjams tai reiškia, kad galite išdėstyti visą koncepciją („1 scena: herojus patenka į tamsų kambarį … 2 scena: Staigus sprogimas sukelia chaosą …“), o VEO 3 sukels klipą, kuris pasieks tuos ritmus. Šis supratimo lygis atrakina daug sudėtingesnį pasakojimą per tekstą nei ankstesni generaciniai modeliai, kurie dažnai stengėsi išlaikyti nuoseklumą net kelios sekundės vaizdo įrašo. „Veo 3“ veiksmingai veikia kaip fotoaparato operatorius, nustatykite dizainerį ir redaktorių, kad tai gauna Jūsų scenarijus – sekančios scenos nurodymai apie simbolius ir fotoaparato kampus su naujai suprantamu tikslumu.
„Google“ padidino šią greitai skatinamą galią naudodamiesi patogiais įrankiais, kurie kūrėjams suteikia smulkiagrūdį rezultatų kontrolę nereikia redagavimo patirties. Be „Veo 3“, bendrovė pristatė „Flow“-AI filmų kūrimo programą, pritaikytą pagal užsakymą panaudoti modelio galimybes.
„Flow“ suteikia funkcijų rinkinį – nuo virtualių „fotoaparatų valdiklių“ (kad būtų galima nustatyti kadrus su konkrečiais kampais ar lygiomis keptuvėmis) iki „scenos kūrėjo“, leidžiančio išplėsti ar pataisyti sugeneruotą sceną nuolatiniu judesiu ir nuosekliais simboliais. Pvz., Galite paprašyti „Veo“ sugeneruoti lauko rinkos sceną, tada naudokite scenos kūrėją pratęsti Tas klipas, atskleidžiantis daugiau aplinkos ar pereinant į kitą sceną sklandžiai. „Flow“ netgi leidžia redaguoti objekto lygį: Kūrėjai gali pridėti arba ištrinti elementus spaustuke arba pakeisti kraštinių santykį (tarkime, į portretinį vaizdo įrašą paversdamas į portretinį vaizdo įrašą į kraštovaizdžio plačiaekranį ekraną), kurio modelis užpildo naujame fone, jei reikia. Visa tai pasiekiama naudojant paprastus raginimus arba UI slankiklius, o ne rankinę animaciją.
Rezultatas yra pasikartojantis, beveik be vargo kūrybinis procesas – jūs eskizuojate idėją žodžiais, gaukite vaizdo įrašą, tada patikslinkite jį nurodydami AI, kad sureguliuotumėte „fotoaparatą“ arba „pakeistumėte“ atramą, ir tai įpareigoja. Šis griežtas „Human-Ai“ bendradarbiavimas reiškia, kad net ir naujos vaizdo įrašų gamyboje gali būti pasiekta sudėtingi kadrai ir redagavimas, kuriems paprastai reikia pažangių įgūdžių ar įgulos.
Demokratizuojanti profesionalų vaizdo įrašų kūrimą
„Veo 3“ pasirodymas rodo naują erą, kai Holivudo lygio produkcijos vertės yra pasiekiamos kur kas platesniam kūrėjų ir verslo fondui. Automatizuodamas daug sunkaus kėlimo – kinematografijos, specialiųjų efektų, netgi garso dizaino – „Veo 3“ dramatiškai sumažina išteklius, reikalingus poliruotam vaizdo įrašui sukurti.
Individualus „YouTuber“ ar mažas paleidimas dabar gali sukurti filmuotą medžiagą, kuri atrodo ir skamba taip, kaip ją sukūrė visa studijos komanda. Tai labai sumažina reklamos, priekabų ar kitų reklaminių laikmenų kūrimo išlaidas. Tiesą sakant, pramonės analitikai pažymi, kad tokios priemonės kaip „VeO 3“ gali būti naudingos atliekant daugiau komercinės rinkodaros ir žiniasklaidos darbų, leidžiančių greitai pakeisti skelbimus ir turinį be didelių įgulų ar biudžetų. Reikia paskutinės minutės vaizdo vietos kampanijai? Užuot samdę aktorius ir nuomojant įrangą, rinkodaros komanda iš raginimo galėtų sukurti realų 30 sekundžių klipą ir tą pačią dieną pasiruošti.
Verta paminėti, kad „Veo 3“ pažangiausias „VeO 3“ funkcijas (pvz., Garso generavimą) iš pradžių galima įsigyti per „Google“ 249 USD/mėn. AI ultra prenumeratą ir įmonių debesų paslaugą. Nors ši aukščiausios kokybės prieiga gali apriboti pomėgių vartojimą artimiausiu metu, trajektorija yra aiški – šios galimybės laikui bėgant išaugs tik prieinamesnės ir prieinamesnės. Net ir dabar šios prenumeratos kaina yra tik maža dalis to, ką būtų atliktas profesionalus vaizdo įrašų fotografavimas ar postprodukcijos darbas. Dideliame paveikslėlyje „VeO 3“ yra AI varomo turinio kūrimo vamzdyno, kuris kokybę padidina minimaliomis pridėtinėmis išlaidomis, peržiūra, iš esmės keičiant vaizdo įrašų gamybos ekonomiką.
Nauja kūrybinė siena ir naujos pareigos
„Veo 3“ atvykimas neabejotinai yra kūrybiškumo ir efektyvumo pranašumas, tačiau tai taip pat verčia kūrybinę pramonę kovoti su svarbiomis padariniais. Viena vertus, linija tarp tikrojo ir sintetinio turinio yra neryški: internetas jau yra su VEO sugeneruotais klipais, kurie stebina žiūrovus savo realizmu-ir nusiramina, kaip beviltiškai neryški tikrovė ir AI gali tapti.
Filmo kūrėjai ir vaizdo specialistai susiduria su ateitimi, kurioje AI gali sukurti įtikinamą filmuotą medžiagą pagal pareikalavimą. Tai kelia klausimų apie originalumą, autentiškumą ir žmogaus amatų vaidmenį. Kai kurie menininkai ir puristai yra suprantamai atsargūs. Detractors atmeta AI vaizdo įrašus kaip „Soulless Sloth“, nesvarbu, koks techniškai įspūdingas, bijodami žemos kokybės turinio potvynio ar praradus darbo vietas. Šie susirūpinimas atspindi fotografijos ir projektavimo sutrikimus, atsirandant dėl AI: Kai kūryba yra demokratizuojama, jis ginčija esamas nuosavybės ir darbo normas.
Kita vertus, šalininkai teigia, kad AI kaip „Veo 3“ yra tik kita kūrybinių technologijų evoliucija – ne žmogaus kūrybiškumo pakaitalas, o galingas naujas instrumentas. „Google“ sukūrė apsaugos priemones į „Veo 3“, kad išspręstų kai kurias spąstus, įskaitant nematomą vandens ženklą (per „Deepmind's Synthid“) ant kiekvieno AI sukurto kadro, kad padėtų aptikti ir pažymėti AI sukurtus vaizdo įrašus. Modelyje taip pat yra turinio apsaugos priemonių: Testuotojai nustatė, kad jis atsisakė paraginti kurti gilumos stiliaus politinę dezinformaciją ar kenksmingas scenas. Šios atsakingos PG priemonės bus kritinės, nes hiperreal AI vaizdo įrašai bus lengviau sukurti.
Tuo tarpu daugelis į ateitį orientuotų kūrėjų naudojasi įrankiu, sutelkdami dėmesį į tai, kaip jis gali padidinti jų vaizduotę, o ne pakeisti. Bendradarbiaudama su filmų kūrėjais plėtros metu, „Google“ siekė užtikrinti, kad VEO 3 palaikytų kūrybines darbo eigas, užuot juos pakenkęs. Rezultatas, idealiu atveju, yra PG, kuris įgauna varginančią gamybos logistiką, išlaisvindama žmonių kūrėjus sutelkti dėmesį į pasakojimą, stilių ir idėjas.
Nuo turinio studijų iki reklamos agentūrų žinia yra ta, kad AI vaizdo įrašų generavimas yra čia, kad liktų – ir ji tampa tik pajėgi. VEO 3 parodo šią tendenciją aukščiausiu kokybės lygiu. Tai sumažina kliūtis ir išlaidas, tačiau taip pat iššūkis kūrybininkams atskirti savo darbą pasaulyje, kuriame kiekvienas gali sukurti žandikaulį mažinančius vaizdus.
Kai mes stovime prie šios naujos sienos, akivaizdu, kad tokios priemonės kaip „Veo 3“ vaidins svarbų vaidmenį filmų kūrimo ir žiniasklaidos ateityje. Visa kūrybinė pramonė turės prisitaikyti, nustatant naujas AI-padedančio turinio normas. „Google“ nuomone, ši technologija yra “Įgalinklis, padedantis naujai filmų kūrėjų bangai lengviau papasakoti savo istorijas “, galiausiai atrakindami naujus balsus ir idėjas, kurios galbūt niekada nepadarė to, kad būtų galima patikrinti kitaip. Ateinančiais metais pasakotojai, kurie klesti, greičiausiai bus tie, kurie išmoks naudoti AI modelius, tokius kaip VEO 3, kaip jų meninio įrankių rinkinio dalis – naudodamiesi generalinio vaizdo įrašo dalimi, tuo pačiu metu, kaip VEO 3, kaip savo meninės priemonių rinkinio dalis – panaudodami efektyvumą ir mastelio generacinį vaizdo įrašą, tuo pačiu veždami VEO 3, kaip savo meninės priemonių rinkinio dalis – naudodamiesi efektyvumo ir mastelio generaciniu vaizdo įrašu, tuo pačiu metu, kaip VEO 3, kaip savo meninės priemonių rinkinio dalis.