„Meta V-JEPA 2“ pasaulio modelis naudoja neapdorotus vaizdo įrašus robotams treniruoti

https://www.youtube.com/watch?v=xo9-h42t16a

Šiandien „Meta“ pristatė „V-JEPA 2“, 1,2 milijardo parametrų pasaulio modelį, kuriame pirmiausia buvo mokomas vaizdo įrašas, siekiant palaikyti supratimą, prognozavimą ir planavimą robotų sistemose. Pastatytas ant jungtinės numatomosios architektūros (JEPA) įterpimo modelio, modelis yra skirtas padėti robotams ir kitiems „AI agentams“ naršyti nepažįstamą aplinką ir užduotis su ribotomis domeno mokymais.

„V-JEPA 2“ seka dviejų pakopų mokymo procesą be papildomos žmogaus anotacijos. Pirmajame, paties prižiūrėtame etape, modelis sužino iš daugiau nei 1 milijono valandų vaizdo įrašo ir 1 milijoną vaizdų, fiksuodamas fizinės sąveikos modelius. Antrame etape pristatomas mokymasis su veiksmais, naudojant nedidelį robotų valdymo duomenų rinkinį (apie 62 valandas), leidžiančią modeliui atsižvelgti į agento veiksmus, kai numatant rezultatus. Dėl to modelis gali būti naudojamas planuojant ir uždaro ciklo valdymo užduotis.

Meta teigė, kad jau išbandė šį naują robotų modelį savo laboratorijose. „Meta“ praneša, kad „V-JEPA 2“ gerai atlieka įprastas robotų užduotis, tokias kaip ir pasirinkimas ir vieta, naudodama regėjimu pagrįstus tikslus. Paprastesnėms užduotims, tokioms kaip „Pick and Place“, sistema generuoja kandidatus į kandidatus ir vertina juos remiantis numatomais rezultatais. Atliekant griežtesnes užduotis, tokias kaip objekto paėmimas ir įdėjimas į reikiamą vietą, „V-JEPA2“ naudoja vaizdinių potraukių seką, kad nukreiptų elgesį.

Vidaus testuose Meta teigė, kad modelis parodė daug žadantį sugebėjimą apibendrinti naujus objektus ir parametrus, o sėkmės procentai svyruoja nuo 65% iki 80% atliekant pasirinkimo ir vietos užduotis anksčiau nematytoje aplinkoje.

„Mes tikime, kad pasaulio modeliai pateiks naują robotikos erą, suteikiančią galimybę realaus pasaulio agentams padėti atlikti darbus ir fizines užduotis, nereikia astronominių robotų mokymo duomenų kiekių“,-sakė „Meta“ vyriausiasis AI mokslininkas Yannas Lecunas.

Nors „V-JEPA 2“ parodo ankstesnių modelių patobulinimus, meta AI teigė, kad išlieka pastebimas atotrūkis tarp modelio ir žmogaus našumo šiuose etalonuose. „Meta“ siūlo tai atkreipti dėmesį į modelių, kurie gali veikti keliais laikotarpiais ir būdais, poreikį, pavyzdžiui, įtraukiant garso ar lytėjimo informaciją.

Norėdami įvertinti fizinio supratimo pažangą iš vaizdo įrašo, „Meta“ taip pat išleidžia šiuos tris etalonus:

„Intphys 2“: Įvertina modelio gebėjimą atskirti fiziškai tikėtinus ir neįtikėtinus scenarijus.
Mvpbench: Patikrina, ar modeliai priklauso nuo tikro supratimo, o ne duomenų rinkinių spartųjų klavišų vaizdo įrašų klausimuose.
Causalvqa: nagrinėja priežasčių ir pasekmės, numatymo ir kontraktų pagrindus.

„V-JEPA 2“ kodas ir modelio kontrolės punktai yra prieinami komerciniams ir tyrimams. Meta siekia skatinti platesnį pasaulio modelių tyrinėjimą robotikoje ir įkūnytoje AI.

Meta prisijungia prie kitų technologijų lyderių kuriant savo pasaulio modelius. „Google DeepMind“ kuria savo versiją „Genie“, kuri gali imituoti visą 3D aplinką. „Fei-Fei Li“ įkurtas startuolis „World Labs“ surinko 230 milijonų dolerių dideliems pasaulio modeliams kurti.

Nuoroda į informacijos šaltinį

Karščiausios naujienos

Podcast apibendrina RoboBusiness 2025, pokalbiai su pradedančiaisiais

Ar AI naršyklės vertos saugumo rizikos? Kodėl ekspertai nerimauja

Atnaujinti Atsakingojo skolinimo nuostatai – daugiau galimybių perkantiesiems pirmą būstą, griežtesni reikalavimai imantiems antrą ar paskesnę būsto paskolą

Paskyros abstrakcija „Web3“: operacijų be dujų atrakinimas ir sklandi vartotojo patirtis

Kauno miesto savivaldybė Dėl darbų R. Kalantos gatvėje – eismo pokyčiai

Kauno miesto savivaldybė UAB „Kauno vandenys“ atliekami darbai

1952 m. DeSoto: mėgstamiausi automobilių skelbimai | Kasdienis važiavimas

„Avride“ užtikrina strategines investicijas iki 375 mln. USD savarankiškai važiuojantiems automobiliams, pristatymui

Šie 300 USD vertės tvirti „Android“ telefonai nėra tokie geri už pinigus

Italų dienos Kaune: kultūros, istorijos ir partnerystės šventė

Kaune pirmą kartą Baltijos šalyse vyksta prestižinė „HEPA Europe“ konferencija

„Mein Kampf“: kiek dar reikia pasakyti žodžių, kad istorija pasikartotų?

Spalį įvyks per 100 nemokamų renginių Kauno senjorams

„Meta V-JEPA 2“ pasaulio modelis naudoja neapdorotus vaizdo įrašus robotams treniruoti

Daugiau iš autoriaus

Podcast apibendrina RoboBusiness 2025, pokalbiai su pradedančiaisiais

Ar AI naršyklės vertos saugumo rizikos? Kodėl ekspertai nerimauja

Atnaujinti Atsakingojo skolinimo nuostatai – daugiau galimybių perkantiesiems pirmą būstą, griežtesni reikalavimai imantiems antrą ar paskesnę būsto paskolą

Apdovanoti piešinių konkurso laimėtojai

uždarė į kamerą su pavojingais asmenimis, bandoma palaužti – Kas vyksta Kaune

Jums tai gali patikti:

Podcast apibendrina RoboBusiness 2025, pokalbiai su pradedančiaisiais

Ar AI naršyklės vertos saugumo rizikos? Kodėl ekspertai nerimauja

Atnaujinti Atsakingojo skolinimo nuostatai – daugiau galimybių perkantiesiems pirmą būstą, griežtesni reikalavimai imantiems antrą ar paskesnę būsto paskolą

Paskyros abstrakcija „Web3“: operacijų be dujų atrakinimas ir sklandi vartotojo patirtis

Kauno miesto savivaldybė Dėl darbų R. Kalantos gatvėje – eismo pokyčiai

Kauno miesto savivaldybė UAB „Kauno vandenys“ atliekami darbai

1952 m. DeSoto: mėgstamiausi automobilių skelbimai | Kasdienis važiavimas

„Avride“ užtikrina strategines investicijas iki 375 mln. USD savarankiškai važiuojantiems automobiliams, pristatymui

Karščiausios naujienos

Populiariausios žymos

Apdovanoti piešinių konkurso laimėtojai

uždarė į kamerą su pavojingais asmenimis, bandoma palaužti – Kas vyksta Kaune