„Meta V-JEPA 2“ pasaulio modelis naudoja neapdorotus vaizdo įrašus robotams treniruoti

Estimated read time 3 min read

Šiandien „Meta“ pristatė „V-JEPA 2“, 1,2 milijardo parametrų pasaulio modelį, kuriame pirmiausia buvo mokomas vaizdo įrašas, siekiant palaikyti supratimą, prognozavimą ir planavimą robotų sistemose. Pastatytas ant jungtinės numatomosios architektūros (JEPA) įterpimo modelio, modelis yra skirtas padėti robotams ir kitiems „AI agentams“ naršyti nepažįstamą aplinką ir užduotis su ribotomis domeno mokymais.

„V-JEPA 2“ seka dviejų pakopų mokymo procesą be papildomos žmogaus anotacijos. Pirmajame, paties prižiūrėtame etape, modelis sužino iš daugiau nei 1 milijono valandų vaizdo įrašo ir 1 milijoną vaizdų, fiksuodamas fizinės sąveikos modelius. Antrame etape pristatomas mokymasis su veiksmais, naudojant nedidelį robotų valdymo duomenų rinkinį (apie 62 valandas), leidžiančią modeliui atsižvelgti į agento veiksmus, kai numatant rezultatus. Dėl to modelis gali būti naudojamas planuojant ir uždaro ciklo valdymo užduotis.

Meta teigė, kad jau išbandė šį naują robotų modelį savo laboratorijose. „Meta“ praneša, kad „V-JEPA 2“ gerai atlieka įprastas robotų užduotis, tokias kaip ir pasirinkimas ir vieta, naudodama regėjimu pagrįstus tikslus. Paprastesnėms užduotims, tokioms kaip „Pick and Place“, sistema generuoja kandidatus į kandidatus ir vertina juos remiantis numatomais rezultatais. Atliekant griežtesnes užduotis, tokias kaip objekto paėmimas ir įdėjimas į reikiamą vietą, „V-JEPA2“ naudoja vaizdinių potraukių seką, kad nukreiptų elgesį.

Vidaus testuose Meta teigė, kad modelis parodė daug žadantį sugebėjimą apibendrinti naujus objektus ir parametrus, o sėkmės procentai svyruoja nuo 65% iki 80% atliekant pasirinkimo ir vietos užduotis anksčiau nematytoje aplinkoje.

„Mes tikime, kad pasaulio modeliai pateiks naują robotikos erą, suteikiančią galimybę realaus pasaulio agentams padėti atlikti darbus ir fizines užduotis, nereikia astronominių robotų mokymo duomenų kiekių“,-sakė „Meta“ vyriausiasis AI mokslininkas Yannas Lecunas.

Nors „V-JEPA 2“ parodo ankstesnių modelių patobulinimus, meta AI teigė, kad išlieka pastebimas atotrūkis tarp modelio ir žmogaus našumo šiuose etalonuose. „Meta“ siūlo tai atkreipti dėmesį į modelių, kurie gali veikti keliais laikotarpiais ir būdais, poreikį, pavyzdžiui, įtraukiant garso ar lytėjimo informaciją.

Norėdami įvertinti fizinio supratimo pažangą iš vaizdo įrašo, „Meta“ taip pat išleidžia šiuos tris etalonus:

  • „Intphys 2“: Įvertina modelio gebėjimą atskirti fiziškai tikėtinus ir neįtikėtinus scenarijus.
  • Mvpbench: Patikrina, ar modeliai priklauso nuo tikro supratimo, o ne duomenų rinkinių spartųjų klavišų vaizdo įrašų klausimuose.
  • Causalvqa: nagrinėja priežasčių ir pasekmės, numatymo ir kontraktų pagrindus.

„V-JEPA 2“ kodas ir modelio kontrolės punktai yra prieinami komerciniams ir tyrimams. Meta siekia skatinti platesnį pasaulio modelių tyrinėjimą robotikoje ir įkūnytoje AI.

Meta prisijungia prie kitų technologijų lyderių kuriant savo pasaulio modelius. „Google DeepMind“ kuria savo versiją „Genie“, kuri gali imituoti visą 3D aplinką. „Fei-Fei Li“ įkurtas startuolis „World Labs“ surinko 230 milijonų dolerių dideliems pasaulio modeliams kurti.

Nuoroda į informacijos šaltinį

Jums tai gali patikti

Daugiau iš autoriaus