„Cosmos Policy“ yra ankstyvas žingsnis pritaikant pasaulinius pagrindinius robotų valdymo ir planavimo modelius, teigia NVIDIA. | Šaltinis: NVIDIA
NVIDIA Corp. nuolat plečia savo NVIDIA Cosmos pasaulinio pagrindo modelius arba WFM, kad išspręstų problemas, susijusias su robotika, autonominių transporto priemonių kūrimu ir pramoninės vizijos AI. Bendrovė neseniai pristatė „Cosmos Policy“ – naujausius tyrimus, skirtus tobulinti robotų valdymą ir planavimą naudojant „Cosmos WFM“.
„Cosmos Policy“ yra nauja roboto valdymo politika, kuri vėliau apmoko „Cosmos Predict-2“ pasaulinio pagrindo modelį manipuliavimo užduotims atlikti. Jis tiesiogiai koduoja roboto veiksmus ir būsimas būsenas į modelį, pasiekdamas pažangiausią (SOTA) našumą pagal LIBERO ir RoboCasa etalonus, sakė NVIDIA.
Bendrovė „Cosmos Policy“ gavo patobulindama „Cosmos Predict“, WFM, išmokytą numatyti būsimus kadrus. Užuot įdiegusi naujus architektūrinius komponentus ar atskirus veiksmų modulius, „Cosmos Policy“ iš anksto paruoštą modelį pritaiko tiesiogiai per vieną etapą, skirtą roboto demonstravimo duomenų mokymui.
NVIDIA tyrėjai apibrėžė politiką kaip sistemos sprendimus priimančias smegenis, kurios stebėjimus (pvz., fotoaparato vaizdus) susieja su fiziniais veiksmais (pvz., Roboto rankos judinimas), kad atliktų užduotis.
Kuo skiriasi „Cosmos“ politika?
„Cosmos“ politikos proveržis yra tai, kaip ji reprezentuoja duomenis, paaiškino NVIDIA. Užuot kūręs atskirus neuroninius tinklus roboto suvokimui ir valdymui, jis traktuoja roboto veiksmus, fizines būsenas ir sėkmės balus kaip kadrus vaizdo įraše.
Visa tai užkoduota kaip papildomi latentiniai kadrai. Tai išmokstama naudojant tą patį difuzijos procesą, kaip ir vaizdo įrašų generavimas, todėl modelis gali paveldėti iš anksto išmoktą fizikos, gravitacijos ir scenų evoliucijos supratimą laikui bėgant. „Latentinė“ reiškia suglaudintą matematinę kalbą, kurią modelis naudoja duomenims suprasti viduje (o ne neapdorotus pikselius).
Dėl to vienas modelis gali:
- Numatykite veiksmų dalis, kad vadovautumėte roboto judėjimui, naudojant rankų ir akių koordinavimą (ty vizualinio variklio valdymą)
- Numatykite būsimus robotų stebėjimus pasaulio modeliavimui
- Numatykite tikėtiną grąžą (ty vertės funkciją) planuodami
Visos trys galimybės yra mokomos kartu viename vieningame modelyje. Kosmoso politika gali būti naudojama kaip tiesioginė politika, kai išvados metu generuojami tik veiksmai, arba kaip planavimo politika, kai įvertinami keli galimi veiksmai, numatant jų būsimas būsenas ir vertybes.
Daugiau apie „Cosmos Predict“.
NVIDIA pažymėjo, kad neseniai atliktas darbas manipuliuojant robotais vis labiau rėmėsi dideliais iš anksto parengtais pagrindais, siekiant pagerinti apibendrinimą ir duomenų efektyvumą. Dauguma šių metodų remiasi vizijos kalbos modeliais (VLM), parengtais naudojant didelio masto vaizdo ir teksto duomenų rinkinius ir tiksliai suderintais, kad būtų galima numatyti roboto veiksmus.
Šie modeliai išmoksta suprasti vaizdo įrašus ir apibūdinti tai, ką mato, tačiau jie neišmoksta fiziškai atlikti veiksmų. VLM gali pasiūlyti aukšto lygio veiksmus, pvz., „Pasukite į kairę“ arba „Paimkite purpurinį puodelį“, tačiau nežino, kaip juos tiksliai atlikti.
Priešingai, WFM yra išmokyti nuspėti, kaip laikui bėgant vystysis scenos, ir sukurti vaizdo įrašų laiko dinamiką. Šios galimybės yra tiesiogiai susijusios su roboto valdymu, kai veiksmai turi atsižvelgti į tai, kaip laikui bėgant keičiasi aplinka ir paties roboto būsena.
„Cosmos Predict“ yra apmokytas fiziniam dirbtiniam intelektui, naudojant difuzijos objektyvą per nuolatinį latentinį erdvinį ir laiką, leidžiantį modeliuoti sudėtingus, didelio masto ir daugiarūšius pasiskirstymus ilguose laiko horizontuose.
NVIDIA teigė, kad dėl šios konstrukcijos „Cosmos Predict“ yra tinkamas visuomotorinio valdymo pagrindas:
- Modelis jau mokosi būsenų perėjimų per ateities kadro numatymą.
- Jo difuzijos formulė palaiko daugiarūšius rezultatus, o tai labai svarbu atliekant užduotis su keliomis galiojančiomis veiksmų sekomis.
- Transformatoriaus pagrindu sukurtas triukšmo slopintuvas gali keistis iki ilgų sekų ir kelių modalumo.
„Cosmos Policy“ sukurta remiantis vėliau apmokytu „Cosmos Predict2“, kad būtų galima generuoti roboto veiksmus kartu su būsimais stebėjimais ir vertės įvertinimais, naudojant modelio savąjį sklaidos procesą. Tai leidžia strategijai visiškai paveldėti iš anksto parengto modelio supratimą apie laiko struktūrą ir fizinę sąveiką, tačiau ją lengva išmokyti ir įdiegti.

Ankstyvųjų rezultatų viduje
„Cosmos Policy“ vertinama pagal modeliavimo etalonus ir realias robotų manipuliavimo užduotis, lyginant su difuzija pagrįsta politika, parengta nuo nulio, vaizdo įrašų pagrindu sukurta robotų politika ir tiksliai suderintais vaizdo kalbos veiksmų (VLA) modeliais.
„Cosmos Policy“ vertinama LIBERO ir RoboCasa – dviejuose standartiniuose daugelio užduočių ir ilgalaikio roboto manipuliavimo etalonuose. LIBERO sistemoje „Cosmos Policy“ nuosekliai lenkia ankstesnę sklaidos politiką ir VLA pagrįstus metodus visose užduočių rinkiniuose, ypač atliekant užduotis, kurioms reikalingas tikslus koordinavimas laike ir kelių etapų vykdymas.
| Modelis | Erdvinis SR (%) | Objekto SR (%) | Tikslas SR (%) | Ilgas SR (%) | Vidutinis SR (%) |
|---|---|---|---|---|---|
| Sklaidos politika | 78.3 | 92.5 | 68.3 | 50.5 | 72.4 |
| Dita | 97.4 | 94.8 | 93.2 | 83.6 | 92.3 |
| π0 | 96.8 | 98.8 | 95.8 | 85.2 | 94.2 |
| UVA | — | — | — | 90,0 | — |
| UniVLA | 96.5 | 96.8 | 95.6 | 92,0 | 95.2 |
| π0,5 | 98.8 | 98.2 | 98,0 | 92.4 | 96.9 |
| Vaizdo įrašų politika | — | — | — | 94,0 | — |
| OpenVLA-OFT | 97.6 | 98.4 | 97.9 | 94.5 | 97.1 |
| CogVLA | 98.6 | 98.8 | 96.6 | 95.4 | 97.4 |
| Kosmoso politika (NVIDIA) | 98.1 | 100,0 | 98.2 | 97.6 | 98.5 |
„RoboCasa“ sistemoje „Cosmos Policy“ gali pasiekti aukštesnius sėkmės rodiklius nei pradinės linijos, kurios buvo išmokytos nuo nulio, o tai rodo geresnį apibendrinimą įvairiuose namų ūkio manipuliavimo scenarijuose.
| Modelis | # Treniruotės demonstracinės versijos kiekvienai užduočiai | Vidutinis SR (%) | ||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| GR00T-N1 | 300 | 49.6 | ||||||||||
| UVA | 50 | 50,0 | ||||||||||
| DP-VLA | 3000 | 57.3 | ||||||||||
| GR00T-N1 + DreamGen | 300 (+10 000 sintetinių) | 57.6 | ||||||||||
| GR00T-N1 + DULKĖS | 300 | 58.5 | ||||||||||
| UWM | 1000 | 60.8 | ||||||||||
| π0 | 300 | 62.5 | ||||||||||
| GR00T-N1.5 | 300 | 64.1 | ||||||||||
| Vaizdo įrašų politika | 300 | 66.0 | ||||||||||
| FLARE | 300 | 66.4 | ||||||||||
| GR00T-N1.5 + HAMLETAS | 300 | 66.4 | ||||||||||
| Kosmoso politika (NVIDIA) | 50 | 67.1 |
Abiejuose etalonuose inicijavimas naudojant „Cosmos Predict“ suteikia didelį našumo pranašumą, palyginti su lygiaverčių architektūrų mokymu be išankstinio vaizdo mokymo, sakė NVIDIA mokslininkai.
Kai naudojama kaip tiesioginė strategija, „Cosmos Policy“ jau atitinka arba pranoksta naujausius našumą atliekant daugumą užduočių. Patobulinus modeliu pagrįstą planavimą, mokslininkai teigė, kad atlikdami dvi sudėtingas realaus pasaulio manipuliavimo užduotis pastebėjo vidutiniškai 12,5% didesnį užduočių atlikimo rodiklį.
„Cosmos Policy“ taip pat vertinama atliekant realias dvirankio manipuliavimo užduotis naudojant ALOHA robotų platformą. NVIDIA teigė, kad ši politika gali sėkmingai atlikti ilgo horizonto manipuliavimo užduotis tiesiogiai iš vizualinių stebėjimų.