Išankstinis didelis elgesio modeliai pagreitina robotų mokymąsi

Estimated read time 6 min read

Du „Cobots“, naudojant autonominį įvertinimo įvedimą iš „Finetuned LBMS“, kad galėtų atlikti ilgalaikio elgesio, pavyzdžiui, dviračio rotoriaus įrengimą. | Šaltinis: „Toyota“ tyrimų institutas

Šią savaitę „Toyota“ tyrimų institutas (TRI) išleido savo tyrimų apie didelio elgesio modelius (LBM), kurie gali būti naudojami mokant bendrosios paskirties robotus, rezultatus. Tyrimas parodė, kad viena LBM gali išmokti šimtus užduočių ir panaudoti išankstines žinias, kad įgytų naujų įgūdžių, turint 80% mažiau mokymo duomenų.

LBM yra iš anksto sudedami į didelius, įvairius manipuliavimo duomenų rinkinius. Nepaisant didėjančio populiarumo, robotikos bendruomenė stebėtinai mažai žino apie tai, ką iš tikrųjų siūlo LBMS. TRI darbas siekia paaiškinti naujausią algoritmo ir duomenų rinkinio projektavimo pažangą naudojant šį tyrimą.

Apskritai, TRI teigė, kad jos išvados daugiausia patvirtina pastarojo meto LBM stiliaus robotų fondo modelių populiarumo padidėjimą, pridedant įrodymus, kad didelio masto išankstiniai duomenys apie įvairius robotų duomenis yra perspektyvus kelias link pajėgiesnių robotų, nors ir su keliais atsargumo taškais.

Bendrosios paskirties robotai žada ateitį, kurioje namų ūkio robotai gali suteikti kasdienę pagalbą. Tačiau mes nesame toje vietoje, kur bet kuris robotas gali atlikti vidutines namų ūkio užduotis. LBM arba įkūnijamos AI sistemos, kuriose naudojami robotų jutiklių duomenys ir išvesties veiksmai, galėtų tai pakeisti, sakė Tri.

2024 m. TRI laimėjo „RBR50 Robotics Innovation“ apdovanojimą už savo darbo pastato LBMS už greito robotų mokymą.

TRI išvadų apžvalga

https://www.youtube.com/watch?v=delpntgzjt4

TRI beveik 1700 valandų robotų duomenų ir atliko 1800 realaus pasaulio vertinimo diegimų ir daugiau nei 47 000 modeliavimo diegimų, kad griežtai ištirtų savo galimybes, atlikdavo 1800 realaus pasaulio įvertinimo. Tai nustatė, kad lbms:

  • Pateikite nuoseklius našumo patobulinimus, susijusius su „Scratch“ politika
  • Įgalinkite naujas užduotis, kurių reikia išmokti su 3-5 × mažiau duomenų, atsižvelgiant į sudėtingas aplinkybes, reikalaujančias patikimumo įvairiems aplinkos veiksniams
  • Stabiliai pagerėja, kai didėja išankstiniai duomenys

Net ir turint vos kelis šimtus įvairių duomenų duomenų ir tik keli šimtai demonstracinių demonstracinių versijų per elgesį, našumas prasmingai šoktelėjo, sakė Tri. Išankstinis pranešimas suteikia nuoseklų našumo pakilimą ankstesniame nei tikėtasi skalėje. Tri teigė, kad „TRI“ dar nėra interneto vertės robotų duomenų, tačiau pranašumai pateikiami gerokai prieš šią skalę – perspektyvus ženklas, leidžiantis įgalinti dorybingus duomenų rinkimo ir įkrovos našumo ciklus.

TRI vertinimo komplektas apima keletą naujų ir labai sudėtingų ilgalaikio Horizonto realaus pasaulio užduočių; Finetuned ir įvertintas šioje aplinkoje LBM išankstinis rašymas pagerina rezultatus, nepaisant to, kad šis elgesys labai skiriasi nuo išankstinių užduočių.

TRI LBM architektūros ir duomenų viduje

LBM architektūra yra akimirksniu kaip difuzijos transformatorius, kuris prognozuoja roboto veiksmus.

LBM architektūra yra akimirksniu kaip difuzijos transformatorius, kuris prognozuoja roboto veiksmus. | Šaltinis: „Toyota“ tyrimų institutas

TRI LBM yra keičiamos daugiafunkcinės difuzijos politika su multimodaliniais VIT matymo kalbos koduotojais ir transformatoriaus denoringu galvute, kondicionuojama užkoduotuose stebėjimuose per ADALN. Šie modeliai suvartoja riešo ir scenos kameras, robotų propriocepciją ir kalbų raginimus bei numatyti 16 laiko (1,6 sekundės) veiksmo gabaliukus.

Tyrėjai išmokė LBMS 468 valandų viduje surinktų bimanualinio robotų teleoperacijos duomenų mišinyje, 45 valandas modeliavimo surinktų teleoperacijos duomenų, 32 valandų universalios manipuliavimo sąsajos (UMI) duomenų ir maždaug 1 150 valandų interneto duomenų, kuriuose buvo sukurta atvira X-Embodiment duomenų rinkinio.

Nors modeliavimo duomenų dalis yra nedidelė, jo įtraukimas į išankstinį TRI mišinį užtikrina, kad jis gali įvertinti tą patį LBM patikrinimo tašką tiek SIM, tiek tikrame.

TRI vertinimo metodai

TRI įvertina savo LBM modelius bimanualinėje platformoje įvairiomis užduotimis ir aplinkos sąlygomis tiek modeliavimo, tiek realiame pasaulyje.

TRI įvertina savo LBM modelius bimanualinėje platformoje įvairiomis užduotimis ir aplinkos sąlygomis tiek modeliavimo, tiek realiame pasaulyje. | Šaltinis: „Toyota“ tyrimų institutas

„Tri“ įvertina savo LBMS apie fizines ir drake imituotas bimanualų stotis, kuriose naudojamos „Franka Panda FR3“ ginklai ir iki šešių kamerų-iki dviejų ant kiekvieno riešo ir dvi statinės scenos kameros.

Tai įvertina tiek matytų užduočių (esamų išankstiniuose duomenyse), tiek nematytas užduotis (kurias TRI naudoja tiksliai sureguliuoti savo išankstinį modelį). TRI vertinimo rinkinį sudaro 16 imituojamų matytų deligrinių užduočių, 3 realaus pasaulio matymo-derinimo užduočių, 5 anksčiau nematytų ilgalaikio imituotų užduočių ir 5 sudėtingų anksčiau nematytų ilgalaikio realaus pasaulio užduočių.

Kiekvienas modelis buvo išbandytas per 50 sujungimų kiekvienai realaus pasaulio užduotims ir 200 sujungimų kiekvienai modeliavimo užduotims. Tai įgalina aukštą statistinio griežtumo lygį mūsų analizėje, o iš anksto paruošti modeliai įvertinami 4200 diegimų per 29 užduotis.

Tri teigė, kad tai kruopščiai kontroliuoja pradines sąlygas, kad būtų nuoseklios tiek realiame pasaulyje, tiek modeliavime. Jis taip pat atlieka aklųjų A/B stiliaus testavimą realiame pasaulyje, kurio statistinis reikšmingumas apskaičiuotas per nuoseklią hipotezės bandymo sistemą.

Daugelis tyrėjų pastebėtų poveikių buvo išmatuojami tik didesniais nei standartiniais imčių dydžiais ir kruopščiais statistiniais tyrimais, kurie yra nestandartiniai empirinėms robotikoms. Dėl eksperimentinio nykštukinio poveikio matuojamam poveikiui paprasta triukšmas, o daugelis robotikos dokumentų gali būti statistinis triukšmas dėl nepakankamos statistinės galios.



Tri geriausi tyrimų paėmimai

Vienas iš pagrindinių komandos pasirodymų yra tas, kad „Finetuned“ našumas sklandžiai pagerėja didėjant išankstiniams duomenims. Mūsų nagrinėjamose duomenų skalėse TRI nematė jokių įrodymų apie veiklos nutraukimus ar aštrius posūkio taškus; AI mastelio keitimas atrodo gyvas ir gerai robotikoje.

Tačiau TRI patyrė įvairių rezultatų su ne finetuodais iš anksto paruoštais LBM. Drauginančiai, ji nustatė, kad vienas tinklas vienu metu gali išmokti daug užduočių, tačiau jis nepastebi nuoseklaus pranašumo nuo vienos užduoties vienos užduoties treniruotės be tiksliai derinant. TRI tikisi, kad taip yra iš dalies dėl jo modelio kalbos valdymo.

Vidaus bandymuose Tri teigė, kad matė keletą perspektyvių ankstyvų požymių, kad didesni VLA prototipai įveikia kai kuriuos sunkumus, tačiau norint griežtai ištirti šį poveikį aukštesnės kalbos talpos modeliuose, reikia daugiau darbo.

Kalbant apie atsargumo taškus, Tri teigė, kad subtilūs dizaino pasirinkimai, tokie kaip duomenų normalizavimas, gali turėti didelę įtaką našumui, dažnai dominuojančiam architektūriniams ar algoritminiams pokyčiams. Svarbu, kad šie dizaino pasirinkimai būtų kruopščiai izoliuoti, kad būtų išvengta našumo pokyčių šaltinio.

Nuoroda į informacijos šaltinį

Jums tai gali patikti

Daugiau iš autoriaus