Klausykite šio straipsnio |
Robotams vienas iššūkis yra aukščiau už visus kitus: apibendrinimas – gebėjimas sukurti mašinas, kurios gali prisitaikyti prie bet kokios aplinkos ar sąlygų. Nuo 1970-ųjų ši sritis vystėsi nuo sudėtingų programų rašymo iki gilaus mokymosi naudojimo, mokant robotus mokytis tiesiogiai iš žmogaus elgesio. Tačiau išlieka kritinė kliūtis: duomenų kokybė. Norėdami tobulėti, robotai turi susidurti su scenarijais, peržengiančiais jų galimybių ribas, veikdami ties savo meistriškumo riba. Šis procesas tradiciškai reikalauja žmogaus priežiūros, o operatoriai kruopščiai meta iššūkį robotams išplėsti savo gebėjimus. Kadangi robotai tampa vis sudėtingesni, šis praktinis metodas susiduria su mastelio didinimo problema: aukštos kokybės mokymo duomenų paklausa gerokai lenkia žmonių galimybes juos pateikti.
MIT CSAIL tyrėjų komanda sukūrė robotų mokymo metodą, kuris galėtų žymiai pagreitinti pritaikomų, pažangių mašinų diegimą realioje aplinkoje. Naujoji sistema, pavadinta „LucidSim“, naudoja naujausius generatyvaus dirbtinio intelekto ir fizikos simuliatorių pažangą, kad sukurtų įvairias ir tikroviškas virtualias mokymo aplinkas, padedančias robotams pasiekti ekspertų lygio našumą atliekant sudėtingas užduotis be jokių realaus pasaulio duomenų.
„LucidSim“ sujungia fizikos modeliavimą su generuojančiais dirbtinio intelekto modeliais, sprendžiant vieną iš nuolatinių robotikos iššūkių: modeliavimo metu įgytų įgūdžių perkėlimą į realų pasaulį.
„Pagrindinis robotų mokymosi iššūkis jau seniai buvo skirtumas tarp simuliuojamų mokymo aplinkų ir sudėtingo, nenuspėjamo realaus pasaulio“, – sakė MIT CSAIL doktorantas Ge Yang, pagrindinis LucidSim tyrėjas. „Ankstesni metodai dažnai rėmėsi gylio jutikliais, kurie supaprastino problemą, bet praleido esminius realaus pasaulio sudėtingumus.
Daugiašakė sistema yra įvairių technologijų mišinys. Iš esmės LucidSim naudoja didelius kalbos modelius, kad sukurtų įvairius struktūrinius aplinkos aprašymus. Tada šie aprašymai paverčiami vaizdais naudojant generatyvius modelius. Siekiant užtikrinti, kad šie vaizdai atspindėtų realaus pasaulio fiziką, generavimo procesui vadovauti naudojamas pagrindinis fizikos simuliatorius.
Susiję: Kaip „Agility Robotics“ panaikino „Sim2Real“ spragą „Digit“.
Idėjos gimimas: nuo buritų iki proveržių
„LucidSim“ įkvėpimas kilo iš netikėtos vietos: pokalbio už Beantown Taqueria, Kembridže, MA.
„Norėjome išmokyti regėjimo turinčius robotus tobulėti naudojant žmonių atsiliepimus. Bet tada supratome, kad neturime vien vizija pagrįstos politikos“, – sakė Alanas Yu, MIT bakalauro studijų studentas ir vienas iš „LucidSim“ vadovų. „Eidami gatve nuolat apie tai kalbėjome, o paskui maždaug pusvalandį sustojome už taqueria. Štai kur mes turėjome savo akimirką.
Kreipkitės kalbėti.
Siekdama surinkti savo duomenis, komanda sukūrė tikroviškus vaizdus, iš modeliuojamos scenos ištraukdama gylio žemėlapius, kuriuose pateikiama geometrinė informacija, ir semantines kaukes, kurios žymi skirtingas vaizdo dalis. Tačiau jie greitai suprato, kad griežtai kontroliuojant vaizdo turinio sudėtį, modelis sukurs panašius vaizdus, kurie nesiskiria vienas nuo kito, naudodamas tą patį raginimą. Taigi, jie sugalvojo būdą, kaip iš ChatGPT gauti įvairių tekstinių raginimų.
Tačiau šis metodas davė tik vieną vaizdą. Norėdami sukurti trumpus, nuoseklius vaizdo įrašus, kurie robotui pasitarnautų kaip maža „patirtis“, mokslininkai sujungė vaizdo magiją į kitą komandos sukurtą naują techniką, pavadintą „Dreams In Motion (DIM). Sistema apskaičiuoja kiekvieno pikselio judesius tarp kadrų, kad vieną sugeneruotą vaizdą paverstų trumpu kelių kadrų vaizdo įrašu. Dreams In Motion tai daro atsižvelgdama į 3D scenos geometriją ir santykinius roboto perspektyvos pokyčius.
„Mes pralenkiame domenų atsitiktinės atrankos metodą, 2017 m. sukurtą metodą, kuris aplinkos objektams taiko atsitiktines spalvas ir raštus, o tai šiais laikais vis dar laikomas pagrindiniu metodu“, – sako Yu. „Nors ši technika generuoja įvairius duomenis, jai trūksta tikroviškumo. „LucidSim“ sprendžia ir įvairovės, ir realizmo problemas. Įdomu tai, kad net nematydamas realaus pasaulio treniruočių metu, robotas gali atpažinti kliūtis ir jas įveikti realioje aplinkoje.
Komanda ypač džiaugiasi galimybe pritaikyti LucidSim domenams už keturkampio judėjimo ir parkūro – pagrindinės jų bandymų aikštelės – ribų. Vienas iš pavyzdžių yra mobilusis manipuliavimas, kai mobilusis robotas turi tvarkyti objektus atviroje vietoje, o spalvų suvokimas yra labai svarbus.
„Šiandien šie robotai vis dar mokosi iš realaus pasaulio demonstracijų”, – sakė Yang. „Nors demonstracijų rinkimas yra lengvas, realaus roboto teleoperacijos sąranką pritaikyti tūkstančiams įgūdžių yra sudėtinga, nes žmogus turi fiziškai nustatyti kiekvieną sceną. Tikimės, kad tai palengvinsime, taigi, kokybiškiau, perkeldami duomenų rinkimą į virtualią aplinką.
Komanda išbandė „LucidSim“ su alternatyva, kur ekspertas mokytojas demonstruoja roboto įgūdžius, iš kurių jis gali mokytis. Rezultatai nustebino: eksperto apmokyti robotai sunkiai, jiems pavykdavo tik 15 procentų laiko – ir net keturis kartus padidėjus ekspertų mokymo duomenų kiekiui, adata vos nepajudino. Tačiau kai robotai per LucidSim surinko savo mokymo duomenis, istorija labai pasikeitė. Tik padvigubėjus duomenų rinkinio dydžiui sėkmės rodikliai padidėjo iki 88%.
„Ir mūsų robotui suteikiant daugiau duomenų monotoniškai pagerėja jo veikimas – galiausiai studentas tampa ekspertu“, – sakė Yang.
„Vienas iš pagrindinių iššūkių, susijusių su robotikos perkėlimu į realųjį ryšį, yra vizualinio tikroviškumo pasiekimas imituojamose aplinkose“, – sakė Stanfordo universiteto Elektros inžinerijos docentas Shuran Song, kuris nedalyvavo tyrime. „LucidSim sistema yra elegantiškas sprendimas, naudojant generatyvius modelius kuriant įvairius, labai tikroviškus vaizdinius duomenis bet kokiam modeliavimui. Šis darbas galėtų žymiai paspartinti virtualioje aplinkoje apmokytų robotų diegimą realioms užduotims atlikti.
Nuo Kembridžo gatvių iki pažangiausių robotikos tyrimų „LucidSim“ atveria kelią į naujos kartos išmanias, prisitaikančias mašinas – tokias, kurios išmoksta naršyti mūsų sudėtingame pasaulyje net neįkėlę kojos.
Yu ir Yang parašė darbą su keturiais CSAIL filialais: mechaninės inžinerijos postdoc Ran Choi; bakalauro studijų mokslininkas Yajvanas Ravanas; John Leonard, Samuel C. Collins Mechanikos ir vandenynų inžinerijos profesorius MIT Mechanikos inžinerijos katedroje; ir MIT docentas Phillipas Isola.
Redaktoriaus pastaba: Šis straipsnis buvo iš naujo paskelbtas iš MIT CSAIL