Pastaraisiais metais dirbtinis intelektas (AI) labai pažengė įvairiose srityse, tokiose kaip natūralios kalbos apdorojimas (NLP) ir kompiuterinė vizija. Tačiau vienas didelis PG iššūkis buvo jo integracija į fizinį pasaulį. Nors AI puikiai suprato ir išsprendė sudėtingas problemas, šie pasiekimai daugiausia apsiribojo skaitmenine aplinka. Kad AI galėtų atlikti fizines užduotis per robotiką, ji turi turėti gilų supratimą apie erdvinius samprotavimus, manipuliavimą objektais ir priimant sprendimus. Siekdama išspręsti šį iššūkį, „Google“ pristatė „Gemini“ robotiką – modelių rinkinį, skirtą robotikai, ir įkūnijai AI. Šie AI modeliai, sukurti ant „Gemini 2.0“, sujungia pažengusius AI samprotavimus su fiziniu pasauliu, kad robotai galėtų atlikti platų sudėtingų užduočių spektrą.
Gemini robotikos supratimas
„Gemini Robotics“ yra AI modelių pora, sukurta ant „Gemini 2.0“, moderniausio matymo kalbos modelio (VLM), galinčio apdoroti tekstą, vaizdus, garso ir vaizdo įrašus, pora. „Gemini Robotics“ iš esmės yra VLM pratęsimas į regėjimo kalbos (VLA) modelį, kuris leidžia „Dvynių“ modeliui ne tik suprasti ir interpretuoti vaizdines įvestis ir apdoroti natūralių kalbos instrukcijas, bet ir atlikti fizinius veiksmus realiame pasaulyje. Šis derinys yra labai svarbus robotikai, leidžiančiai mašinas ne tik „pamatyti“ savo aplinką, bet ir suprasti ją žmogaus kalbos kontekste ir vykdyti sudėtingą realaus pasaulio užduočių pobūdį, pradedant nuo paprasto objekto manipuliavimo iki sudėtingesnės miklumos veiklos.
Viena iš pagrindinių „Dvynių robotikos“ stipriųjų pusių yra jos sugebėjimas apibendrinti įvairias užduotis, nereikalaujant didelio perkvalifikavimo. Modelis gali vadovautis atviromis žodyno instrukcijomis, prisitaikyti prie aplinkos variantų ir netgi atlikti nenumatytas užduotis, kurios nebuvo jo pradinių mokymo duomenų dalis. Tai ypač svarbu kuriant robotus, kurie galėtų veikti dinamiškoje, nenuspėjamoje aplinkoje, tokiose kaip namai ar pramoninės aplinkos.
Įkūnyti samprotavimai
Reikšmingas robotikos iššūkis visada buvo atotrūkis tarp skaitmeninių samprotavimų ir fizinės sąveikos. Nors žmonės gali lengvai suprasti sudėtingus erdvinius santykius ir sklandžiai bendrauti su savo aplinka, robotai stengėsi atkartoti šiuos sugebėjimus. Pavyzdžiui, robotai yra riboti suprantant erdvinę dinamiką, prisitaikydami prie naujų situacijų ir tvarkydami nenuspėjamą realaus pasaulio sąveiką. Siekdama išspręsti šiuos iššūkius, „Dvynių robotika“ apima „įkūnytus samprotavimus“, procesą, leidžiantį sistemai suprasti ir bendrauti su fiziniu pasauliu panašiu būdu, kaip tai daro žmonės.
Priešingai nei AI samprotavimai skaitmeninėje aplinkoje, įkūnyti samprotavimai apima keletą esminių komponentų, tokių kaip:
- Objekto aptikimas ir manipuliavimas: Įsikūniję samprotavimai įgalina „Gemini“ robotiką aptikti ir identifikuoti objektus savo aplinkoje, net kai jie anksčiau nėra matomi. Tai gali numatyti, kur sugriebti objektus, nustatyti jų būseną ir vykdyti judesius, pavyzdžiui, atidarymo stalčius, skysčių pilavimą ar sulankstomą popierių.
- Trajektorija ir suvokimo prognozė: Įkūnijami samprotavimai leidžia „Gemini“ robotikai numatyti efektyviausius judėjimo kelius ir nustatyti optimalius objektų laikymo taškus. Šis gebėjimas yra būtinas atliekant užduotis, kurioms reikia tikslumo.
- 3D supratimas: Įkūnyti samprotavimai leidžia robotams suvokti ir suprasti trimates erdves. Šis sugebėjimas yra ypač svarbus atliekant užduotis, kurioms reikalingas sudėtingas erdvinis manipuliavimas, pavyzdžiui, sulankstomi drabužiai ar daiktų surinkimas. 3D supratimas taip pat leidžia robotams tobulėti atliekant užduotis, kuriose yra kelių vaizdų 3D korespondencijos ir 3D ribojimo dėžutės prognozės. Šie gebėjimai gali būti gyvybiškai svarbūs, kad robotai tiksliai tvarkytų objektus.
Mokumas ir adaptacija: raktas į realaus pasaulio užduotis
Nors objektų aptikimas ir supratimas yra kritiški, tikrasis robotikos iššūkis slypi atliekant degus užduotis, kurioms reikalingi smulkiosios motorikos įgūdžiai. Nesvarbu, ar tai yra „Origami“ lapės sulankstymas, ar žaidimas su kortomis, užduotys, kurioms reikalingas didelis tikslumas ir koordinavimas, paprastai viršija daugelio AI sistemų galimybes. Tačiau „Gemini“ robotika buvo specialiai sukurta tobulėti tokiose užduotyse.
- Smulkiosios motorikos įgūdžiai: Modelio sugebėjimas tvarkyti sudėtingas užduotis, tokias kaip drabužių sulankstymas, daiktų sukrovimas ar žaidimų žaidimas, rodo jo pažangų miklumą. Su papildomu derinimu „Dvynių robotika“ gali atlikti užduotis, kurioms reikia koordinuoti įvairius laisvės laipsnius, pavyzdžiui, naudoti abi ginklus sudėtingoms manipuliacijoms.
- Keletas mokymosi: „Dvynių robotika“ taip pat pristato kelių kadrų mokymosi koncepciją, leidžiančią jai išmokti naujas užduotis su minimaliomis demonstracijomis. Pvz., Dirbant vos 100 demonstracijų, „Dvynių robotika“ gali išmokti atlikti užduotį, kuriai kitaip gali prireikti išsamių mokymo duomenų.
- Prisitaikymas prie naujų variantų: Kitas svarbus „Dvynių robotikos“ bruožas yra jos sugebėjimas prisitaikyti prie naujų roboto įgyvendinimo variantų. Nesvarbu, ar tai dvikovos robotas, ar humanoidas, turintis didesnį jungčių skaičių, modelis gali sklandžiai valdyti įvairių tipų robotų kūnus, todėl jis yra universalus ir pritaikomas prie skirtingų aparatūros konfigūracijų.
Nulio šūvio valdymas ir greitas adaptacija
Viena iš „Gemini“ robotikos išskirtinių savybių yra jos sugebėjimas valdyti robotus nulinio ar nedaugelio kadro mokymosi būdu. „Zero-Shot“ valdymas reiškia gebėjimą vykdyti užduotis, nereikalaujant konkrečių mokymų kiekvienai individualiai, o nedaugelis šūvių apima mokymąsi iš nedidelio pavyzdžių rinkinio.
- Nulio šūvio valdymas naudojant kodo generavimą: „Dvynių robotika“ gali generuoti kodą, kad būtų galima valdyti robotus, net kai niekada nebuvo matyti konkretūs veiksmai. Pavyzdžiui, kai pateiktas aukšto lygio užduoties aprašymas, „Dvyniai“ gali sukurti reikiamą kodą, kad atliktų užduotį, naudodamas jos samprotavimo galimybes, kad suprastų fizinę dinamiką ir aplinką.
- Keletas mokymosi: Tais atvejais, kai užduotis reikalauja sudėtingesnio miklumo, modelis taip pat gali pasimokyti iš demonstracijų ir nedelsiant pritaikyti šias žinias, kad būtų galima efektyviai atlikti užduotį. Šis gebėjimas greitai prisitaikyti prie naujų situacijų yra reikšmingas robotų kontrolės pažanga, ypač aplinkoje, kuriai reikia nuolatinių pokyčių ar nenuspėjamumo.
Ateities pasekmės
„Gemini“ robotika yra gyvybiškai svarbi bendrosios paskirties robotikos pažanga. Derinant AI samprotavimo galimybes su robotų miklumu ir pritaikomumu, jis priartina mus prie tikslo sukurti robotus, kuriuos galima lengvai integruoti į kasdienį gyvenimą ir atlikti įvairias užduotis, kurioms reikalingas žmogaus panaši sąveika.
Galimi šių modelių pritaikymas yra platus. Pramoninėje aplinkoje „Gemini“ robotika galėtų būti naudojama sudėtingam surinkimo, patikrinimų ir priežiūros užduotims. Namuose tai galėtų padėti atlikti darbus, globą ir asmenines pramogas. Kadangi šie modeliai toliau tobulėja, robotai greičiausiai taps plačiai paplitusiomis technologijomis, kurios galėtų atverti naujas galimybes įvairiuose sektoriuose.
Esmė
„Gemini Robotics“ yra modelių rinkinys, sukurtas ant „Gemini 2.0“, skirto robotams atlikti įkūnytus samprotavimus. Šie modeliai gali padėti inžinieriams ir kūrėjams kurti AI varomus robotus, kurie gali suprasti ir bendrauti su fiziniu pasauliu panašiu būdu. Gemini robotikoje, turint galimybę atlikti sudėtingas užduotis, turinčias aukštą tikslumą ir lankstumą, įtraukia tokias funkcijas kaip įkūnyti samprotavimai, nulinio šūvio valdymas ir nedaugelis mokymosi. Šios galimybės leidžia robotams prisitaikyti prie savo aplinkos, nereikalaujant didelio perkvalifikavimo. „Gemini“ robotika gali pertvarkyti pramonę, pradedant gamyba ir baigiant pagalba namuose, todėl robotai tampa pajėgesni ir saugesni realiame pasaulyje. Šie modeliai toliau vystosi, jie gali iš naujo apibrėžti robotikos ateitį.