„Google Deepmind“ teigė, kad naujausi „Gemini“ robotikos modeliai gali veikti keliuose robotų įgyvendinimo variantuose. | Šaltinis: „Google DeepMind“
„Google Deepmind“ vakar pristatė du modelius, kurie teigė, kad „atrakinti agentinę patirtį su pažengusiu mąstymu“ yra žingsnis link dirbtinio bendrojo intelekto arba AGI robotų. Nauji jo modeliai yra:
- „Dvynių robotika“ 1.5: „DeepMind“ teigė, kad tai dar labiausiai pajėgus vizijos kalbos (VLA) modelis. Tai gali paversti vaizdinę informaciją ir instrukcijas į variklio komandas, kad robotas galėtų atlikti užduotį. Jis taip pat galvoja prieš imdamasis veiksmų ir parodo jo procesą, leidžiantį robotams skaidriau įvertinti ir atlikti sudėtingesnes užduotis. Modelis taip pat mokosi įgyvendinimo variantuose, pagreitindamas įgūdžių mokymąsi.
- „Gemini Robotics-ER 1.5“: Bendrovė teigė, kad tai yra pats pajėgiausias vizijos kalbos modelis (VLM). Tai lemia fizinį pasaulį, natūraliai vadina skaitmeninius įrankius ir sukuria išsamius daugiapakopius planus įvykdyti misiją. „Deepmind“ teigė, kad dabar pasiekia moderniausią našumą tarp erdvinio supratimo etalonų.
„DeepMind“ daro „Gemini Robotics-ER 1.5“ kūrėjams naudotis „Gemini“ programų programavimo sąsaja (API) „Google AI Studio“. Šiuo metu „Gemini Robotics 1.5“ galima pasirinkti partnerius.
Bendrovė tvirtino, kad leidimai žymi svarbų etapą, kaip išspręsti AGI fiziniame pasaulyje. Pristatydama agentų galimybes, „Google“ teigė, kad ji pereina ne tik į AI modelius, kurie reaguoja į komandas ir kuriant sistemas, kurios gali pagrįsti, suplanuoti, aktyviai naudoti įrankius ir apibendrinti.
„DeepMind“ projektuoja agentinę fizinių užduočių patirtį
https://www.youtube.com/watch?v=amrxbio04KQ
Daugeliui kasdienių užduočių reikia kontekstinės informacijos ir kelis veiksmus, kuriuos reikia atlikti, todėl robotams jie yra nepaprastai sudėtingi. Štai kodėl „DeepMind“ suprojektavo šiuos du modelius, kad kartu veiktų agentinėje sistemoje.
„Gemini Robotics-ER 1.5“ organizuoja roboto veiklą, pavyzdžiui, aukšto lygio smegenis. „Deepmind“ teigė, kad šis modelis puikiai planuoja ir priima loginius sprendimus fizinėje aplinkoje. Jis turi moderniausią erdvinį supratimą, sąveikauja su natūralia kalba, įvertina jos sėkmę ir pažangą ir gali natūraliai skambinti į tokius įrankius kaip „Google“ paieška, norėdama ieškoti informacijos arba naudoti bet kurias trečiųjų šalių vartotojo apibrėžtas funkcijas.
VLM pateikia „Dvynių robotiką“ 1.5 Natūralios kalbos instrukcijos kiekvienam žingsniui, kurios naudoja jo viziją ir kalbos supratimą tiesiogiai atlikti konkrečius veiksmus. „Gemini Robotics 1.5“ taip pat padeda robotui galvoti apie savo veiksmus, kad geriau išspręstų semantiškai sudėtingas užduotis ir netgi gali paaiškinti savo mąstymo procesus natūralia kalba – padaryti savo sprendimus skaidresnius.
Abu šie modeliai yra sukurti pagal pagrindinę „Dvynių“ modelių šeimą ir buvo tiksliai suderinti su skirtingais duomenų rinkiniais, kurie specializuojasi atitinkamuose vaidmenyse. Derindami jie padidina roboto sugebėjimą apibendrinti iki ilgesnių užduočių ir įvairesnės aplinkos, sakė „Deepmind“.
Robotai gali suprasti aplinką ir galvoti prieš vaidindami
https://www.youtube.com/watch?v=edyxeh8xqjm
„Gemini Robotics-ER 1.5“ yra mąstymo modelis, optimizuotas įkūnijamam samprotavimui, sakė „Google Deepmind“. Bendrovė teigė, kad ji „pasiekia moderniausius rezultatus tiek akademiniuose, tiek vidiniuose etalonuose, įkvėptas realaus pasaulio naudojimo atvejų iš mūsų patikimos testerio programos“.
„DeepMind“ įvertino „Dvynių robotiką-ER 1.5“ 15 akademinių etalonų, įskaitant įkūnytą samprotavimo klausimo atsakymą (ERQA) ir taškinį stendą, matuojant modelio atlikimą rodymo, atsakymo į vaizdo klausimą ir vaizdo klausimą.
VLA modeliai tradiciškai verčia instrukcijas ar kalbinius planus tiesiai į roboto judėjimą. „Gemini Robotics 1.5“ žengia žingsnį toliau, leisdamas robotui galvoti prieš imdamasi veiksmų, sakė „Deepmind“. Tai reiškia, kad ji gali generuoti vidinę samprotavimo ir analizės seką natūralioje kalboje, kad atliktų užduotis, kurioms reikia kelių žingsnių, arba reikia gilesnio semantinio supratimo.
„Pvz., Atlikdamas tokią užduotį, kaip„ Rūšiuokite mano skalbinius pagal spalvas “, žemiau esančiame vaizdo įraše esančiame robotas galvoja skirtingais lygiais“, – rašė Deepmind. „Pirma, jis supranta, kad rūšiavimas iš spalvų reiškia, kad baltų drabužių įdėjimas į baltą šiukšliadėžę ir kitas spalvas juodoje šiukšliadėžėje. Tada galvoja apie tai, kaip imamasi žingsnių, pavyzdžiui, renka raudoną megztinį ir įdėkite jį į juodą šiukšliadėžę, ir apie detalų judesį, pavyzdžiui, megztinio judėjimo arčiau arčiau, kad jį lengviau pasiimti“.
Daugiapakopio mąstymo proceso metu VLA modelis gali nuspręsti ilgesnes užduotis paprastesniais, trumpesniais segmentais, kuriuos robotas gali sėkmingai vykdyti. Tai taip pat padeda modeliui apibendrinti, kaip išspręsti naujas užduotis ir būti tvirtesnės jo aplinkos pokyčiams.
Dvyniai mokosi visų įgyvendinimo variantų
https://www.youtube.com/watch?v=9fv5zyytkoq
Robotai būna visų formų ir dydžių, ir jie turi skirtingas jutimo galimybes ir skirtingą laisvės laipsnį, todėl sunku perkelti judesius, išmoktus iš vieno roboto į kitą.
Deepmind teigė, kad „Dvynių robotika 1.5“ rodo puikų sugebėjimą mokytis įvairiuose įgyvendinimo variantuose. Tai gali perduoti judesius, išmoktus iš vieno roboto į kitą, nereikia specializuotis modeliui iki kiekvieno naujo įgyvendinimo varianto. Tai pagreitina mokymąsi naujo elgesio, padedant robotams tapti protingesniais ir naudingesniais.
Pavyzdžiui, „Deepmind“ pastebėjo, kad užduotys mokėsi tik „Aloha 2“ robotui, taip pat tiesiog dirbant su „Apptronik“ humanoidiniu robotu, „Apollo“ ir „Bi-Arm Franka“ robotu, ir atvirkščiai.
„Deepmind“ teigė, kad „Gemini Robotics 1.5“ įgyvendina holistinį požiūrį į saugumą per aukšto lygio semantinius samprotavimus, įskaitant mąstymą apie saugumą prieš veikiant, užtikrinant pagarbų dialogą su žmonėmis, suderinant su esama „Dvynių saugos politika“ ir, jei reikia, sukeldami žemo lygio saugos posistemes (pvz.
Siekdama padėti saugiai tobulinti „Gemini“ robotikos modelius, „DeepMind“ taip pat išleidžia „Asimov“ etalono atnaujinimą, išsamią duomenų rinkinių kolekciją, skirtą įvertinti ir tobulinti semantinę saugą, geresnę uodegos aprėptį, patobulintus anotacijas, naujus saugos klausimų tipus ir naujus vaizdo būdus. Savo saugumo vertinimuose „Asimovo“ etalone, „Gemini Robotics-ER 1.5“ rodo moderniausius rezultatus, o jo mąstymo gebėjimas žymiai prisideda prie geresnio semantinio saugumo supratimo ir geresnio fizinio saugumo apribojimų supratimo.
Redaktoriaus pastaba: „Robobusiness 2025“, kuris vyks spalio 15 ir 16 dienomis Santa Klaroje, Kalifornijoje, apims kūrinius apie fizinę AI ir humanoidinius robotus. Registracija dabar atidaryta.
