„Google DeepMind“ pristato du „Dvynių“ modelius, kad AI būtų atnešta į realų pasaulį

Estimated read time 6 min read

„Google“ robotikos komanda taiko kompetenciją mašinų mokymosi, inžinerijos ir fizikos modeliavime, siekdama išspręsti iššūkius, su kuriais susiduria AI varomų robotų plėtra. | Šaltinis: „Deepmind“

Šiandien „Google Deepmind“ pristatė du naujus dirbtinio intelekto modelius: „Gemini Robotics“, „Gemini 2.0“ pagrįstą modelį, skirtą robotikai, ir „Dvynių robotikai“, „Dvynių“ modelį, turintį pažangų erdvinį supratimą.

„Deepmind“ teigė, kad tai padarė pažangą, kaip „Dvyniai“ išsprendžia sudėtingas problemas per multimodalinius samprotavimus, susijusius su tekstu, vaizdais, garsu ir vaizdo įrašu. Dabar, naudodamiesi šiais naujais modeliais, tai išskiria šias galimybes iš skaitmeninio ir į realų pasaulį.

„Gemini Robotics“, yra pažangiausias vizijos kalbos (VLA) modelis, sukurtas ant „Dvynių 2.0“. Tai pridėjo fizinius veiksmus kaip naują išvesties būdą, kad būtų galima tiesiogiai valdyti robotus.

„Gemini Robotics-ER“ siūlo pažangų erdvinį supratimą, leidžiantį robotizams vykdyti savo programas, naudodamas „Dvynių“ įkūnytus samprotavimo (ER) sugebėjimus.

„Deepmind“ teigė, kad abu šie modeliai suteikia galimybę įvairiems robotams atlikti platesnį realaus pasaulio užduočių spektrą nei bet kada anksčiau. Vykdydamas savo pastangas, „DeepMind“ bendradarbiauja su „Apptronik“ kurdamas humanoidinius robotus su „Gemini 2.0“.

„Google“ padalinys taip pat bendradarbiauja su patikimais testeriais, kad vadovautųsi „Dvynių robotikos-er“ ateitimi. Jie apima judrus robotus, judrumo robotiką, Bostono dinamiką ir „Enchanted Tools“.


2025 m. Robotikos viršūnių susitikimo registracijos svetainės skelbimas.
Registruokitės dabar, kad nepraleistumėte!


Kaip padaryti AI naudingą realiame pasaulyje

Remiantis „Deepmind“ tinklaraščio įrašu, kad būtų naudinga ir naudinga žmonėms, AI modeliams, skirtoms robotikai, reikia trijų pagrindinių savybių:

  • Jie turi būti bendrieji, tai reiškia, kad jie gali prisitaikyti prie skirtingų situacijų.
  • Jie turi būti interaktyvūs, kad galėtų greitai suprasti ir greitai reaguoti į instrukcijas ar pokyčius savo aplinkoje.
  • Jie turi būti niūrūs, tai reiškia, kad jie gali daryti tokius dalykus, kuriuos žmonės paprastai gali padaryti rankomis ir pirštais, pavyzdžiui, kruopščiai manipuliuoti daiktais.

Ankstesnis organizacijos darbas parodė tam tikrą pažangą šiose srityse, „Gemini“ robotika yra svarbus visų trijų ašių atlikimo žingsnis.

https://www.youtube.com/watch?v=sy20x_tywpq

„Deepmind“ pabrėžia bendrumą ir interaktyvumą

„Gemini Robotics“ naudoja „Dvynių“ pasaulio supratimą, kad apibendrintų naujomis situacijomis ir išspręstų įvairias užduotis, įskaitant užduotis, įskaitant užduotis, kurios dar niekada nebuvo matomos mokymuose. „Gemini“ robotika taip pat yra tinkama spręsti naujus objektus, įvairias instrukcijas ir naują aplinką, tvirtino „Google“.

Jis teigė, kad vidutiniškai „Gemini“ robotika daugiau nei dvigubai padidina išsamų apibendrinimo etaloną, palyginti su kitais VLA modeliais.

Be genrealumo, svarbiausia yra ir interaktyvumas. Norėdami veikti mūsų dinamiškame, fiziniame pasaulyje, robotai turi sugebėti sklandžiai bendrauti su žmonėmis ir jų supančia aplinka ir prisitaikyti prie pokyčių skrendant.

Kadangi jis yra pastatytas ant „Gemini 2.0“ pamatų, Deepmind teigė, kad „Dvynių robotika“ yra intuityviai interaktyvi. Tai įsitraukia į „Gemini“ pažangias kalbos galimybes ir gali suprasti bei reaguoti į komandas, suformuluotas kasdieniuose pokalbiuose ir skirtingomis kalbomis.

Modelis gali suprasti ir reaguoti į daug platesnę natūralios kalbos instrukcijų rinkinį nei ankstesni modeliai, pritaikant jo elgesį su vartotojo įvestimi, sakė „Deepmind“. Tai taip pat nuolat stebi savo aplinką, nustato jo aplinkos ar instrukcijų pokyčius ir atitinkamai koreguoja savo veiksmus. Tokia kontrolė arba „valdymas“ gali geriau padėti žmonėms bendradarbiauti su robotų padėjėjais įvairiose vietose, nuo namų iki darbo vietos, sakė bendrovė.

https://www.youtube.com/watch?v=hyqs2oaif-i

Visų formų ir dydžių robotams reikia didelio miklumo

Deepmind teigė, kad trečiasis raktas naudingo roboto kūrimo ramstis veikia su miklumu. Daugybė kasdienių užduočių, kurias žmonės atlieka be vargo, reikalauja smulkiosios motorikos ir vis dar yra per sunkios robotams.

Atvirkščiai, „Dvynių robotika“ gali įveikti ypač sudėtingas, daugiapakopes užduotis, kurioms reikalingas tikslus manipuliavimas, pavyzdžiui, origami sulankstymas arba užkandis supakuoti į „Ziploc“ maišą, paaiškino.

Be to, „Deepmind“ teigė, kad jis sukūrė „Gemini“ robotiką, kad prisitaikytų prie skirtingų formos veiksnių robotų. Bendrovė pirmiausia mokė modelį pagal „Bi-Arm“ robotų platformos „Aloha 2“ duomenis, tačiau ji taip pat parodė, kad modelis gali kontroliuoti dviejų ginklų platformą, pagrįstą „Franka“ ginklais, naudojamais daugelyje akademinių laboratorijų.

„Deepmind“ pažymėjo, kad „Dvynių robotika“ taip pat gali būti specializuota sudėtingesniems įgyvendinimo variantuose, tokiems kaip „AppTronik“ sukurtas humanoidinis „Apollo“ robotas, siekiant atlikti realaus pasaulio užduotis.

https://www.youtube.com/watch?v=x-exzz-ciuw

„Gemini Robotics-ER“ daugiausia dėmesio skiria erdviniams samprotavimams

„Gemini Robotics-Er“ sustiprina Dvynių supratimą apie pasaulį tokiu būdu, reikalingu robotikai, ypač daugiausia dėmesio skiriant erdviniams samprotavimams. Tai taip pat leidžia robotikams sujungti jį su esamais žemo lygio valdikliais. Deepmind teigė, kad modelis žymiai pagerina esamus „Gemini 2.0“ sugebėjimus, tokius kaip rodymas ir 3D aptikimas.

Derindamas erdvinius samprotavimus ir „Dvynių“ kodavimo sugebėjimus, „Gemini Robotics-ER“ gali paskatinti visiškai naujas galimybes skrendant, tvirtino „Deepmind“. Pvz., Kai parodytas kavos puodelis, modelis gali tinkamai suvokti dviejų pirštų suvokimą, kad jis galėtų pasiimti rankeną ir saugią trajektoriją, skirtą artėjant prie jo.

„Google“ duomenimis, „Gemini Robotics-Er“ gali atlikti visus veiksmus, reikalingus robotui valdyti tiesiai iš dėžutės, įskaitant suvokimą, būsenos įvertinimą, erdvinį supratimą, planavimą ir kodų generavimą. Tokiame nustatyme nuo galo modelis yra du ar tris kartus sėkmingesnis nei „Gemini 2.0“.

Kai kodo generavimo nepakanka, „Dvynių robotika-er“ gali panaudoti mokymosi kontekste galią, remdamasis saujelės žmogaus demonstracijų modeliais, kad būtų pateiktas sprendimas.

„DeepMind“ svarsto robotų saugumą pagal „Dvynių“ metodą

„Deepmind“ teigė, kad tyrinėjant AI ir robotikos potencialą, jis laikosi sluoksniuoto, holistinio požiūrio į saugumą, pradedant žemo lygio variklio valdymu ir baigiant aukšto lygio semantiniu supratimu.

„Gemini Robotics-ER“ gali sąsają su „žemo lygio“ saugos valdikliais daryti tokius dalykus, kaip išvengti susidūrimų, apriboti kontaktinių jėgų dydį ir užtikrinti mobiliųjų robotų dinaminį stabilumą.

Remdamasis pagrindinėmis „Gemini“ saugos funkcijomis, organizacija suteikia galimybę „Gemini Robotics-ER“ modeliams suprasti, ar potencialus veiksmas yra saugus atlikti tam tikrame kontekste, ar ne, ir generuoti tinkamus atsakymus.

https://www.youtube.com/watch?v=4MVGNMMP3C0

„DeepMind“ siekia toliau tyrinėti naują duomenų rinkinį

Siekdama patobulinti robotikos saugos tyrimus visoje akademinėje bendruomenėje ir pramonėje, „DeepMind“ taip pat išleido naują duomenų rinkinį, skirtą įvertinti ir pagerinti semantinę saugumą įkūnijtoje AI ir robotikoje. Ankstesniame darbe tai parodė, kaip „robotų konstitucija“, įkvėpta Izaoko Asimovo trijų robotikos įstatymų, galėtų padėti paskatinti didelį kalbos modelį (LLM) pasirinkti saugesnes robotų užduotis.

Nuo to laiko organizacija sukūrė sistemą, skirtą automatiškai generuoti duomenis pagrįstas konstitucijas-taisykles, tiesiogiai išreikštas natūralia kalba-siekiant valdyti roboto elgesį. Ši sistema leistų žmonėms kurti, modifikuoti ir pritaikyti konstitucijas, kad būtų galima sukurti saugesnius robotus ir labiau suderinti su žmogiškomis vertybėmis.

Galiausiai naujasis Asimovo duomenų rinkinys padės tyrėjams griežtai įvertinti robotų veiksmų saugos poveikį realaus pasaulio scenarijuose, sakė „Deepmind“.


Source link

Jums tai gali patikti

Daugiau iš autoriaus