NVIDIA skelbia „fizinio AI“ erą su „Cosmos“ platformos paleidimu

Estimated read time 7 min read

Per ilgai dirbtinis intelektas buvo įstrigęs Flatlande, dvimačiame pasaulyje, kurį įsivaizdavo anglų mokyklos mokytojas Edwinas Abbotas Abbotas. Nors pokalbių robotai, vaizdų generatoriai ir AI valdomi vaizdo įrankiai mus apakino, jie lieka tik plokščiuose mūsų ekranų paviršiuose.

Dabar NVIDIA griauna Flatlando sienas, pradėdama „fizinio AI“ erą – pasaulį, kuriame dirbtinis intelektas gali suvokti, suprasti ir sąveikauti su mus supančiu trimačiu pasauliu.

„Kita AI riba yra fizinis DI. Įsivaizduokite didelį kalbos modelį, bet užuot apdorojęs tekstą, jis apdoroja aplinką“, – sakė NVIDIA generalinis direktorius Jensenas Huangas. „Užuot priėmus klausimą kaip raginimą, reikia pateikti prašymą. Užuot kūręs tekstą, jis sukuria veiksmų žetonus

Kuo tai skiriasi nuo tradicinės robotikos? Tradiciniai robotai paprastai yra iš anksto užprogramuoti atlikti specifines, pasikartojančias užduotis kontroliuojamoje aplinkoje. Jie pasižymi automatizavimu, tačiau neturi gebėjimo prisitaikyti ir suprasti netikėtas situacijas arba naršyti sudėtingoje, dinamiškoje aplinkoje.

Kimberly Powell, NVIDIA sveikatos priežiūros viceprezidentė, per savo pranešimą JP Morgan sveikatos priežiūros konferencijoje kalbėjo apie sveikatos priežiūros aplinkos potencialą:

„Kiekvienas jutiklis, kiekvienas paciento kambarys, kiekviena ligoninė integruos fizinį AI“, – sakė ji. „Tai nauja koncepcija, tačiau paprastas būdas galvoti apie fizinį AI yra tai, kad jis supranta fizinį pasaulį.

Supratimas yra reikalo esmė. Nors tradicinės dirbtinio intelekto ir autonominės sistemos gali veikti fizinėje erdvėje, joms istoriškai trūko holistinio pasaulio suvokimo, išskyrus tai, ko reikia pagrindinėms užduotims atlikti.

Pažangios AI sistemos nuolat auga, nes GPU našumas spartėja. Lapkričio mėnesio podcast’o „No Priors“ epizode Huangas atskleidė, kad NVIDIA per 12 mėnesių padidino savo „Hopper“ architektūros našumą penkis kartus, išlaikydama taikomųjų programų sąsajos (API) suderinamumą aukštesniuose programinės įrangos sluoksniuose. Naujausia jo architektūra yra Blackwell.

„Patobulinti penkis kartus per vienerius metus neįmanoma naudojant tradicinius skaičiavimo metodus“, – pažymėjo Huangas. Jis paaiškino, kad pagreitintas skaičiavimas kartu su techninės ir programinės įrangos bendro projektavimo metodikomis leido NVIDIA „išrasti visokių naujų dalykų“.

Huangas taip pat aptarė savo požiūrį į dirbtinį bendrąjį intelektą (AGI), teigdamas, kad AGI ne tik pasiekiamas, bet ir dirbtinė bendroji robotika artėja prie technologinių galimybių.

Powellas pakartojo panašią nuotaiką savo kalboje JP Morgan. Dirbtinio intelekto revoliucija ne tik čia, bet ir labai spartėja“, – sakė ji.

Powellas pažymėjo, kad NVIDIA pastangos dabar apima viską nuo pažangios robotikos gamyboje ir sveikatos priežiūros srityje iki modeliavimo įrankių, tokių kaip „Omniverse“, kurie sukuria fotorealistinę aplinką mokymams ir bandymams.

Lygiagrečiai plėtodama NVIDIA pristatė naujas skaičiavimo sistemas, skirtas autonominėms sistemoms kurti. „Cosmos World Foundation Models“ (WFM) platforma palaiko vaizdinių ir fizinių duomenų apdorojimą dideliu mastu, naudojant sistemas, skirtas autonominėms transporto priemonėms ir robotų programoms.

NVIDIA Cosmos turi keturis pagrindinius architektūrinius komponentus: autoregresyvų modelį nuosekliam kadrų numatymui, difuzijos modelį, skirtą kartotiniam vaizdo įrašų generavimui, vaizdo atpažinimo priemonę efektyviam glaudinimui ir vaizdo apdorojimo vamzdyną duomenų tvarkymui. Šie komponentai sudaro integruotą platformą pasaulio modeliavimui ir vaizdo įrašų generavimui. | Šaltinis: NVIDIA

Tokenizuojanti tikrovę

Praėjusią savaitę vykusioje parodoje CES 2025 Huangas pabrėžė, kuo „fizinis AI“ skirsis nuo į tekstą orientuotų didelių kalbų modelių (LLM): „O kas, jei užuot raginimas būtų klausimas, o prašymas – eik ten ir išsirink pakelti tą dėžę ir grąžinti? Ir užuot gaminęs tekstą, jis gamina veiksmų žetonus? Tai labai protingas dalykas robotikos ateičiai, o technologija yra visai šalia.

Tame pačiame „No Priors“ podcast’e Huangas pažymėjo, kad didelė multimodalinių LLM paklausa gali paskatinti robotikos pažangą. „Jei galite sukurti vaizdo įrašą, kaip aš pasiimu kavos puodelį, kodėl negalite paraginti roboto padaryti to paties? – paklausė jis.

Huangas taip pat pabrėžė „rudojo lauko“ galimybes robotikoje, kur nereikia jokios naujos infrastruktūros, kaip geriausius pavyzdžius nurodydamas savarankiškai važiuojančius automobilius ir žmogaus formos robotus. „Mes sukūrėme savo pasaulį automobiliams ir žmonėms. Tai yra natūraliausios fizinio AI formos.

Kosmoso struktūriniai pagrindai

„Cosmos“ reklaminis vaizdas, kuriame pavaizduotas sugeneruotas robotas, laikantis vairą.

„Cosmos“ reklaminis vaizdas. | Šaltinis: NVIDIA

NVIDIA „Cosmos“ platformoje akcentuojamas fiziškai pagrįstas vaizdo modeliavimas ir jutiklių duomenų apdorojimas. Jame taip pat pristatoma WFM mokymo ir diegimo sistema, kurios parametrų dydis svyruoja nuo keturių iki 14 milijardų, skirtas apdoroti įvairiarūšes įvestis, įskaitant vaizdo įrašą, tekstą ir jutiklių duomenis.

Sistemos architektūra apima fizikinius vaizdo modelius, parengtus naudojant maždaug 9000 trilijonų žetonų, sudarytų iš 20 milijonų valandų robotikos ir vairavimo duomenų. Platformos duomenų apdorojimo infrastruktūra naudoja „NeMo Curator“ dujotiekį, kuris leidžia apdoroti didelio našumo vaizdo įrašus paskirstytose skaičiavimo grupėse.

Ši architektūra palaiko ir autoregresinius, ir difuzijos modelius, skirtus kurti fizikos pagrindus atitinkančius modelius, o etaloniniai rodikliai rodo iki 14 kartų didesnį pozos įvertinimo tikslumą, palyginti su pradiniais vaizdo sintezės modeliais. Sistemos tokenizatorius įgyvendina 8 kartų glaudinimo laipsnį vaizdiniams duomenims, išlaikant laikiną nuoseklumą, būtiną realiojo laiko robotikos programoms.

Fizinio AI vizija

Pasaulio pamatų modelių (WFM) kūrimas rodo AI sistemų sąveikos su fiziniu pasauliu pokyčius. Fizinio modeliavimo sudėtingumas kelia unikalių iššūkių, išskiriančių WFM nuo įprastų kalbų modelių.

„(Pasaulio modelis) turi suprasti fizinę dinamiką, tokius kaip gravitacija, trintis ir inercija. Ji turi suprasti geometrinius ir erdvinius santykius“, – aiškino Huangas. Šis išsamus fizikos principų supratimas skatina tokių sistemų, kaip „Cosmos“, architektūrą, kuri diegia specializuotus neuroninius tinklus fizinei sąveikai modeliuoti.

Fizinių AI sistemų kūrimo metodika yra lygiagreti LLM, tačiau su skirtingais veiklos reikalavimais. Huangas aiškiai nubrėžė šį ryšį: „Įsivaizduokite, kad jūsų didelis kalbos modelis suteikia jam kontekstą, raginimą kairėje pusėje ir jis generuoja žetonus.

Platūs platformos mokymo reikalavimai atitinka Huango pastebėjimą, kad „mastelio keitimo įstatymas sako, kad kuo daugiau duomenų turite, tuo daugiau mokymo duomenų turite, tuo didesnį modelį turite ir kuo daugiau skaičiavimų jam taikote, todėl tuo efektyvesnis , arba tuo jūsų modelis taps pajėgesnis.

Šį principą iliustruoja „Cosmos“ 9000 trilijonų žetonų mokymo duomenų rinkinys, parodantis skaičiavimo mastą, reikalingą efektyvioms fizinėms AI sistemoms.

Vaizdas iliustruoja NVIDIA Isaac GR00T technologiją, kurioje pavaizduotas žmogus, naudojantis VR ausines, kad demonstruotų judesius, kuriuos imituoja robotas humanoidas imituotoje aplinkoje. Demonstracijoje akcentuojamas teleoperatoriaus pagrindu sukurta sintetinė judesio generacija, skirta mokyti naujos kartos robotines sistemas.

Vaizdas iliustruoja NVIDIA Isaac GR00T technologiją, kurioje pavaizduotas žmogus, naudojantis VR ausines, kad demonstruotų judesius, kuriuos imituoja robotas humanoidas imituotoje aplinkoje. Demonstracijoje akcentuojamas teleoperatoriaus pagrindu sukurta sintetinė judesio generacija, skirta mokyti naujos kartos robotines sistemas. | Šaltinis: NVIDIA

Ateities pasekmės

Fizinis AI gali pakeisti daugiau nei tradiciniai robotikos naudotojai. Lygiagrečiai su fizinio AI pažanga, AI agentai taip pat greitai plečia savo įgūdžių rinkinius. Huangas tokius agentus apibūdino kaip „naują skaitmeninę darbo jėgą, dirbančią mums ir su mumis“.

Nesvarbu, ar tai būtų gamybos, sveikatos priežiūros, logistikos ar kasdienių vartotojų technologijos, šie išmanieji agentai gali atleisti žmones nuo pasikartojančių užduočių, veikti nuolat ir prisitaikyti prie greitai kintančių sąlygų. Jo žodžiais: „Labai, labai aišku, kad dirbtinio intelekto agentai tikriausiai yra kita robotikos pramonė ir greičiausiai bus kelių trilijonų dolerių galimybė“.

Kaip sakė Huangas, artėjame prie laiko, kai dirbtinis intelektas „bus su jumis“ nuolat, sklandžiai integruotas į mūsų gyvenimą. Jis nurodė Metos išmaniuosius akinius kaip ankstyvą pavyzdį, numatantį ateitį, kurioje galime tiesiog gestais arba balsu bendrauti su savo AI kompanionais ir pasiekti informaciją apie mus supantį pasaulį.

Pasak Huango, šis perėjimas prie intuityvių, visada veikiančių AI padėjėjų turi didelę įtaką mūsų mokymuisi, darbui ir naršymui aplinkoje.

„Žinoma, intelektas yra pats vertingiausias turtas, kurį turime, ir jį galima pritaikyti sprendžiant daugybę labai sudėtingų problemų“, – sakė jis.

Žvelgiant į ateitį, užpildytą nuolatiniais AI agentais, įtraukiančia papildyta realybe ir trilijonų dolerių galimybėmis robotikoje, „Flatland AI“ amžius artėja prie pabaigos, o tikrasis pasaulis taps didžiausia AI drobe. .

Redaktoriaus pastaba: Šis straipsnis buvo sindikuotas iš Roboto ataskaita brolių ir seserų svetainė R&D pasaulis.


SVETAINĖS SKELBIMAS, skirtas 2025 m. Robotics Summit registracijai.
Registruokitės šiandien ir sutaupykite 40% konferencijos bilietų!



Source link

Jums tai gali patikti

Daugiau iš autoriaus