„Ai2“ teigia, kad jo „Molmo 2“ daugiarūšis AI modelis gali padaryti daugiau su mažiau duomenų

Estimated read time 5 min read

„Ai2“ teigė, kad „Molmo 2“ pagerina ankstesnius modelius, nepaisant kompaktiško dydžio. | Šaltinis: Ai2

Allen Institute for AI, dar žinomas kaip Ai2, praėjusią savaitę išleido Molmo 2 – naujausią kelių modelių rinkinį, galintį tiksliai suprasti vaizdo, vaizdo ir kelių vaizdų rinkinius erdvėje ir laike. Pirmosios „Molmo“ platformos pagrindu sukurtas „Molmo 2“ turi pažangias vaizdo nukreipimo, kelių kadrų samprotavimų ir objektų sekimo galimybes.

Molmo 2 yra 8B parametrų modelis, kuris pranoksta praėjusių metų 72B parametrų Molmo tikslumu, laiko supratimu ir pikselių lygio įžeminimu. „Ai2“ teigė, kad ji taip pat geriausiai tinka patentuotiems modeliams, tokiems kaip „Gemini 3“, dėl pagrindinių naujų įgūdžių, pavyzdžiui, vaizdo stebėjimo.

Kalbant apie vaizdo ir kelių vaizdų samprotavimus, Ai2 teigė, kad „Molmo 2 4B“ variantas lenkia atvirus modelius, tokius kaip „Qwen 3-VL-8B“, ir naudoja mažiau parametrų. Tokie įgūdžiai padeda modeliui ir bet kuriai ant jo sukurtai programai ar sistemai suprasti, kas vyksta, kur tai vyksta ir ką tai reiškia.

„Molmo 2“ taip pat turi daug mažiau duomenų nei panašūs modeliai – 9,19 mln. vaizdo įrašų, palyginti su 72,5 mln. „Meta's PerceptionLM“.

„Turėdamas nedidelę dalį duomenų, Molmo 2 pranoksta daugelį pagrindinių vaizdo supratimo užduočių modelių“, – sakė Ai2 generalinis direktorius Ali Farhadi. „Džiaugiamės matydami, kokį didžiulį poveikį šis modelis turės AI kraštovaizdžiui, papildydamas mūsų visiškai atvirą modelio ekosistemą.

Ai2 yra Sietle įsikūręs ne pelno siekiantis dirbtinio intelekto tyrimų institutas, kurio misija yra kurti dirbtinį intelektą siekiant išspręsti didžiausias pasaulio problemas. 2014 m. velionio „Microsoft“ įkūrėjo Paulo G. Alleno įkurta „Ai2“ teigė, kad plėtoja pagrindinius AI tyrimus ir naujas programas naudodama didelio masto atvirus modelius, atvirus duomenis, robotiką, išsaugojimo platformas ir kt.

„Molmo 2“ siūlo naujas galimybes

Gilus vaizdo supratimas yra labai svarbus kuriant modelius, kurie gali suprasti ir veikti robotikos jutiklių srautus. Tačiau dauguma modelių šiandien arba neturi vaizdo supratimo galimybių, arba yra užrakinti už patentuotų sistemų be duomenų skaidrumo. „Ai2“ teigė, kad suteikia mokslininkams prieigą prie pažangaus vaizdo įžeminimo, stebėjimo ir kelių kadrų samprotavimų, naudojant atvirus svorius ir duomenis.

„Molmo 2“ gali tiksliai nustatyti, kur ir kada įvyksta įvykiai, stebėti kelis objektus per sudėtingas scenas ir susieti veiksmus su kadro lygio laiko juostomis. Bendrovė teigė, kad šios galimybės palaiko saugesnę automatizavimą, tikslesnes realaus pasaulio sistemas ir atvirus tyrimus, kuriuos pasaulinė bendruomenė gali tikrinti, atkurti ir remtis.

Ai2 išvardytos pagrindinės galimybės:

  • Rėmo lygio erdvinis ir laiko įžeminimas: „Molmo 2“ neapsiriboja aprašymu. Jis pateikia tikslias vaizdo įrašo įvykių pikselių koordinates, objektų padėtis ir laiko žymes.
  • Tvirtas kelių objektų sekimas ir skaičiavimas: Modelis palaiko nuoseklias objektų tapatybes per okliuzijas, scenos pokyčius ir ilgus klipus, todėl galima pritaikyti robotikoje, tikrinimo, transportavimo ir pramonės srityse.
  • Tankus ilgos formos vaizdo antraštės ir anomalijų aptikimas: „Molmo 2“ sukuria labai išsamius aprašymus, kuriuose galima ieškoti, ir žymi neįprastus įvykius ilgomis sekomis.

„Molmo 2“ pasiekia pagrindinius atvirojo svorio etalonus, sako „Ai2“.

„Molmo 2“ duoda rezultatų pagal pagrindinius atvirojo svorio etalonus ir prilygsta pirmaujančioms patentuotoms sistemoms atliekant realaus pasaulio vaizdo užduotis. Modelis atitinka pirmaujančius atvirojo svorio našumą trumpų vaizdo įrašų supratimo etalonuose, pvz., MVBench, MotionQA ir NextQA.

Tai pagerina vaizdo įžeminimo tikslumą, dažnai padvigubina arba patrigubina ankstesnių atvirų modelių balus ir pranoksta patentuotas API keliose nukreipimo ir skaičiavimo užduotyse, teigė Ai2. Modelis taip pat siūlo stebėjimo rezultatus pagal kelių domenų etalonus, pranokstančias stiprias atviras bazines linijas ir kelis komercinius uždarus modelius.

Be to, Molmo 2 turi vaizdo ir kelių vaizdų samprotavimus, kurie konkuruoja arba pranoksta didesnes atvirojo svorio sistemas, nepaisant to, kad naudoja mažiau parametrų. „Ai2“ tvirtino, kad žmogaus pasirinkimo vertinimai parodė, kad „Molmo 2“ yra lygiavertis arba geresnis už kelias patentuotas sistemas realaus vaizdo kokybės užtikrinimo ir antraščių užduočių srityje.

Ai2 siūlo atvirus duomenis ir receptus

Siekiant skaidrumo ir atkuriamumo, visi Molmo 2 mokymo šaltiniai pateikiami techninėje ataskaitoje. „Ai2“ taip pat išleidžia devynių naujų atvirų duomenų rinkinių, naudojamų „Molmo 2“ mokymui, kolekciją, kurioje yra daugiau nei 9 milijonai daugiarūšių pavyzdžių, apimančių tankius vaizdo įrašų antraštes, ilgos formos kokybės užtikrinimą, įžeminimą, sekimą ir kelių vaizdų samprotavimus.

Vien tik subtitrų korpusas apima daugiau nei 100 000 vaizdo įrašų su išsamiais aprašymais, kurių kiekvienas vidutiniškai sudaro daugiau nei 900 žodžių. Duomenų rinkinys apima vaizdo rodymą, kelių objektų sekimą, sintetinį įžeminimą ir ilgalaikį vaizdo samprotavimą. Kartu jie sudaro vieną iš išsamiausių šiandien prieinamų atvirų vaizdo įrašų duomenų rinkinių, teigė Ai2.

„Molmo 2“ yra trijų pagrindinių variantų: „Molmo 2“ (4B), „Molmo2“ (8B) ir „Molmo 2-O“ (7B), kuris naudoja visiškai atvirą „Ai2“ „Olmo“ pagrindą visam modelio srautui nuo galo iki galo. Taip pat yra versijų, pritaikytų specialiai nukreipimui ir sekimui.

Visi modeliai, duomenų rinkiniai ir vertinimo įrankiai dabar yra viešai prieinami „GitHub“, „Hugging Face“ ir „Ai2 Playground“, kad būtų galima interaktyviai išbandyti. Įmonė planuoja netrukus išleisti mokymo kodą.


2026 m. robotikos aukščiausiojo lygio susitikimo SVETAINĖS SKELBIMAS išsaugokite datą.

Nuoroda į informacijos šaltinį

Jums tai gali patikti

Daugiau iš autoriaus