EBIND modelis leidžia dirbtinio intelekto komandoms naudoti daugiarūšius duomenis. Šaltinis: „StockBuddies“, AI, per „Adobe Stock“.
Kadangi robotai sprendžia vis sudėtingesnes aplinkas ir užduotis, jų dirbtinis intelektas turi sugebėti apdoroti ir naudoti duomenis iš daugelio šaltinių. „Encord“ šiandien pristatė EBIND – įterpimo modelį, kuris, pasak jos, leidžia dirbtinio intelekto komandoms patobulinti agentų, robotų ir kitų dirbtinio intelekto sistemų, naudojančių multimodalinius duomenis, galimybes.
„Šiandien pristatytas EBIND modelis dar labiau parodo Encord į duomenis orientuoto požiūrio į pažangą multimodalinėje AI galią“, – teigė Ulrikas Stigas Hansenas, „Encord“ įkūrėjas ir prezidentas. „Modelio greitis, našumas ir funkcionalumas yra įmanomi dėl aukštos kokybės E-MM1 duomenų rinkinio, kurio pagrindu jis buvo sukurtas. Tai dar kartą parodo, kad dirbtinio intelekto komandoms nereikia varžyti skaičiavimo galios, kad būtų galima peržengti ribas, kas įmanoma šioje srityje.
2021 m. įkurta „Encord“ teikia fizinio ir daugiarūšio dirbtinio intelekto duomenų infrastruktūrą. Bendrovė, turinti biurus Londone ir San Franciske, teigė, kad jos platforma leidžia dirbtinio intelekto laboratorijoms, žmonių duomenų įmonėms ir įmonių AI komandoms kuruoti, žymėti ir valdyti AI modelių ir sistemų duomenis. Jame naudojamos agentinės ir „žmogaus ciklo“ darbo eigos, todėl šios komandos gali dirbti su kelių tipų duomenimis.
EBIND sukurta remiantis E-MM1 duomenų rinkiniu, apima penkis būdus
„Encord“ sukūrė EBIND pagal neseniai išleistą E-MM1 duomenų rinkinį, kuris, anot jos, yra „didžiausias atvirojo kodo multimodalinis duomenų rinkinys pasaulyje“. Šis modelis leidžia vartotojams gauti garso, vaizdo, teksto ar vaizdo duomenis naudojant bet kokio kito modalumo duomenis.
EBIND taip pat gali įtraukti 3D taškų debesis iš lidaro jutiklių kaip modalumą. Tai leidžia tolesniems multimodaliniams modeliams, pavyzdžiui, suprasti objekto padėtį, formą ir ryšius su kitais objektais jo fizinėje aplinkoje.
„Buvo gana sunku surinkti visus duomenis“, – pripažino Ericas Landau, „Encord“ įkūrėjas ir generalinis direktorius. „Duomenys, gaunami per internetą, dažnai suporuojami, pvz., tekstas ir duomenys, arba galbūt su kai kuriais jutiklio duomenimis.
„Sunku rasti šiuos penketukus laukinėje gamtoje, todėl turėjome atlikti labai kruopščią pratimą, kad sukurtume duomenų rinkinį, kuris veikė EBIND“, – sakė jis. Roboto ataskaita. “Mes labai džiaugiamės tuo, kad visi skirtingi būdai sąveikauja vienu metu. Šis duomenų rinkinys yra 100 kartų didesnis nei kitas didžiausias.”
AI ir robotikos kūrėjai gali naudoti EBIND kurdami daugiarūšius modelius, paaiškino Encord. Su juo jie gali ekstrapoliuoti 3D automobilio formą pagal 2D vaizdą, rasti vaizdo įrašą pagal paprastus balso nurodymus arba tiksliai atkurti lėktuvo garsą pagal jo padėtį klausytojo atžvilgiu.
„Štai kaip jūs palyginate sunkvežimio garsą snieguotoje aplinkoje su jo vaizdu, su tikruoju garso failu, su 3D vaizdu“, – sakė Landau. „Ir iš tikrųjų buvome nustebinti, kad tokie įvairūs ir konkretūs duomenys, kokie iš tikrųjų egzistavo ir gali būti susiję multimodaliniu požiūriu.
Dėl aukštesnės duomenų kokybės „Encord“ teigė, kad EBIND yra mažesnis ir greitesnis nei konkuruojantys modeliai, kartu išlaikant mažesnę duomenų elemento kainą ir palaikant platesnį būdų spektrą. Be to, dėl mažesnio modelio dydžio jį galima įdiegti ir paleisti vietinėje infrastruktūroje, o tai žymiai sumažina delsą ir leidžia daryti išvadas realiuoju laiku.
„Encord“ sukuria atvirojo kodo modelį
„Encord“ teigė, kad EBIND, kaip atvirojo kodo modelio, išleidimas parodo jos įsipareigojimą padaryti daugiarūšį AI prieinamesnį.
„Labai didžiuojamės itin konkurencingu mūsų komandos sukurtu įterpimo modeliu ir dar labiau džiaugiamės galėdami toliau demokratizuoti daugiarūšio dirbtinio intelekto naujoves, padarydami ją atviro kodo“, – sakė Stigas Hansenas.
„Encord“ tvirtino, kad tai leis dirbtinio intelekto komandoms – nuo universitetų laboratorijų ir pradedančiųjų įmonių iki viešai parduodamų įmonių – greitai ekonomiškai išplėsti ir patobulinti savo multimodalinių modelių galimybes.
„Encord patyrė didžiulę sėkmę su mūsų atvirojo kodo E-MM1 duomenų rinkiniu ir EBIND mokymo metodika, leidžiančiomis dirbtinio intelekto komandoms visame pasaulyje kurti, mokyti ir diegti multimodalinius modelius precedento neturinčiu greičiu ir efektyvumu“, – sakė Landau. „Dabar žengiame kitą žingsnį, pateikdami AI bendruomenei modelį, kuris sudarys esminę platesnių daugiarūšio transporto sistemų dalį, leisdamas joms sklandžiai ir greitai gauti bet kokį duomenų modalumą, nepaisant to, ar pradinė užklausa pateikiama teksto, garso, vaizdo, vaizdo ar 3D taškų debesies forma.

Naudojimo atvejai yra nuo LLM ir kokybės kontrolės iki saugos
„Encord“ teigė, kad tikisi, kad pagrindiniai EBIND naudojimo atvejai apims:
- Didelės kalbos modelių (LLM) įgalinimas suprasti visus duomenų modalumus iš vienos vieningos erdvės
- Mokymas LLM apibūdinti arba atsakyti į klausimus apie vaizdus, garsą, vaizdo įrašus ir (arba) 3D turinį
- Kryžminis mokymasis arba vieno duomenų tipo, pvz., vaizdų, pavyzdžių naudojimas, padedantis modeliams atpažinti kitų, pvz., garso, modelius
- Kokybės kontrolės programos, pvz., atvejų, kai garsas neatitinka sugeneruoto vaizdo įrašo, aptikimas arba duomenų rinkinių paklaidų radimas
- EBIND modelio įdėjimų naudojimas vaizdo įrašų generavimui naudojant tekstą, objektus ar garso įterpimus, pvz., garso „stiliaus“ perkėlimas į 3D modelius
„Encord“ dirba su klientais, įskaitant „Synthesia“, „Toyota“, „Zipline“, „AXA Financial“ ir „Northwell Health“.
„Dirbame visame fizinio AI spektre, įskaitant autonomines transporto priemones, tradicinius gamybos ir logistikos robotus, humanoidus ir dronus“, – sakė Landau. „Mūsų dėmesys sutelkiamas į šias programas, kuriose AI yra įkūnytas realiame pasaulyje, ir mes esame agnostikai jo formai.
Pasak jo, vartotojai taip pat gali keistis skirtingais jutiklių būdais, tokiais kaip lytėjimo ar net uoslės jutimas arba sintetiniai duomenys. „Viena iš mūsų iniciatyvų yra ta, kad dabar ieškome daugiakalbių šaltinių, nes daugelis tekstinių duomenų yra labai svarbūs anglų kalbai“, – pridūrė Landau. “Mes siekiame išplėsti patį duomenų rinkinį.”
„Žmonės, norėdami naršyti ir daryti išvadas bei priimti sprendimus, imasi kelių tokių jutiminių duomenų rinkinių“, – pažymėjo jis. “Tai ne tik vaizdiniai duomenys, bet ir garso duomenys bei jutimo duomenys. Jei turite fiziniame pasaulyje egzistuojantį AI, norėtumėte, kad jis turėtų panašių gebėjimų, kad veiktų taip pat efektyviai kaip žmonės 3D erdvėje.
„Taigi jūs norite, kad jūsų autonominė transporto priemonė ne tik matytų ir ne tik jaustų per lidarą, bet ir girdėtų, ar fone yra sirena, jūs norite, kad jūsų automobilis žinotų, kad atvažiuoja policijos automobilis, kurio gali ir nebūti“, – apibendrino Landau. „Mūsų nuomone, visos fizinės sistemos ateityje tam tikra prasme bus daugiarūšės.