Ilgus metus dirbtinis intelektas (AI) padarė įspūdingų pokyčių, tačiau ji visada turėjo esminį apribojimą dėl savo nesugebėjimo apdoroti įvairių tipų duomenų, kaip tai daro žmonės. Daugelis AI modelių yra unimalūs, tai reiškia, kad jie specializuojasi tik vienu formatu, pavyzdžiui, tekstu, vaizdais, vaizdo įrašais ar garso įrašais. Nors šis požiūris yra tinkamas konkrečioms užduotims, jis tampa griežtas, neleidžiantis jam sujungti taškų per kelis duomenų tipus ir tikrai suprasti kontekstą.
Norėdami tai išspręsti, buvo įvesta multimodalinė AI, leidžianti modeliams dirbti su įvairiomis įvesties formomis. Tačiau statyti šias sistemas nėra lengva. Jiems reikalingi masyvūs, pažymėti duomenų rinkiniai, kuriuos ne tik sunku rasti, bet ir brangiai ir daug laiko reikalauja. Be to, šiems modeliams paprastai reikalingas konkrečios užduoties derinimas, todėl jie yra daug išteklių reikalaujantys ir sunku pritaikyti naujiems domenams.
Meta AI multimodalinis iteracinis LLM sprendimas (MILS) yra vystymasis, kuris tai keičia. Skirtingai nuo tradicinių modelių, kuriems reikia perkvalifikuoti kiekvieną naują užduotį, MILS naudoja mokymąsi nuliniame šūvyje, kad aiškintų ir apdorotų nematytus duomenų formatus be išankstinio ekspozicijos. Užuot pasikliaudamas anksčiau egzistuojančiomis etiketėmis, jis patikslina savo išvestis realiuoju laiku, naudodamas iteracinę taškų skaičiavimo sistemą, nuolat gerindama savo tikslumą ir nereikia papildomo mokymo.
Tradicinio multimodalinės AI problema
Multimodalinis AI, kuris apdoroja ir integruoja duomenis iš įvairių šaltinių, kad būtų sukurtas vieningas modelis, turi didžiulį potencialą pakeisti tai, kaip AI sąveikauja su pasauliu. Skirtingai nuo tradicinės AI, kuri priklauso nuo vieno tipo duomenų įvesties, multimodalinė AI gali suprasti ir apdoroti kelis duomenų tipus, pavyzdžiui, paversti vaizdus tekstu, generuoti vaizdo įrašus arba sintetinti kalbą iš teksto.
Tačiau tradicinės multimodalinės AI sistemos susiduria su dideliais iššūkiais, įskaitant sudėtingumą, didelius duomenų reikalavimus ir duomenų suderinimo sunkumus. Šie modeliai paprastai yra sudėtingesni nei vienmodalūs modeliai, reikalaujantys didelių skaičiavimo išteklių ir ilgesnio mokymo laiko. Dėl vien tik duomenų įvairovės kyla rimtų iššūkių duomenų kokybei, saugojimui ir atleidimui, todėl tokius duomenų kiekius yra brangu saugoti ir brangiai kainuoti apdoroti.
Norint efektyviai veikti, daugiamodalinei AI reikalauja didelių aukštos kokybės duomenų iš daugelio būdų, o nenuosekli duomenų kokybė įvairiose modalumuose gali turėti įtakos šių sistemų veikimui. Be to, tinkamai suderinti reikšmingus duomenis iš įvairių duomenų tipų, duomenų, atspindinčių tą patį laiką ir erdvę, yra sudėtingi. Duomenų iš skirtingų būdų integracija yra sudėtinga, nes kiekvienas būdas turi savo struktūros, formato ir apdorojimo reikalavimus, todėl veiksmingi deriniai tampa sunkūs. Be to, aukštos kokybės duomenų rinkiniai, apimantys daugybę būdų, dažnai būna nedaug, o multimodalinių duomenų rinkimas ir anotacija yra daug laiko reikalaujanti ir brangu.
Pripažindamas šiuos apribojimus, „Meta AI“ MILS pasitelkia mokymąsi nuliniame šūvyje, suteikdamas galimybę AI atlikti užduotis, kurios niekada nebuvo aiškiai išmokytos ir apibendrino žinias įvairiuose kontekstuose. Mokydamiesi „Zero-Shot“, MILS pritaiko ir generuoja tikslius išėjimus, nereikalaudamas papildomų etikečių duomenų, imdamasis šios koncepcijos toliau, pakartojant kelis AI sukurtus išėjimus ir pagerindamas tikslumą per intelektualią balų sistemą.
Kodėl mokymasis „Zero-Shot“ yra žaidimų keitiklis
Vienas reikšmingiausių AI pasiekimų yra „Zero-Shot“ mokymasis, kuris leidžia AI modeliams atlikti užduotis ar atpažinti objektus be išankstinio konkretaus mokymo. Tradicinis mašinų mokymasis priklauso nuo didelių, pažymėtų kiekvienos naujos užduoties duomenų rinkinių, tai reiškia, kad modeliai turi būti aiškiai mokomi kiekvienoje kategorijoje, kurią jiems reikia atpažinti. Šis požiūris veikia gerai, kai yra daugybė treniruočių duomenų, tačiau tai tampa iššūkiu tais atvejais, kai pažymėti duomenys yra menki, brangūs ar neįmanoma gauti.
Nulio šūvio mokymasis keičia tai, leisdamas AI pritaikyti esamas žinias naujoms situacijoms, panašiai kaip žmonės išveda prasmę iš ankstesnės patirties. Užuot pasikliaudami tik etiketėmis pateiktais pavyzdžiais, „Zero-Shot“ modeliai naudoja pagalbinę informaciją, tokią kaip semantiniai atributai ar kontekstiniai ryšiai, kad apibendrintų užduotis. Šis gebėjimas padidina mastelį, sumažina priklausomybę nuo duomenų ir pagerina pritaikomumą, todėl AI yra daug universalesnė realaus pasaulio programose.
Pvz., Jei tradicinis AI modelis, apmokytas tik tekste, staiga paprašoma apibūdinti vaizdą, jis kovos be aiškių vaizdinių duomenų mokymo. Priešingai, toks nulinio šūvio modelis, kaip MILS, gali apdoroti ir interpretuoti vaizdą, nereikia papildomų etiketės pavyzdžių. MILS dar labiau pagerina šią koncepciją, pakartojant kelis AI sukurtus išėjimus ir patikslindamas jos atsakymus naudodamiesi intelektualia balų sistema.
Šis požiūris yra ypač vertingas srityse, kuriose anotuotų duomenų yra riboti ar brangūs, pavyzdžiui, medicininis vaizdavimas, retas kalbos vertimas ir kylantys moksliniai tyrimai. „Zero-Shot“ modelių gebėjimas greitai prisitaikyti prie naujų užduočių be perkvalifikavimo daro juos galingomis priemonėmis įvairioms programoms-nuo vaizdo atpažinimo iki natūralios kalbos apdorojimo.
Kaip meta AI milai sustiprina multimodalinį supratimą
„Meta AI“ MILS pateikia protingesnį AI būdą interpretuoti ir patobulinti multimodalinius duomenis nereikalaujant didelio perkvalifikavimo. Tai pasiekia per pasikartojantį dviejų pakopų procesą, kurį maitina du pagrindiniai komponentai:
- Generatorius: Didelis kalbos modelis (LLM), pavyzdžiui, LLAMA-3.1-8B, kuris sukuria daugybę galimų įvesties interpretacijų.
- Įvartis: Iš anksto apmokytas multimodalinis modelis, pavyzdžiui, CLIP, įvertina šias interpretacijas, reitinguodamas juos pagal tikslumą ir aktualumą.
Šis procesas pakartoja grįžtamojo ryšio kilpą, nuolat tobulinant išėjimus, kol bus pasiektas tiksliausias ir kontekstiniu tikslus atsakymas, visa tai nepakeisdami pagrindinių modelio parametrų.
MILS yra unikalus realiojo laiko optimizavimas. Tradiciniai AI modeliai remiasi fiksuotais iš anksto apmokytais svoriais ir reikalauja sunkių perkvalifikavimo naujoms užduotims. Priešingai, MILS dinamiškai prisitaiko bandymo metu, patobulindamas jo atsakymus, remiantis tiesioginiais balų gavėjo atsiliepimais. Tai daro jį efektyvesnį, lanksesnį ir mažiau priklausomą nuo didelių etikečių duomenų rinkinių.
MILS gali atlikti įvairias multimodalines užduotis, tokias kaip:
- Vaizdo antraštė: Pakartotinai tobulinant antraštes su lama-3.1-8b ir klipu.
- Vaizdo įrašo analizė: Naudojant „Viclip“, kad būtų galima generuoti nuoseklius vaizdinio turinio aprašymus.
- Garso apdorojimas: „ImageBind“ panaudojimas apibūdinti garsus natūralia kalba.
- Generavimas tekstu-iki vaizdo: Siekdami geresnės vaizdo kokybės, prieš juos galima patobulinti pasklidimą į difuzijos modelius.
- Stiliaus perdavimas: Optimizuotų redagavimo raginimų generavimas siekiant užtikrinti vizualiai nuoseklias transformacijas.
Naudodamas iš anksto apmokytus modelius kaip balų mechanizmus, o ne reikalaudami specialių multimodalinių treniruočių, MILS pateikia galingą galingą nulinio šūvio našumą įvairiose užduotyse. Tai daro tai transformaciniu požiūriu kūrėjams ir tyrėjams, leidžiančiais integruoti multimodalinius samprotavimus į programas be didelio perkvalifikavimo naštos.
Kaip milai pralenkia tradicinę AI
MILS žymiai pralenkia tradicinius AI modelius keliose pagrindinėse srityse, ypač mokymo efektyvumu ir išlaidų mažinimu. Įprastinės AI sistemos paprastai reikalauja atskirų mokymų kiekvienam duomenų tipui, o tai reikalauja ne tik plačių etikečių duomenų rinkinių, bet ir patiria dideles skaičiavimo išlaidas. Šis atskyrimas sukuria kliūtį prieinamumui daugeliui įmonių, nes mokymui reikalingi ištekliai gali būti per dideli.
Priešingai, MILS naudoja iš anksto apmokytus modelius ir dinamiškai tobulina išvestis, žymiai sumažindamas šias skaičiavimo išlaidas. Šis požiūris leidžia organizacijoms įgyvendinti pažangias AI galimybes be finansinės naštos, paprastai susijusios su dideliu modelio mokymu.
Be to, MILS rodo didelį tikslumą ir našumą, palyginti su esamais AI modeliais įvairiuose vaizdo įrašų antraštės etalose. Jo pakartotinis tobulinimo procesas leidžia jam pateikti tikslesnius ir kontekstines rezultatus nei vieno kadro AI modeliai, kurie dažnai stengiasi sukurti tikslus naujų duomenų tipų aprašymus. Nuolat tobulindamas savo išvestis per grįžtamojo ryšio kilpas tarp generatoriaus ir įvarčio komponentų, MILS užtikrina, kad galutiniai rezultatai būtų ne tik aukštos kokybės, bet ir pritaikomi prie konkrečių kiekvienos užduoties niuansų.
Mastelio keitimas ir pritaikomumas yra papildomos MIL stipriosios pusės, išskiriančios jį iš tradicinių AI sistemų. Kadangi nereikia perkvalifikuoti naujų užduočių ar duomenų tipų, MIL gali būti integruotas į įvairias AI varomas sistemas įvairiose pramonės šakose. Šis įgimtas lankstumas daro jį labai keičiamą ir atsparią ateityje, leidžiančią organizacijoms panaudoti savo galimybes, nes vystosi jų poreikiai. Kadangi verslas vis labiau siekia naudos iš AI be tradicinių modelių suvaržymų, MILS tapo transformaciniu sprendimu, kuris padidina efektyvumą, tuo pačiu užtikrinant aukštesnius rezultatus įvairiose programose.
Esmė
Meta AI MILS keičia tai, kaip AI tvarko įvairių tipų duomenis. Užuot pasikliaudamas masyviais etiketėmis duomenų rinkiniais ar nuolatiniu perkvalifikavimu, jis mokosi ir tobulėja, kai veikia. Tai daro AI lankstesnę ir naudingesnę įvairiuose laukuose, nesvarbu, ar tai analizuoja vaizdus, apdoroja garso įrašą, ar generuojant tekstą.
Patobulindamas savo atsakymus realiuoju laiku, MILS priartina AI prie to, kaip žmonės apdoroja informaciją, mokosi iš atsiliepimų ir priima geresnius sprendimus kiekvienu žingsniu. Šis požiūris yra ne tik apie PG protingesnį; Tai yra praktiška ir pritaikoma realaus pasaulio iššūkiams.
Source link