Meta AI keičiami atminties sluoksniai: AI efektyvumo ir našumo ateitis

Dirbtinis intelektas (AI) vystosi precedento neturinčiu tempu, o didelio masto modeliai pasiekia naujus intelekto ir galimybių lygius. Nuo ankstyvųjų neuroninių tinklų iki šių dienų pažangių architektūrų, tokių kaip GPT-4, LLAMA ir kiti dideli kalbos modeliai (LLMS), AI keičia mūsų sąveiką su technologijomis. Šie modeliai gali apdoroti daugybę duomenų, generuoti į žmogų panašų tekstą, padėti priimti sprendimus ir sustiprinti automatizavimą įvairiose pramonės šakose. Vis dėlto, kai AI tampa galingesnė, atsirado pagrindinė šių modelių mastelio keitimas efektyviai, neatsiradus našumo ir atminties kliūtims.

Ilgus metus gilus mokymasis rėmėsi tradiciniais tankiais sluoksniais, kai kiekvienas neuronas viename sluoksnyje yra prijungtas prie kiekvieno kito neurono. Ši struktūra leidžia AI modeliams išmokti sudėtingų modelių, tačiau ji yra didelė. Didėjant modeliams, eksponentinis parametrų padidėjimas lemia didesnius GPU/TPU atminties reikalavimus, ilgesnį treniruočių laiką ir didžiulę energijos suvartojimą. PG tyrimų laboratorijos investuoja milijonus į aukštos kokybės aparatinę įrangą, kad neatsiliktų nuo skaičiavimo reikalavimų.

„Meta AI“ nagrinėja šį iššūkį, naudodamiesi keičiamų atminties sluoksniais (SML)-giluminio mokymosi metodu, skirtu įveikti tankų sluoksnio neveiksmingumą. Užuot įdėję visą išmoktą informaciją fiksuoto svorio parametruose, SML pristato išorinę atminties sistemą, gaudami informaciją tik tada, kai reikia. Šis skaičiavimo iš atminties atminties atsiejimas žymiai sumažina skaičiavimo pridėtines išlaidas, pagerindamas mastelį be per didelio aparatūros išteklių sunaudojimo.

Šios naujovės poveikis yra didžiulis; Tai ne tik daro AI mokymą ir išvadą efektyvesnį ir ekonomiškesnį, bet ir padeda AI sistemoms tapti lankstesnėms ir protingesnėms. Užuot pasikliaudami statinėmis žiniomis, saugomomis fiksuotuose parametruose, šie modeliai gali dinamiškai atnaujinti informaciją, pašalindami nuolatinio perkvalifikavimo poreikį.

Turinys

AI kilimas ir atminties kliūčių problema

PG greitai keitė tokius domenus kaip natūralios kalbos apdorojimas, kompiuterio matymas, robotika ir realaus laiko automatizavimas, todėl sistemos yra protingesnės ir pajėgesnės nei bet kada anksčiau. Vis dėlto, augant AI modeliams didesniam ir sudėtingesniam, jie susiduria su rimtais iššūkiais, susijusiais su atminties ir skaičiavimo efektyvumu. Šiuolaikiniai modeliai, ypač turintys milijardus ar net trilijonus parametrų, reikalauja milžiniško RAM, VRAM ir apdorojimo galios.

Iš pradžių AI modeliai buvo palyginti maži ir buvo mokomi standartinės aparatūros. Tačiau šiandienos modeliams, tokiems kaip „GPT-4“ ir „Google’s Del“, reikia superkompiuterių ir masinių GPU klasterių. Šis greitas augimas aplenkė tradicinius tankius sluoksnius, kurie saugo visas žinias pagal fiksuoto svorio parametrus. Nors šis požiūris yra efektyvus mažiems modeliams, jis lemia nereikalingus skaičiavimus, per didelį atminties naudojimą ir didėjančias energijos sąnaudas.

Kita tankių sluoksnių problema yra ta, kad jie kovoja su žinių atnaujinimais. Kadangi visa informacija yra tiesiogiai įterpta į modelio parametrus, norint atlikti net mažus pakeitimus, reikia perkvalifikuoti visą modelį nuo nulio. Tai yra ir brangi, ir nepraktiška, ypač įmonėms ir tyrėjams, kuriems reikia AI sistemų, kurios galėtų nuolat mokytis ir prisitaikyti be dažnai perkvalifikavimo.

Meta AI pristatė SML, kad išspręstų šią problemą. Užuot saugoję visas modelio žinias, SMLS pasitelkia išorinę atminties sistemą, įgalinant efektyvų informacijos gavimą. Tai pašalina nereikalingus skaičiavimus ir sumažina išlaidas, todėl AI modeliai tampa efektyvesni, pritaikomi ir keičiami.

Suprasti tradicinius tankius sluoksnius ir jų apribojimus

Kaip veikia tankūs sluoksniai

Tradicinės giluminio mokymosi architektūros labai priklauso nuo tankių (visiškai sujungtų) sluoksnių. Kiekvienas neuronas yra prijungtas prie kiekvieno kito sluoksnio neurono, leidžiančio modeliui užfiksuoti sudėtingus ryšius tarp įvesties. Ši struktūra yra esminė atliekant tokias užduotis kaip vaizdo klasifikacija, kalbos atpažinimas ir natūralios kalbos supratimas.

Treniruotės metu modelis koreguoja svorius tarp šių jungčių, kad sumažintų klaidas ir optimizuotų našumą. Nors tankūs sluoksniai yra veiksmingi mažais masteliais, tankūs sluoksniai tampa neveiksmingi, kai auga modelio dydis.

Kodėl tankūs sluoksniai kovoja mastu

Vienas iš pagrindinių tankių sluoksnių apribojimų yra atminties neveiksmingumas. Kadangi kiekvienas neuronas yra prijungtas prie kiekvieno kito neurono, parametrų skaičius kvadratiškai masteli su modelio dydžiu. Didesniems modeliams reikalinga žymiai daugiau atminties ir apskaičiuoti galią, todėl padidėja mokymo išlaidos ir ilgesnis išvadų laikas.

Kitas didelis trūkumas yra nereikalingas skaičiavimas. Net tada, kai tam tikri neuronai ar savybės žymiai neprisideda, tankūs sluoksniai vis tiek apskaičiuoja visas neuronų aktyvacijas, eikvojant apdorojimo galią. Tai lemia lėtesnį išvadų greitį, padidėjusį latenciją ir neefektyvų išteklių panaudojimą.

Tankūs sluoksniai taip pat kenčia nuo prasto realaus laiko pritaikomumo. Atnaujinus modelio žinias, reikia visiškai perkvalifikuoti, todėl jos nepraktiška programoms, kurioms reikia nuolatinių atnaujinimų. Be to, didelė tankios architektūros energijos suvartojimas sukėlė susirūpinimą dėl didelio masto AI modelių tvarumo.

Optimizuojant AI žinių saugojimą ir gavimą naudojant keičiamąjį atminties sluoksnius

„Meta AI“ pateikė reikšmingą giluminio mokymosi pažangą su SML, nauju požiūriu į efektyviau saugoti ir gauti žinias AI modeliuose. Skirtingai nuo tradicinių tankių sluoksnių, kur visa išmokta informacija yra įterpta į fiksuoto svorio parametrus, SML naudoja išorinę atminties sistemą, leidžiančią modeliams dinamiškai pasiekti informaciją, jei reikia. Šis dizainas optimizuoja atminties naudojimą ir sumažina nereikalingus skaičiavimus, pagerindamas mastelį ir efektyvumą.

Pagrindinis SMLS komponentas yra mokoma raktų vertės paieškos sistema, leidžianti AI modeliams išplėsti savo žinių bazę, nedidinant skaičiavimo reikalavimų. Tradicinės giluminio mokymosi architektūros priklauso nuo plaukiojančio taško operacijų (FLOP), kurios auga pagal modelio dydį, todėl mokymai ir išvados vis labiau reikalauja išteklių. SML išsprendžia šią problemą papildydami tankius sluoksnius su selektyvia atminties aktyvacija, mažinant delsą ir optimizuodami skaičiavimo išteklius.

Vienas iš pagrindinių šio požiūrio pranašumų yra jo sugebėjimas atnaujinti žinias nereikalaujant visiško perkvalifikavimo. Tradicinės architektūros reikalauja didelių skaičiavimo išlaidų modifikacijoms, tuo tarpu SML leidžia nepriklausomai atnaujinti išorinių žinių saugyklą. Tai įgalina pritaikomumą realiuoju laiku, nepakeisdamas pagrindinės tinklo struktūros, todėl jis yra labai efektyvus nuolatiniam mokymosi programoms.

Siekdamas pagerinti našumą, „Meta AI“ optimizavo SML lygiagrečią apdorojimą keliuose GPU, užtikrinant efektyvų didelių klaviatūros parduotuvių tvarkymą. Specializuoti CUDA branduoliai palaiko didelio atminties pralaidumo operacijas, leidžiančias greičiau gauti informaciją. Dėl šių patobulinimų SML yra ypač tinkami didelio masto AI programoms, įskaitant kalbų modelius, AI varomas paieškos sistemas ir realaus laiko automatizavimo sistemas.

Palyginti su tradiciniais tankiais tinklais, SML suteikia didelę efektyvumo padidėjimą mažinant skaičiavimo pridėtines išlaidas išlaikant ar gerinant modelio tikslumą, ypač atliekant užduotis, kurioms reikia faktinio tikslumo. Tai daro SML transformacinę AI architektūros naujovę.

Našumo palyginimas: keičiami atminties sluoksniai ir tradiciniai tankūs sluoksniai

Žemiau pateiktas keičiamų atminties sluoksnių ir tradicinių tankių sluoksnių našumo palyginimas:

Atminties efektyvumas ir skaičiavimo apkrova

Tankūs sluoksniai kovoja su atminties masteliu. Didėjant modelio dydžiui, parametrų skaičius plečiasi proporcingai, todėl atsiranda atminties kliūčių ir didelių skaičiavimo išlaidų. SML atskiria žinių saugyklą nuo skaičiavimo, leidžiant AI modeliams išplėsti žinių bazes, nedidinant išvadų sudėtingumo.

Treniruotės ir išvadų greitis

Vienas didžiausių tankių sluoksnių trūkumų yra nereikalingas skaičiavimas, kai kiekvienas neuronas apdoroja duomenis, net jei tik dalis yra svarbi. SML pašalina nereikalingus skaičiavimus, gaudami tik svarbią informaciją, dėl kurios atsiranda mažesnis latentinis ir greitesnis treniruočių ciklai.

Mastelio keitimas be padidėjusio skaičiavimo išlaidų

Tankiems sluoksniams reikia didesnių aparatinės įrangos išteklių, o SML palaiko fiksuotą skaičiavimo kainą, neatsižvelgiant į žinių plėtrą. Tai daro juos ypač veiksmingais įmonių AI programoms, debesims pagrįstoms paslaugoms ir realiojo laiko automatizavimui.

Ekonominis efektyvumas ir energijos efektyvumas

Be rezultatų pranašumų, SML siūlo didelę taupymą išlaidų. Jų optimizuota architektūra sumažina priklausomybę nuo brangios aparatūros, sumažina infrastruktūrą ir veiklos išlaidas.

Esmė

AI sparčiai auga, tačiau tradiciniai tankūs sluoksniai kovoja su didėjančiais atminties, skaičiavimo ir efektyvumo poreikiais. SML siūlo protingesnį kelią į priekį, suteikdami galimybę AI dinamiškai atgauti žinias, sumažinti skaičiavimo atliekas ir padidinti mastelį.

Ne tik optimizavimas, bet ir SML iš naujo apibrėžia, kaip AI modeliai mokosi ir vystosi, įgalindami nuolatinius atnaujinimus be visiško perkvalifikavimo. Tai daro AI sistemas labiau pritaikomos, ekonomiškesnės ir keičiamos ateičiai.

Source link

Karščiausios naujienos

Populiariausios žymos