Ekspertų mišinio (MOE) modeliai revoliucionuoja mūsų masto AI masto būdą. Suaktyvindami tik modelio komponentų pogrupį bet kuriuo metu, MOE siūlo naują požiūrį, kaip valdyti kompromisą tarp modelio dydžio ir skaičiavimo efektyvumo. Skirtingai nuo tradicinių tankių modelių, kurie naudoja visus parametrus kiekvienam įvestimi, Moes pasiekia didžiulį parametrų skaičių, išlaikant išvadų ir mokymo išlaidas, kurias galima valdyti. Šis proveržis paskatino tyrimų ir plėtros bangą, dėl kurios tiek technologijų milžinai, tiek pradedantieji investuoti į MOE įsikūrusią architektūrą.
Kaip veikia „Experts“ modeliai
Iš esmės MOE modelius sudaro keli specializuoti specializuoti tinklai, vadinami „ekspertais“, prižiūrimu vartų mechanizmo, kuris nusprendžia, kuriuos ekspertai turėtų tvarkyti kiekvieną įvestį. Pavyzdžiui, sakinys, perduotas kalbos modeliui, gali sudominti tik du iš aštuonių ekspertų, drastiškai sumažinti skaičiavimo darbo krūvį.
Ši koncepcija buvo įtraukta į pagrindinę dalį naudojant „Google“ „Switch Transformer“ ir „Glam“ modelius, kur ekspertai transformatoriuose pakeitė tradicinius tiekimo į priekį sluoksnius. Pavyzdžiui, perjunkite transformatorių, nukreipia žetonus į vieną ekspertą kiekviename sluoksnyje, o „Glam“ naudoja „Top-2“ maršrutą, kad pagerintų našumą. Šie dizainai parodė, kad MOE gali atitikti ar aplenkti tankius modelius, tokius kaip GPT-3, tuo pačiu sunaudojant žymiai mažiau energijos ir skaičiuojant.
Pagrindinė naujovė yra sąlyginis skaičiavimas. Užuot sukūręs visą modelį, Moesas suaktyvina tik pačias tinkamiausias dalis, o tai reiškia, kad modelis, turintis šimtus milijardų ar net trilijonus parametrų, gali paleisti su tokio, kuris yra mažesnis, efektyvumas. Tai leidžia tyrėjams padidinti talpą be linijinio skaičiavimo padidėjimo, o žygdarbis nepasiekiamas tradiciniais mastelio keitimo metodais.
Realaus pasaulio programos
MOE modeliai jau padarė savo ženklą keliose srityse. „Google“ „GLAM“ ir „Switch Transformer“ parodė moderniausius kalbų modeliavimo rezultatus su mažesnėmis mokymo ir išvadų sąnaudomis. „Microsoft“ „Z-Code MOE“ veikia savo vertėjo įrankyje, geresniu tikslumu ir efektyvumu tvarko daugiau nei 100 kalbų nei ankstesni modeliai. Tai nėra tik mokslinių tyrimų projektai – jie teikia tiesiogines paslaugas.
Kompiuterinio matymo metu „Google“ „V-Moe“ architektūra pagerino klasifikavimo tikslumą tokiuose etalonuose kaip „ImageNet“, o LEMOE modelis pademonstravo stiprią daugialypės užduočių, apimančių tiek vaizdus, ir tekstą. Ekspertų gebėjimas specializuotis – kai kurie teksto tvarkymo, kiti vaizdai – turi naują galimybių AI sistemoms sluoksnį.
Rekomenduojamųjų sistemų ir kelių užduočių mokymosi platformos taip pat buvo naudingos MOE. Pavyzdžiui, „YouTube“ rekomendacinis variklis panaudojo MOE panašią architektūrą, skirtą efektyviau tvarkyti tikslus, tokius kaip laikrodžio laikas ir paspaudimų rodiklis. Paskyrę skirtingus ekspertus skirtingiems užduotims ar vartotojo elgesiui, MOE padeda sukurti tvirtesnius personalizavimo variklius.
Nauda ir iššūkiai
Pagrindinis MOE pranašumas yra efektyvumas. Jie leidžia mokyti ir dislokuoti masinius modelius ir dislokuoti žymiai mažiau skaičiavimo. Pavyzdžiui, „Mistral AI“ „Mixtral 8 × 7B“ modelis turi 47B bendrą parametrus, tačiau suaktyvina tik 12,9B vienam prieigos raktui, suteikdamas jam 13B modelio ekonominį efektyvumą, konkuruodamas su tokiais modeliais kaip GPT-3,5.
Moes taip pat skatina specializaciją. Kadangi skirtingi ekspertai gali išmokti skirtingų modelių, bendras modelis tampa geresnis tvarkant įvairius įvestis. Tai ypač naudinga atliekant daugiakalbius, daugialypius domenus ar daugiamodalines užduotis, kai vienodai tinkamai tinka tankus modelis.
Tačiau MOE yra su inžineriniais iššūkiais. Jų mokymui reikia kruopštaus balansavimo, kad visi ekspertai būtų naudojami efektyviai. Atminties pridėtinė vertė yra dar vienas rūpestis – tuo tarpu tik dalis parametrų yra aktyvi kiekvienoje išvadoje, visa tai turi būti įkelta į atmintį. Efektyviai paskirstyti skaičiavimus visuose GPU ar TPU yra ne trivialus ir paskatino sukurti tokius specializuotus sistemas kaip „Microsoft“ „Deephspeed“ ir „Google“ GSHARD.
Nepaisant šių kliūčių, našumas ir išlaidos yra pakankamai didelės, kad MOE dabar laikomi kritine didelio masto AI dizaino komponentu. Kadangi daugiau priemonių ir infrastruktūros subręsta, šie iššūkiai palaipsniui įveikiami.
Kaip Moe lyginamas su kitais mastelio keitimo metodais
Tradicinis tankus mastelio keitimas padidina modelio dydį ir skaičiuojamą proporcingai. MOE sulaužo šį tiesiškumą padidindami bendrą parametrus, nedidinant skaičiavimo vienam įvestimi. Tai leidžia modeliams, turintiems trilijonus parametrų, bus mokoma toje pačioje aparatinėje įrangoje, anksčiau apsiribojant dešimtimis milijardų.
Palyginti su modelio ansamblumu, kuris taip pat pristato specializaciją, tačiau reikalauja daugybės visiškų į priekį leidimų, MOE yra daug efektyvesni. Užuot paleidę kelis modelius lygiagrečiai, „Moes“ veikia tik viena, tačiau naudodamiesi keliais ekspertų keliais.
MOE taip pat papildo strategijas, tokias kaip didinimo mokymo duomenys (pvz., „Chinchilla“ metodas). Nors „Chinchilla“ pabrėžia daugiau duomenų naudojimą su mažesniais modeliais, MOE išplečia modelio talpą, išlaikydama skaičiavimo stabilumą, todėl jie yra idealūs tais atvejais, kai skaičiavimas yra kliūtis.
Galiausiai, nors tokios technikos kaip genėjimas ir kvantizavimas susitraukia modelius po treniruotės, MOE padidina modelio pajėgumą mokymo metu. Jie nėra suspaudimo pakaitalas, o stačiakampis įrankis efektyviam augimui.
Įmonės, vadovaujančios MOE revoliucijai
Technikos milžinai
„Google“ Pradėjo daugybę šių dienų MOE tyrimų. Jų jungiklio transformatorius ir GLAM modeliai padidėjo atitinkamai iki 1,6T ir 1,2T parametrų. „Glam“ suderino GPT-3 našumą, naudodamas tik trečdalį energijos. „Google“ taip pat pritaikė MOE „Vision“ (V-Moe) ir multimodalinėms užduotims (LIMOE), suderindama su jų platesniu universalaus AI modelių vizija.
„Microsoft“ integruotas „Moe“ į gamybą per savo „Z-Code“ modelį „Microsoft“ vertėjoje. Tai taip pat sukūrė „Deepspeed Moe“, leidžiančią greitą treniruotę ir mažo latencijos išvadą trilijono parametrų modeliams. Jų įmokos apima maršruto algoritmus ir „Tutel“ biblioteką, skirtą efektyviam MOE skaičiavimui.
Meta ištyrė didelio masto kalbų modelių ir rekomendacijų sistemas. Jų 1,1T MOE modelis parodė, kad jis gali atitikti tankią modelio kokybę, naudodamas 4 × mažiau skaičiavimo. Nors „Llam“ modeliai yra tankūs, „Meta“ tyrimai apie Moe ir toliau informuoja platesnę bendruomenę.
„Amazon“ Palaiko Moes per savo „Sagemaker“ platformą ir vidines pastangas. Jie palengvino „Mistral“ „Mixtral“ modelio mokymą ir, jų manymu, yra gandai, kad jie naudoja MOE tokiose paslaugose kaip „Alexa AI“. AWS dokumentacija aktyviai skatina MOE didelio masto modelio mokymą.
Huawei ir Įlanka Kinijoje taip pat sukūrė rekordinius MOE modelius, tokius kaip „Pangu-σ“ (1.085T parametrai). Tai parodo Moe kalbų ir multimodalinių užduočių potencialą ir pabrėžia jos pasaulinį patrauklumą.
Startuoliai ir iššūkiai
Mistral, kurią turite yra „Moe Innovation“ plakato vaikas atvirame kodo šaltinyje. Jų „Mixtral 8 × 7B“ ir 8 × 22B modeliai įrodė, kad Moes gali aplenkti tankius modelius, tokius kaip „LLAMA-2 70B“, tuo pačiu vykdant kainą. Turėdama daugiau nei 600 mln.
Xaiįkurtas Elono Musko, pranešama, kad tyrinėja Moes savo „Grok“ modelyje. Nors detalės yra ribotos, MOE siūlo būdą, kaip pradedantiesiems įmonėms, tokiems kaip „Xai“, konkuruoti su didesniais žaidėjais, nereikalaujant masinio skaičiavimo.
„Databricks“per savo „MosaicML“ įsigijimą išleido „DBRX“ – atviro MOE modelį, skirtą efektyvumui. Jie taip pat teikia MOE mokymo infrastruktūrą ir receptus, mažindami įvaikinimo barjerą.
Kiti žaidėjai, tokie kaip „Hugning Face“, integruotas MOE palaikymas į savo bibliotekas, todėl kūrėjams lengviau remtis šiais modeliais. Net jei patys nestato Moes, platformos, kurios jas įgalina, yra nepaprastai svarbios ekosistemai.
Išvada
Ekspertų mišinių modeliai nėra tik tendencija-jie rodo esminį AI sistemų pastatymo ir mastelio keitimo poslinkį. Selektyviai suaktyvindami tik dalis tinklo, MOE siūlo didžiulių modelių galią be jų draudžiamų išlaidų. Tobulėjant programinės įrangos infrastruktūrai, o maršruto parinkimo algoritmai pagerėja, MOE yra pasirengę tapti numatytąja domeno, daugiakalbės ir multimodalinės AI architektūra.
Nesvarbu, ar esate tyrėjas, inžinierius ar investuotojas, Moes siūlo žvilgsnį į ateitį, kurioje AI yra galingesnė, efektyvesnė ir pritaikoma nei bet kada anksčiau.