Kūrėjams ir tyrėjams peržengiant LLM veiklos ribas, kyla daug klausimų apie efektyvumą. Iki šiol daugiausia dėmesio buvo skiriama modelių dydžio ir mokymo duomenų apimties didinimui, mažai dėmesio skiriant skaitiniam tikslumui – bitų skaičiui, naudojamų skaičiams pavaizduoti skaičiavimo metu.
Neseniai atliktas Harvardo, Stanfordo ir kitų institucijų mokslininkų tyrimas pakeitė šią tradicinę perspektyvą. Jų išvados rodo, kad tikslumas vaidina daug svarbesnį vaidmenį optimizuojant modelio veikimą, nei buvo pripažinta anksčiau. Šis apreiškimas turi didelių pasekmių AI ateičiai, įvesdamas naują mastelio dėsnių, kuriais vadovaujamasi modelio kūrimą, dimensiją.
Tikslumas fokusuojant
Skaitinis AI tikslumas reiškia detalumo lygį, kuris naudojamas skaičiams pateikti skaičiavimo metu, paprastai matuojamas bitais. Pavyzdžiui, 16 bitų tikslumas reiškia daugiau detalumo nei 8 bitų tikslumas, bet reikalauja daugiau skaičiavimo galios. Nors tai gali atrodyti kaip techninis niuansas, tikslumas tiesiogiai veikia AI modelių efektyvumą ir našumą.
Tyrimas, pavadintas Tikslumo mastelio dėsniaigilinasi į dažnai nepastebimą ryšį tarp tikslumo ir modelio veikimo. Vykdydami plačią daugiau nei 465 treniruočių seriją, mokslininkai išbandė modelius su skirtingu tikslumu – nuo 3 iki 16 bitų. Modeliai, kuriuose buvo iki 1,7 milijardo parametrų, buvo išmokyti naudoti net 26 milijardus žetonų.
Rezultatai atskleidė aiškią tendenciją: tikslumas nėra tik foninis kintamasis; tai iš esmės lemia modelių efektyvumą. Pažymėtina, kad per daug apmokyti modeliai – tie, kurie buvo apmokyti naudojant daug daugiau duomenų nei optimalus jų dydžio santykis – buvo ypač jautrūs našumo pablogėjimui, kai buvo atliktas kvantavimas – procesas, kuris sumažina tikslumą po treniruotės. Šis jautrumas išryškino kritinę pusiausvyrą, reikalingą kuriant modelius realioms programoms.
Atsirandantys mastelio dėsniai
Vienas iš pagrindinių tyrimo indėlių yra naujų mastelio dėsnių įvedimas, apimantis tikslumą kartu su tradiciniais kintamaisiais, tokiais kaip parametrų skaičius ir mokymo duomenys. Šie įstatymai pateikia planą, kaip nustatyti efektyviausią skaičiavimo išteklių paskirstymo būdą modelio mokymo metu.
Tyrėjai nustatė, kad 7–8 bitų tikslumo diapazonas paprastai yra optimalus didelio masto modeliams. Taip pasiekiama pusiausvyra tarp skaičiavimo efektyvumo ir našumo, o tai meta iššūkį įprastai 16 bitų tikslumo nustatymo praktikai, kuri dažnai eikvoja išteklius. Ir atvirkščiai, naudojant per mažai bitų, pvz., 4 bitų tikslumą, reikia neproporcingai padidinti modelio dydį, kad būtų išlaikytas panašus našumas.
Tyrime taip pat pabrėžiamos nuo konteksto priklausomos strategijos. Nors 7–8 bitai tinka dideliems, lankstiems modeliams, fiksuoto dydžio modeliai, tokie kaip LLaMA 3.1, turi didesnį tikslumą, ypač kai jų talpa ištempta, kad tilptų dideli duomenų rinkiniai. Šios išvados yra reikšmingas žingsnis į priekį, suteikiantis niuansų supratimą apie kompromisus, susijusius su tikslumo mastelio keitimu.
Iššūkiai ir praktinės pasekmės
Nors tyrimas pateikia įtikinamų įrodymų apie AI mastelio tikslumo svarbą, jo taikymas susiduria su praktinėmis kliūtimis. Vienas iš esminių apribojimų yra aparatinės įrangos suderinamumas. Galimas sutaupymas dėl žemo tikslumo mokymų yra tiek, kiek aparatinės įrangos gebėjimas jį palaikyti. Šiuolaikiniai GPU ir TPU optimizuoti 16 bitų tikslumui, o 7–8 bitų diapazono palaikymas yra ribotas. Kol aparatinė įranga nepasivys, šių atradimų privalumai daugeliui kūrėjų gali likti nepasiekiami.
Kitas iššūkis yra rizika, susijusi su pernelyg dideliu mokymu ir kiekybiniu įvertinimu. Kaip rodo tyrimas, per daug apmokyti modeliai yra ypač pažeidžiami dėl našumo pablogėjimo, kai jie yra kvantuojami. Tai tyrėjams kelia dilemą: nors platūs mokymo duomenys paprastai yra palaima, jie gali netyčia padidinti klaidas mažo tikslumo modeliuose. Norint pasiekti tinkamą pusiausvyrą, reikės kruopščiai kalibruoti duomenų kiekį, parametrų dydį ir tikslumą.
Nepaisant šių iššūkių, išvados suteikia aiškią galimybę patobulinti AI kūrimo praktiką. Įtraukdami tikslumą kaip į pagrindinį aspektą, mokslininkai gali optimizuoti biudžetą ir išvengti perteklinio išteklių naudojimo, atverdami kelią tvaresnėms ir efektyvesnėms AI sistemoms.
AI mastelio keitimo ateitis
Tyrimo išvados taip pat rodo platesnį AI tyrimų trajektorijos pokytį. Jau daugelį metų šioje srityje vyrauja „didesnis, tuo geriau“ mąstymas, daugiausia dėmesio skiriant vis didesniems modeliams ir duomenų rinkiniams. Tačiau mažo tikslumo metodų, pvz., 8 bitų mokymo, efektyvumo padidėjimas artėja prie savo ribų, ši neriboto mastelio keitimo era gali baigtis.
Timas Dettmersas, AI tyrėjas iš Carnegie Mellon universiteto, mano, kad šis tyrimas yra lūžio taškas. „Rezultatai aiškiai rodo, kad pasiekėme praktines kvantavimo ribas“, – aiškina jis. Dettmersas prognozuoja, kad bendrosios paskirties mastelio keitimas pereis prie tikslesnių metodų, tokių kaip specializuoti modeliai, sukurti konkrečioms užduotims atlikti, ir į žmogų orientuotos programos, kurios teikia pirmenybę naudojimui ir prieinamumui, o ne grubiai skaičiavimo galiai.
Šis posūkis atitinka platesnes dirbtinio intelekto tendencijas, kai etikos sumetimai ir išteklių apribojimai daro vis didesnę įtaką plėtros prioritetams. Sričiai bręstant dėmesys gali būti nukreiptas kuriant modelius, kurie ne tik gerai veikia, bet ir sklandžiai integruojasi į žmogaus darbo eigą ir veiksmingai tenkina realaus pasaulio poreikius.
Esmė
Tikslumo integravimas į mastelio dėsnius žymi naują AI tyrimų skyrių. Atkreipiant dėmesį į skaitinio tikslumo vaidmenį, tyrimas meta iššūkį senoms prielaidoms ir atveria duris efektyvesnėms, išteklius tausojančioms plėtros praktikoms.
Nors praktinių apribojimų, pvz., aparatinės įrangos apribojimų, išlieka, išvados suteikia vertingų įžvalgų, kaip optimizuoti modelių mokymą. Kai išryškėja žemo tikslumo kvantavimo ribos, ši sritis yra pasirengusi paradigmos pokyčiui – nuo nenuilstamo masto siekimo prie labiau subalansuoto požiūrio, pabrėžiančio specializuotas, į žmogų orientuotas programas.
Šis tyrimas yra ir vadovas, ir iššūkis bendruomenei: diegti naujoves ne tik siekiant našumo, bet ir efektyvumo, praktiškumo ir poveikio.