Kaip galvoja Claude'as? Antropico siekis atrakinti AI juodąją dėžę

Estimated read time 5 min read

Didelių kalbos modeliai (LLM), pavyzdžiui, Claude'as, pakeitė mūsų naudojimo technologijas. Jie elektrinius įrankius, tokius kaip pokalbių programos, padeda rašyti esė ir net sukurti poeziją. Nepaisant jų nuostabių sugebėjimų, šie modeliai vis dar yra paslaptis įvairiais būdais. Žmonės dažnai juos vadina „juoda dėžute“, nes mes galime pamatyti tai, ką jie sako, bet ne tai, kaip jie tai išsiaiškina. Šis supratimo trūkumas sukelia problemų, ypač tokiose svarbiose srityse kaip medicina ar įstatymai, kai klaidos ar paslėptos paklaidos gali padaryti realios žalos.

Suprasti, kaip LLMS veikia, norint sukurti pasitikėjimą. Jei negalime paaiškinti, kodėl modelis pateikė konkretų atsakymą, sunku pasitikėti jo rezultatais, ypač jautriose srityse. Aiškumo aiškumas taip pat padeda nustatyti ir ištaisyti šališkumą ar klaidas, užtikrinant, kad modeliai yra saugūs ir etiški. Pavyzdžiui, jei modelis nuolat palaiko tam tikrus požiūrius, žinojimas, kodėl kūrėjams gali padėti jį ištaisyti. Šis aiškumo poreikis skatina šiuos modelius padaryti skaidresnius.

„Anthropic“, „Claude“ kompanija, stengiasi atidaryti šią „Black Box“. Jie padarė įdomią pažangą išsiaiškindami, kaip mąsto LLMS, ir šiame straipsnyje nagrinėjami jų proveržiai, kad Claude'o procesai būtų lengviau suprasti.

Claude'o minčių žemėlapis

2024 m. Viduryje „Anthropic“ komanda padarė įdomų proveržį. Jie sukūrė pagrindinį „žemėlapį“, kaip Claude'as apdoroja informaciją. Naudodamiesi technika, vadinama žodyno mokymuisi, jie rado milijonus modelių Claude'o „smegenyse“ – jo neuroniniu tinklu. Kiekvienas modelis arba „funkcija“ jungiasi su konkrečia idėja. Pavyzdžiui, kai kurios funkcijos padeda Claude pastebėti miestus, garsius žmones ar kodavimo klaidas. Kiti susieja su sudėtingesnėmis temomis, tokiomis kaip lyčių šališkumas ar paslaptis.

Tyrėjai sužinojo, kad šios idėjos nėra išskirtos atskiruose neuronuose. Vietoj to, jie pasiskirsto daugelyje Claude'o tinklo neuronų, o kiekvienas neuronas prisideda prie įvairių idėjų. Dėl šio sutapimo antropiškai sunku išsiaiškinti šias idėjas. Tačiau pastebėdami šiuos pasikartojančius modelius, „Anthropic“ tyrėjai pradėjo iššifruoti, kaip Claude organizuoja savo mintis.

Claude'o samprotavimų atsekimas

Toliau „Anthropic“ norėjo pamatyti, kaip Claude'as naudoja tas mintis priimti sprendimus. Jie neseniai sukūrė įrankį, pavadintą „Atribution Graphs“, kuris veikia kaip žingsnis po žingsnio vadovas Claude'o mąstymo procesui. Kiekvienas grafiko taškas yra idėja, kuri užsidega Claude'o galvoje, o rodyklės parodo, kaip viena idėja teka į kitą. Ši diagrama leidžia tyrėjams sekti, kaip Claude klausimu paverčia atsakymu.

Norėdami geriau suprasti priskyrimo grafikų veikimą, apsvarstykite šį pavyzdį: paklauskite: „Kokia valstybės sostinė su Dalasu?“ Claude'as turi suvokti, kad Dalasas yra Teksase, tada prisiminti, kad Teksaso sostinė yra Austinas. Priskyrimo diagrama parodė šį tikslų procesą – vieną Claude'o dalį pažymėjo „Teksasas“, kuris paskatino kitą dalį pasirinkti „Austin“. Komanda net išbandė ją pakeisdama „Teksaso“ dalį ir, be abejo, pakeitė atsakymą. Tai rodo, kad Claude'as nėra tik spėjamas – jis veikia per šią problemą, ir dabar mes galime stebėti, kaip ji įvyks.

Kodėl tai svarbu: biologinių mokslų analogija

Norint sužinoti, kodėl tai svarbu, patogu galvoti apie kai kuriuos svarbiausius biologinių mokslų pokyčius. Kaip mikroskopo išradimas leido mokslininkams atrasti ląsteles – paslėptus gyvenimo blokus – šios aiškinamumo priemonės leidžia AI tyrėjams atrasti minties elementus. Ir lygiai taip pat, kaip žemėlapių grandinėse smegenyse arba genomo sekos nustatymas atvėrė kelią medicininei proveržiams, žemėlapiai, atvaizduoti vidinį Claude'o veikimą, galėtų paruošti kelią patikimesniam ir kontroliuojamam mašininio intelektui. Šios aiškinamumo priemonės galėtų vaidinti gyvybiškai svarbų vaidmenį, padėdamas mums žvilgtelėti į AI modelių mąstymo procesą.

Iššūkiai

Net ir turėdami visą šią pažangą, mes vis dar toli gražu ne visiškai suprantame LLM, tokius kaip Claude'as. Šiuo metu priskyrimo grafikai gali paaiškinti tik vieną iš keturių Claude'o sprendimų. Nors jo ypatybių žemėlapis yra įspūdingas, jis apima tik dalį to, kas vyksta Claude'o smegenyse. Kai milijardai parametrų, Claude ir kiti LLM atlieka daugybę skaičiavimų kiekvienai užduotims. Atsekite kiekvieną iš jų, kad pamatytumėte, kaip formuojasi atsakymas, kaip bandymas sekti kiekvieną neuroną, šaunantį žmogaus smegenyse per vieną mintį.

Taip pat yra „haliucinacijos“ iššūkis. Kartais AI modeliai sukuria atsakymus, kurie skamba tikėtini, bet iš tikrųjų yra klaidingi – kaip užtikrintai teigiama neteisingas faktas. Taip atsitinka todėl, kad modeliai remiasi modeliais iš jų mokymo duomenų, o ne tikrą pasaulio supratimą. Suprasti, kodėl jie įsitraukia į gamybą, išlieka sunki problema, pabrėžiant mūsų vidinio darbo supratimo spragas.

Šališkumas yra dar viena reikšminga kliūtis. PG modeliai mokosi iš daugybės duomenų rinkinių, iškastų iš interneto, kurie iš esmės kelia žmogaus šališkumą – stereotipus, išankstinius nusistatymus ir kitus visuomenės trūkumus. Jei Claude'as iš savo mokymo pasirinks šiuos šališkumus, jis gali atspindėti juos atsakymuose. Išpakavimas, kur atsiranda šie šališkumai ir kaip jie daro įtaką modelio samprotavimui, yra sudėtingas iššūkis, reikalaujantis ir techninių sprendimų, ir atidžiai apsvarstyti duomenis ir etiką.

Esmė

„Anthropic“ darbas kuriant didelius kalbų modelius (LLMS), tokius kaip Claude, suprantamesnis, yra reikšmingas žingsnis į priekį AI skaidrumo metu. Atskleisdami, kaip Claude'as apdoroja informaciją ir priima sprendimus, jie persiunčia svarbiausius susirūpinimą keliančius klausimus dėl AI atskaitomybės. Ši pažanga atveria duris saugiai integruoti LLM į kritinius sektorius, tokius kaip sveikatos priežiūra ir įstatymai, kur gyvybiškai svarbu pasitikėjimas ir etika.

Tobulėjant aiškinamumo tobulinimo metodams, pramonės šakos, kurios buvo atsargios dėl AI priėmimo, dabar gali persvarstyti. Skaidrūs modeliai, tokie kaip Claude'as, pateikia aiškų kelią į AI ateitį – modelius, kurie ne tik atkartoja žmogaus intelektą, bet ir paaiškina jų samprotavimus.


Source link

Jums tai gali patikti

Daugiau iš autoriaus