„Alphaevolve“: „Google Deepmind“ novatoriškas žingsnis link AGI

Estimated read time 9 min read

„Google DeepMind“ pristatė evoliucinį kodavimo agentą „Alphaevolve“, skirtą savarankiškai atrasti naujus algoritmus ir mokslinius sprendimus. Pristatytas dokumente pavadinimu „Alphaevolve“: mokslinio ir algoritminio atradimo kodavimo agentas, Šis tyrimas yra pagrindinis žingsnis link dirbtinio bendrojo intelekto (AGI) ir net dirbtinio superintelligencijos (ASI). „Alphaevolve“, užuot pasikliaudamas statiniu derinimo ar žmogaus pažymėtais duomenų rinkiniais, eina visiškai kitokiu keliu-tokiu, kuriame pagrindinis dėmesys skiriamas autonominiam kūrybiškumui, algoritminėms naujovėms ir nuolatiniam savęs tobulinimui.

„Alphaevolve“ centre yra savarankiškas evoliucinis vamzdynas, maitinamas didelių kalbų modeliais (LLM). Šis dujotiekis ne tik generuoja išėjimus, bet ir mutavus, vertina, atrenka ir pagerina kodą per kartas. „Alphaevolve“ prasideda pradine programa ir pakartoja ją patobulinti ją įvedant kruopščiai struktūrizuotus pakeitimus.

Šie pakeitimai yra LLM sukurtų diffs-kodų modifikacijos, kurias siūlo kalbos modelis, pagrįstas ankstesniais pavyzdžiais ir aiškiomis instrukcijomis. Programinės įrangos inžinerijos „diff“ reiškia skirtumą tarp dviejų failo versijų, paprastai paryškinančios linijas, kurias reikia pašalinti ar pakeisti, ir pridedant naujas eilutes. „Alphaevolve“ LLM sukuria šias diffs, analizuodamas dabartinę programą ir siūlydama mažus redagavimus – pridedant funkciją, optimizuodama kilpą ar keičiant hiperparametrą – pagal raginimą, apimantį našumo metriką ir išankstinius sėkmingus redagavimus.

Po to kiekviena modifikuota programa yra išbandoma naudojant automatinius vertintojus, pritaikytus užduočiai. Veiksmingiausi kandidatai yra saugomi, nurodomi ir rekombinuojami kaip įkvėpimas ateities iteracijoms. Laikui bėgant, ši evoliucinė kilpa lemia vis sudėtingesnių algoritmų atsiradimą – dažnai pranoksta tuos, kuriuos suprojektavo žmonių ekspertų.

„Alphaevolve“ mokslo supratimas

Savo esmėje „Alphaevolve“ remiasi evoliucinio skaičiavimo principais – dirbtinio intelekto polaukiu, įkvėptu biologinės evoliucijos. Sistema prasideda nuo pagrindinio kodo įgyvendinimo, kurį ji traktuoja kaip pradinį „organizmą“. Per kartas „Alphaevolve“ modifikuoja šį kodą-įvedančius variacijas ar „mutacijas“-ir įvertina kiekvieno varianto tinkamumą naudodamas tiksliai apibrėžtą balų funkciją. Geriausi variantai išgyvena ir tarnauja kaip naujos kartos šablonai.

Ši evoliucijos kilpa yra suderinta per:

  • Atitinkamas atranka: „Alphaevolve“ konstruoja raginimus, pasirinkdami ir įterpdami anksčiau sėkmingus kodų pavyzdžius, našumo metriką ir konkrečias užduoties instrukcijas.
  • Kodo mutacija ir pasiūlymas: Sistema naudoja galingų LLM – „Gemini 2.0 Flash“ ir „Pro“ – derinį, kad būtų sukurtos specifinės dabartinės kodo bazės modifikacijos diferencialo pavidalu.
  • Vertinimo mechanizmas: Automatizuota vertinimo funkcija įvertina kiekvieno kandidato veiklą vykdant ją ir grąžinant skaliarinius balus.
  • Duomenų bazė ir valdiklis: Paskirstytas valdiklis orkestruoja šią kilpą, saugant evoliucinę duomenų bazę ir subalansuojant tyrinėjimą su išnaudojimu naudojant tokius mechanizmus kaip žemėlapio elitai.

Šis turtingas atsiliepimų, automatizuotas evoliucijos procesas radikaliai skiriasi nuo standartinių derinimo būdų. Tai įgalina „Alphaevolve“ generuoti naujus, aukšto efektyvumo ir kartais priešintuityvius sprendimus-peržengti ribą to, ką mašininis mokymasis gali savarankiškai pasiekti.

Lyginant alfaevolve su RLHF

Norint įvertinti „Alphaevolve“ naujovę, labai svarbu palyginti ją su pastiprinimo mokymuisi iš žmonių atsiliepimų (RLHF)-dominuojančio požiūrio, naudojamo didelių kalbų modeliams sureguliuoti.

RLHF žmonių nuostatos yra naudojamos apdovanojimo modeliui mokyti, kuris vadovauja LLM mokymosi procesui per stiprinimo mokymosi algoritmus, tokius kaip proksimalinė politikos optimizavimas (PPO). RLHF pagerina modelių suderinimą ir naudingumą, tačiau norint generuoti grįžtamojo ryšio duomenis, reikia išsamaus žmogaus įsitraukimo ir paprastai veikia statiniame, vienkartiniame tobulinimo režime.

Alfaevolve, priešingai:

  • Pašalina žmogaus atsiliepimus iš kilpos, naudodamos mašinomis išnaudojamus vertintojus.
  • Palaiko nuolatinį mokymąsi per evoliucinę atranką.
  • Tiria daug platesnes sprendimo vietas dėl stochastinių mutacijų ir asinchroninio vykdymo.
  • Gali generuoti ne tik suderintus sprendimus, bet ir romanas ir moksliškai reikšmingas.

Kur RLHF tiksliai derina elgesį, alfaevolve atranda ir išradimai. Šis skirtumas yra labai svarbus svarstant būsimas trajektorijas link AGI: „Alphaevolve“ ne tik daro geresnes prognozes – tai randa naujus kelius į tiesą.

Programos ir proveržiai

1. Algoritminis atradimas ir matematinė pažanga

„Alphaevolve“ pademonstravo savo gebėjimą novatoriškiems atradimams pagrindinėse algoritminėse problemose. Svarbiausia, kad jis atrado naują algoritmą, skirtą padauginti dviem 4 × 4 komplekso vertinamas matricas, naudojant tik 48 skalarinius daugybinius daugybinius-„Strassen“ 1969 m. Rezultatas-49 daugybinis ir sulaužė 56 metų teorines viršutines ribas. „Alphaevolve“ tai pasiekė naudodamas pažangias tensorių skilimo metodus, kuriuos jis išsivystė per daugybę iteracijų, pralenkdamas kelis moderniausius metodus.

Be matricos daugybos, „Alphaevolve“ labai prisidėjo prie matematinių tyrimų. Tai buvo įvertinta daugiau nei 50 atvirų problemų visose srityse, tokiose kaip kombinatorinė, skaičių teorija ir geometrija. Maždaug 75% atvejų tai atitiko geriausiai žinomus rezultatus ir viršijo juos maždaug 20%. Šios sėkmės apėmė Minimalios ERDS sutapimo problemos patobulinimus, tankesnį bučiavimo numerio problemos sprendimą 11 matmenų ir efektyvesnes geometrines pakavimo konfigūracijas. Šie rezultatai pabrėžia jos sugebėjimą veikti kaip autonominis matematinis tyrinėtojas – pakaitalas, pakartojimas ir tobulėjimas vis labiau optimalesni sprendimai be žmogaus įsikišimo.

2. Optimizavimas visoje „Google“ skaičiavimo kaminoje

„Alphaevolve“ taip pat pateikė apčiuopiamų našumo patobulinimų visoje „Google“ infrastruktūroje:

  • Į Duomenų centro planavimasji atrado naują euristiką, kuri pagerino darbo vietą, atkurdama 0,7% anksčiau įstrigusių skaičiavimo išteklių.
  • Dvynių treniruočių branduoliai„Alphaevolve“ sugalvojo geresnę „Matrix“ daugybos strategiją, suteikdama 23% branduolio greitį ir 1% bendrą treniruočių laiką.
  • Į TPU grandinės dizainasji nustatė aritmetinės logikos supaprastinimą RTL (registro perdavimo lygyje), kurį patikrino inžinieriai ir įtraukta į naujos kartos TPU lustus.
  • Tai taip pat optimizavo Kompiliatoriaus sukurtas „Flashatention“ kodas Redaguodamas XLA tarpinius vaizdus, ​​32%sumažinant GPU išvadų laiką.

Kartu šie rezultatai patvirtina „Alphaevolve“ gebėjimą veikti keliais abstrakcijos lygiais-nuo simbolinės matematikos iki žemo lygio aparatinės įrangos optimizavimo-ir užtikrina realaus pasaulio našumo padidėjimą.

  • Evoliucinis programavimas: PG paradigma, naudojanti mutaciją, atranką ir paveldėjimą pakartotinai patobulinti sprendimus.
  • Kodas superoptimizavimas: Automatizuota veiksmingiausio funkcijos įgyvendinimo paieška – dažnai ir sukelia stebėtinus, priešingus patobulinimus.
  • Meta greita evoliucija: „Alphaevolve“ ne tik keičia kodą; Tai taip pat vystosi, kaip ji perduoda instrukcijas į LLM-įgalina kodavimo proceso savirefinavimą.
  • Diskretizacijos praradimas: Sureguliavimo terminas, skatinantis išvestis suderinti su pusiau spintelės ar sveiko skaičiaus vertėmis, kritiškomis matematiniam ir simboliniam aiškumui.
  • Haliucinacijos praradimas: Mechanizmas, kaip įšvirkšti atsitiktinumą į tarpinius tirpalus, skatinant tyrinėjimą ir išvengti vietinių minimumų.
  • MAP-elitų algoritmas: Tam tikro kokybės įvairovės algoritmo rūšis, palaikantis įvairias populiacijas, turinčias aukšto efektyvumo sprendimus, susijusius su bruožų matmenimis-įgalinant tvirtas naujoves.

Pasekmės AGI ir ASI

„Alphaevolve“ yra daugiau nei optimizatorius – tai žvilgsnis į ateitį, kurioje protingi agentai gali parodyti kūrybinę autonomiją. Sistemos gebėjimas suformuluoti abstrakčias problemas ir suprojektuoti savo požiūrį į jų sprendimą yra reikšmingas žingsnis link dirbtinio bendrojo intelekto. Tai viršija duomenų numatymą: tai apima struktūrizuotus samprotavimus, strategijos formavimąsi ir prisitaikymą prie grįžtamojo ryšio – intelektualiojo elgesio ženklų.

Jo gebėjimas pakartotinai generuoti ir patobulinti hipotezes taip pat rodo, kaip mašinos mokosi. Skirtingai nuo modelių, kuriems reikalingas platus prižiūrimi mokymai, „Alphaevolve“ pagerėja per eksperimentavimo ir vertinimo ciklą. Ši dinamiška intelekto forma leidžia jai naršyti sudėtingose ​​probleminėse erdvėse, atsisakyti silpnų sprendimų ir pakelti stipresnius, be tiesioginės žmogaus priežiūros.

Vykdydamas ir patvirtindamas savo idėjas, „Alphaevolve“ funkcionuoja ir kaip teoretikas, ir eksperimentalistas. Jis peržengia iš anksto nustatytas užduotis ir į atradimo sritį, imituojant autonominį mokslinį procesą. Kiekvienas siūlomas patobulinimas yra patikrintas, lyginamas ir pakartotinai integruotas-skiriamas nuolatiniam tobulinimui, remiantis realiais rezultatais, o ne statiniais tikslais.

Turbūt labiausiai „Alphaevolve“ yra ankstyvasis rekursinio savęs tobulinimo atvejis, kai AI sistema ne tik mokosi, bet ir sustiprina savaime suprantamą komponentą. Keliais atvejais „Alphaevolve“ patobulino mokymo infrastruktūrą, palaikančią jos pačių pamatų modelius. Nors ši galimybė vis dar riboja dabartinę architektūrą, ji sukuria precedentą. Turėdama daugiau problemų vertinamoje aplinkoje, „Alphaevolve“ galėtų sustiprinti vis sudėtingesnį ir savaime optimizuojantį elgesį-esminį dirbtinio supervilios bruožą (ASI).

Apribojimai ir ateities trajektorija

Dabartinis „Alphaevolve“ apribojimas yra priklausomybė nuo automatinių vertinimo funkcijų. Tai riboja savo naudą su problemomis, kurios gali būti įforminamos matematiškai ar algoritmiškai. Tai dar negali prasmingai veikti srityse, kurioms reikalingas tylus žmogaus supratimas, subjektyvus sprendimas ar fizinis eksperimentas.

Tačiau ateities kryptys apima:

  • Hibridinio įvertinimo integracija: simbolinių samprotavimų derinimas su žmogaus pageidavimais ir natūralios kalbos kritika.
  • Diegimas modeliavimo aplinkoje, įgalinant įkūnyti mokslinius eksperimentus.
  • Išsivysčiusių išvesties distiliavimas į bazines LLMS, sukuriant pajėgesnius ir efektyvesnius pavyzdžius.

Šios trajektorijos nurodo vis labiau agentines sistemas, galinčias autonomiškai, didelius klausimus išspręsti.

Išvada

„Alphaevolve“ yra gilus žingsnis į priekį – ne tik AI įrankiuose, bet ir suprantame pačią mašinos intelektą. Sujungus evoliucinę paiešką su LLM samprotavimais ir atsiliepimais, tai iš naujo nustato, kokias mašinas gali savarankiškai atrasti. Tai yra ankstyvas, bet reikšmingas signalas, kad savaime tobulinančios sistemos, galinčios realiai mokslinei mintims, nebėra teorinės.

Žvelgiant į ateitį, architektūra, kuria grindžiama „Alphaevolve“, galėtų būti rekursyviai pritaikyta sau: tobulinti savo vertintojus, tobulinti mutacijų logiką, tobulinti balų funkcijas ir optimizuoti pagrindinius modelių mokymo vamzdynus, kuriuos ji priklauso. Ši rekursinė optimizavimo kilpa yra techninis įkrovos link AGI įkrovos mechanizmas, kur sistema ne tik atlieka užduotis, bet ir pagerina pačią infrastruktūrą, kuri įgalina jos mokymąsi ir samprotavimus.

Laikui bėgant, kai „Alphaevolve“ skalės yra sudėtingesnėse ir abstrakčiose srityse – o žmogaus intervencija į procesą mažėja – tai gali parodyti spartėjantį intelekto padidėjimą. Šis savarankiškai sustiprinantis iteracinio tobulinimo ciklas, pritaikytas ne tik išorinėms problemoms, bet ir vidiniam savo algoritminės struktūros atžvilgiu, yra pagrindinis teorinis AGI komponentas ir visas privalumus, kuriuos ji galėtų suteikti visuomenei. Su savo kūrybiškumo, autonomijos ir rekursijos deriniu „Alphaevolve“ gali būti prisimenamas ne tik kaip „Deepmind“ produktas, bet ir kaip pirmojo tikrai bendro ir savaime suprantamo dirbtinio proto projektas.

Nuoroda į informacijos šaltinį

Jums tai gali patikti

Daugiau iš autoriaus