Nors „Deepseek-R1“ žymiai pažengė į AI galimybes neoficialiuose samprotavimuose, oficialūs matematiniai samprotavimai išliko sudėtinga AI užduotis. Visų pirma taip yra todėl, kad norint sukurti patikrinamą matematinį įrodymą, reikia ir gilaus konceptualaus supratimo, ir sugebėjimo sukurti tikslus, žingsnis po žingsnio loginius argumentus. Tačiau neseniai šia linkme daro didelę pažangą, nes „Deepseek-Ai“ tyrėjai pristatė „Deepseeek-PROVER-V2“-atvirojo kodo AI modelį, galintį matematinę intuiciją paversti griežtais, patikrinamais įrodymais. Šis straipsnis įsigilins į „Deepseeek-PROVER-V2“ detales ir atsižvelgs į jo galimą poveikį būsimiems moksliniams atradimams.
Oficialių matematinių samprotavimų iššūkis
Matematikai dažnai sprendžia problemas, naudodamiesi intuicija, euristika ir aukšto lygio samprotavimais. Šis požiūris leidžia jiems praleisti veiksmus, kurie atrodo akivaizdūs arba pasikliauja apytiksliai, kurių pakanka jų poreikiams. Tačiau oficiali teorema, įrodanti, kad reikalauja kitokio požiūrio. Tam reikia visiškai tiksliai, nes kiekvienas žingsnis aiškiai nurodytas ir logiškai pateisinamas be jokių dviprasmybių.
Naujausi didelių kalbos modelių (LLMS) pasiekimai parodė, kad jie gali spręsti sudėtingas, konkurencijos lygio matematikos problemas, naudodamiesi natūraliomis kalbos samprotavimais. Nepaisant šių pasiekimų, LLM vis dar stengiasi intuityvius samprotavimus paversti oficialiais įrodymais, kuriuos gali patikrinti mašinos. Tai visų pirma todėl, kad neoficialūs samprotavimai dažnai apima nuorodas ir praleistus veiksmus, kurių oficialios sistemos negali patikrinti.
„Deepseeek-PROVER-V2“ išsprendžia šią problemą derinant neoficialių ir formalių samprotavimų stipriąsias puses. Tai suskaido sudėtingas problemas į mažesnes, valdomas dalis, kartu išlaikant tikslumą, kurio reikalauja oficialiai tikrinant. Šis požiūris leidžia lengviau panaikinti atotrūkį tarp žmogaus intuicijos ir mašininio patikrintų įrodymų.
Naujas požiūris į teoremą
Iš esmės „Deepseeek-PROVER-V2“ naudojamas unikalus duomenų apdorojimo dujotiekis, apimantis tiek neoficialų, tiek oficialų pagrindimą. Dujotiekis prasideda nuo bendrosios paskirties LLM „Deepseeek-V3“, kuris analizuoja matematines problemas natūralia kalba, skaido jas į mažesnius žingsnius ir paverčia tuos veiksmus į oficialią kalbą, kurią gali suprasti mašinos.
Užuot bandęs išspręsti visą problemą vienu metu, sistema ją suskaido į „subgočių“ – tarpinių lemmų, kurios tarnauja kaip žingsniai, link galutinio įrodymo, seriją. Šis požiūris atkartoja, kaip žmogaus matematikai sprendžia sunkias problemas, dirbdami valdomais gabalais, o ne bandydami viską išspręsti vienu metu.
Šis požiūris ypač novatoriškas yra tai, kaip jis sintezuoja mokymo duomenis. Kai sėkmingai išspręsta visi sudėtingos problemos subgai, sistema sujungia šiuos sprendimus į visišką oficialų įrodymą. Tada šis įrodymas yra suporuotas su originaliais „Deepseeek-V3“ mąstymo grandinės samprotavimais, siekiant sukurti aukštos kokybės „šalto starto“ mokymo duomenis modelio mokymui.
Matematinių samprotavimų sustiprinimo mokymasis
Po pirminio mokymo apie sintetinius duomenis, „Deepseeek-PROVER-V2“ naudojamas sustiprinimo mokymasis, kad dar labiau padidintų jo galimybes. Modelis gauna grįžtamąjį ryšį apie tai, ar jo sprendimai yra teisingi, ar ne, ir jis naudoja šį grįžtamąjį ryšį, kad sužinotų, kuris artėjimas veikia geriausiai.
Vienas iš iššūkių yra tas, kad sugeneruotų įrodymų struktūra ne visada buvo susijusi su lemmos skilimu, kurį pasiūlė minties grandinė. Norėdami tai išspręsti, tyrėjai į mokymo etapus įtraukė nuoseklumą, siekdami sumažinti struktūrinį poslinkį ir įgyvendinti visų suskaidytų lemmų įtraukimą į galutinius įrodymus. Šis suderinimo metodas pasirodė ypač efektyvus sudėtingoms teoremoms, reikalaujančioms daugiapakopių samprotavimų.
Našumo ir realaus pasaulio galimybės
„Deepseeek-PROVER-V2“ pasirodymas nustatytuose etalonuose parodo savo išskirtines galimybes. Modelis pasiekia įspūdingų „Minif2F-Test“ etalono rezultatų ir sėkmingai išsprendžia 49 iš 658 problemų iš „Putnambench“-prestižinės Williamo Lowell Putnam matematikos konkurso problemų.
Galbūt įspūdingiau, įvertinus 15 pasirinktų problemų iš naujausių Amerikos kvietimo matematikos egzaminų (AIME) konkursų, modelis sėkmingai išsprendė 6 problemas. Taip pat įdomu pastebėti, kad, palyginti su „Deepseeek-Ver-V2“, „Deepseek-V3“ išsprendė 8 iš šių problemų, naudodamas daugumos balsavimą. Tai rodo, kad atotrūkis tarp oficialių ir neoficialių matematinių samprotavimų greitai susiaurina LLM. Tačiau modelio veikimas dėl kombinatorinių problemų vis dar reikalauja tobulėti, pabrėžti sritį, kurioje būtų galima sutelkti dėmesį į būsimus tyrimus.
Patarlė: naujas AI etalonas matematikos srityje
„Deepseek“ tyrėjai taip pat pristatė naują etaloninio duomenų rinkinį, skirtą įvertinti LLM matematinius problemų sprendimo galimybes. Šis etalonas, pavadintas Patarlėsusideda iš 325 formalizuotų matematinių problemų, įskaitant 15 problemų iš naujausių AIME konkursų, taip pat problemos iš vadovėlių ir švietimo vadovėlių. Šios problemos apima tokias sritis kaip skaičių teorija, algebra, skaičiavimas, tikroji analizė ir dar daugiau. AIME problemų įvedimas yra ypač gyvybiškai svarbus, nes jis įvertina problemų, kurias reikia ne tik prisiminti žinių, bet ir kūrybinis problemų sprendimas.
Prieiga prie atviro kodo ir ateityje
„Deepseeek-PROVER-V2“ suteikia įdomią galimybę su savo atvirojo kodo prieinamumu. Priglobtas tokiose platformose kaip „Hugging Face“, modelis yra prieinamas įvairiems vartotojams, įskaitant tyrėjus, pedagogus ir kūrėjus. Turėdami lengvesnę 7 milijardų parametrų versiją ir galinga 671 milijardo parametrų versija, „Deepseee“ tyrėjai užtikrina, kad vis dar gali būti naudingi vartotojai, turintys skirtingus skaičiavimo išteklius. Ši atvira prieiga skatina eksperimentus ir suteikia galimybę kūrėjams sukurti patobulintus AI įrankius matematiniam problemų sprendimui. Dėl to šis modelis gali paskatinti matematinių tyrimų naujoves, suteikiant galimybę tyrėjams spręsti sudėtingas problemas ir atskleisti naujas įžvalgas šioje srityje.
Poveikis AI ir matematiniai tyrimai
„Deepseeek-PROVER-V2“ vystymasis daro didelę įtaką ne tik matematiniams tyrimams, bet ir AI. Modelio gebėjimas generuoti oficialius įrodymus galėtų padėti matematikams spręsti sunkias teoremas, automatizuoti patikrinimo procesus ir net pasiūlyti naujų spėlionių. Be to, metodai, naudojami kuriant „Deepseeek-PROVER-V2“, galėtų paveikti būsimų AI modelių plėtrą kitose srityse, kurios remiasi griežtais loginiais samprotavimais, tokiais kaip programinė įranga ir aparatinės įrangos inžinerija.
Tyrėjai siekia išplėsti modelį, kad išspręstų dar sudėtingesnes problemas, tokias kaip Tarptautinės matematikos olimpiados (TJO) lygio. Tai gali dar labiau padidinti AI sugebėjimus įrodyti matematines teoremas. Tokiems modeliams kaip „Deepseeek-Ver-V2“ toliau vystosi, jie gali iš naujo apibrėžti matematikos ir AI ateitį, skatinant pažangą tose srityse, pradedant teoriniais tyrimais ir baigiant praktiniu technologijos pritaikymu.
Esmė
„Deepseeek-PROVER-V2“ yra reikšmingas AI pagrįsto matematinių samprotavimų vystymasis. Tai sujungia neoficialią intuiciją su oficialia logika, kad būtų galima suskaidyti sudėtingas problemas ir sugeneruoti patikrinamus įrodymus. Įspūdingi etalonų rezultatai rodo savo potencialą palaikyti matematikus, automatizuoti įrodymų patikrinimą ir netgi skatinti naujus atradimus lauke. Kaip atvirojo kodo modelis, jis yra plačiai prieinamas, siūlantis įdomias inovacijų galimybes ir naujas programas tiek AI, tiek matematikoje.