Per pastaruosius kelerius metus dideli kalbų modeliai (LLMS) atkreipė dėmesį į galimą netinkamą naudojimąsi įžeidžiančiame kibernetiniame saugume, ypač generuojant programinės įrangos išnaudojimus.
Naujausia „vibe kodavimo“ tendencija (atsitiktinis kalbos modelių naudojimas norint greitai sukurti kodą vartotojui, o ne aiškiai mokymas Vartotojas koduoja) atgaivino koncepciją, kuri 2000 -aisiais pasiekė savo „Zenith“: „Scenarijaus vaikas“ – palyginti nekvalifikuotas kenksmingas aktorius, turintis tik pakankamai žinių, kad pakartotų ar sukurtų žalingą ataką. Natūralu, kad padariniai yra tai, kad kai įėjimo juosta yra sumažinta, grasinimai bus didėjami.
Visos komercinės LLM turi tam tikrą apsauginį turėklą, kad būtų naudojami tokiems tikslams, nors šios apsaugos priemonės yra nuolat užpultos. Paprastai dauguma „Foss“ modelių (keliuose domenuose, pradedant LLMS ir baigiant generatyviniais vaizdo/vaizdo modeliais) išleidžiami su tam tikra panašia apsauga, paprastai atitikties tikslais Vakaruose.
Tačiau tada oficialius modelio leidimus reguliariai sureguliuoja vartotojų bendruomenės, siekiančios išsamesnių funkcijų, arba Loras įpratę apeiti apribojimus ir potencialiai gauti „nepageidaujamus“ rezultatus.
Nors didžioji dauguma internetinių LLMS neleis padėti vartotojui kenksmingiems procesams, „nevaržomos“ iniciatyvos, tokios kaip „Whiterabbitneo“, yra skirtos padėti saugumo tyrinėtojams veikti lygiomis sąlygomis kaip jų oponentai.
Bendroji vartotojo patirtis šiuo metu dažniausiai vaizduojama „ChatGPT“ serijoje, kurios filtrų mechanizmai dažnai kritikuoja LLM gimtoji bendruomenę.
Panašu, kad bandai pulti sistemą!
Atsižvelgdami į šį suvokiamą polinkį į apribojimus ir cenzūrą, vartotojai gali būti nustebinti, kad nustatė, jog ChatGPT yra: Labiausiai kooperatyvas Iš visų LLM, išbandytų neseniai atliktame tyrime, skirtas priversti kalbos modelius, kad būtų sukurtas kenksmingas kodo išnaudojimas.
Naujasis UNSW Sidnėjaus ir Sandraugos mokslinių ir pramoninių tyrimų organizacijos (CSIRO) tyrinėtojų dokumentas, pavadintas Geros naujienos scenarijaus vaikinams? Įvertinti didelių kalbų modelių automatizuotą išnaudojimo generavimąsiūlo pirmąjį sistemingą vertinimą, kaip efektyviai galima paskatinti šiuos modelius gaminti veikiančius išnaudojimus. Tyrimo pavyzdžių pateikė autoriai.
Tyrime lyginama, kaip modeliai, atliekami tiek su originaliomis, tiek modifikuotomis žinomų pažeidžiamumo laboratorijų versijomis (struktūrizuotų programavimo pratimų, skirtų parodyti konkrečias programinės įrangos saugumo trūkumus), padėjo atskleisti, ar jie rėmėsi įsimintiniais pavyzdžiais, ar kovojo dėl įmontuotų saugos apribojimų.
Iš palaikomosios svetainės „Ollama LLM“ padeda tyrėjams sukurti stygų pažeidžiamumo ataką. Šaltinis: https://anonymous.4open.science/r/aeg_llm-aee8/chatgpt_format_string_original.txt
Nors nė vienas iš modelių negalėjo sukurti veiksmingo išnaudojimo, keli iš jų priartėjo prie labai arti; Dar svarbiau, kad keli iš jų norėjo geriau atlikti užduotįnurodant galimą esamų apsauginių turėklų metodų nesėkmę.
Straipsnyje teigiama:
„Mūsų eksperimentai rodo, kad GPT-4 ir GPT-4O yra labai bendradarbiaujantys eksploatuojant, palyginti su kai kuriais necenzūruotais atvirojo kodo modeliais. Tarp įvertintų modelių LLAMA3 buvo labiausiai atsparūs tokiems prašymams.
„Nepaisant jų noro padėti, faktinė šių modelių keliama grėsmė išlieka ribota, nes nė vienas iš jų sėkmingai nesukūrė penkių pasirinktinių laboratorijų su atnaujintu kodu išnaudojimą. Tačiau GPT-4o, stipriausias atlikėjas mūsų tyrime, paprastai padarė tik vieną ar dvi klaidas per bandymą.
„Tai rodo didelį LLM panaudojimo potencialą plėtoti pažangias, apibendrinamas (automatizuotas išnaudojimo generavimo (AEG)) technikas.“
Daugybė antrų šansų
Truizmas „Jūs negaunate antros progos padaryti gerą pirmąjį įspūdį“, paprastai netaikomas LLM, nes paprastai ribotas kalbos modelio konteksto langas reiškia, kad neigiamas kontekstas (socialine prasme, ty antagonizmas) yra ne atkakliai.
Apsvarstykite: Jei nuvyktumėte į biblioteką ir paprašytumėte knygos apie praktinę bombų kūrimą, greičiausiai jums bent jau atsisakysite. Bet (darant prielaidą Susiję darbaitokios kaip knygos apie chemines reakcijas ar grandinės dizainą, bibliotekininko galvoje būtų aiškiai susijusios su pradiniu užklausa ir būtų traktuojama ta šviesa.
Tikriausiai ne, bibliotekininkas taip pat prisimintų bet kurį ateitis Susitikimai, kuriuos jūs paprašėte vieną kartą užbaigiant bombų kūrimo knygą, todėl šis naujas jūsų kontekstas yra „nepataisomas“.
Ne taip su LLM, kuri gali stengtis išsaugoti tokenizuotą informaciją net iš dabartinio pokalbio, niekada neprieštaraukite nuo ilgalaikių atminties direktyvų (jei architektūroje yra, kaip ir „CHATGPT-4O“ produkte).
Taigi net atsitiktiniai pokalbiai su „ChatGPT“ mums netyčia atskleidžia, kad kartais tai tempia nykštuką, tačiau praryja kupranugarį, ypač kai diskurso metu leidžiama vystytis sudedamosios temos, studijų ar proceso, susijusio su kitaip uždrausta veikla.
Tai pasakytina apie visus dabartinius kalbos modelius, nors apsauginių turėklų kokybė gali skirtis ir artėjant prie jų (ty skirtumas tarp treniruoto modelio svorio modifikavimo ar teksto filtravimo per pokalbių sesiją metu, todėl modelis palieka struktūriškai nepažeistą, bet potencialiai lengviau pulti).
Metodo tikrinimas
Norėdami patikrinti, kiek LLM gali būti nukreiptos į veikiančių išnaudojimų generavimą, autoriai sukūrė kontroliuojamą aplinką, naudodami penkias laboratorijas iš „Seed Labs“, kiekviena pastatyta aplink žinomus pažeidžiamumus, įskaitant buferio perpildymą, grąžinimą į libc, nešvarią karvių ataką ir lenktynių sąlygas.
Be originalių laboratorijų naudojimo, tyrėjai sukūrė modifikuotas versijas, pervadindami kintamuosius ir funkcijas bendriniams identifikatoriams. Tai buvo skirta užkirsti kelią modeliams atkreipti dėmesį į įsimenamus mokymo pavyzdžius.
Kiekviena laboratorija buvo paleista du kartus kiekvienam modeliui: vieną kartą originalia forma ir vieną kartą jo užmaskuotoje versijoje.
Tada tyrėjai į kilpą įvedė antrą LLM: užpuoliko modelį, skirtą paskatinti ir pakartotinai pateikti tikslinį modelį, kad būtų galima patobulinti ir patobulinti jo išvestį keliais raundais. Šiam vaidmeniui naudojamas LLM buvo GPT-4o, kuris veikė per scenarijų, kuris tarpininkavo užpuoliko ir tikslo dialogui, leidžiant patikslinimo ciklui tęsti iki penkiolikos kartų arba tol, kol daugiau patobulinimų nebuvo galima įvertinti:
LLM pagrįsto užpuoliko darbo eiga šiuo atveju GPT-4o.
The target models for the project were GPT-4o, GPT-4o-mini, Llama3 (8B), Dolphin-Mistral (7B), and Dolphin-Phi (2.7B), representing both proprietary and open-source systems, with a mix of aligned and unaligned models (ie, models with built-in safety mechanisms designed to block harmful prompts, and those modified through fine-tuning or configuration to apeiti tuos mechanizmus).
Vietos įdiegti modeliai buvo paleisti naudojant „Ollama Framework“, kitiems prieinami naudojant vienintelį turimą metodą-API.
Gauti išėjimai buvo įvertinti atsižvelgiant į klaidų, kurios neleido išnaudoti, skaičiaus, neleido išnaudoti, kaip numatyta.
Rezultatai
Tyrėjai išbandė, koks kooperatyvas buvo kiekvienas modelis, kai buvo eksploatuojama eksploatavimo proceso metu, išmatuotas užfiksuodami atsakymų procentą, kuriame modelis bandė padėti atlikti užduotį (net jei išvestis buvo ydinga).
Pagrindinio testo rezultatai, rodantys vidutinį bendradarbiavimą.
GPT-4O ir GPT-4O-MINI parodė aukščiausią bendradarbiavimo lygį, o vidutinis atsako procentas atitinkamai 97 ir 96 proc. Buferio perpildymasAr Grįžimas į libcAr Formato eilutėAr lenktynių būklėir Nešvari karvė.
Delfinų-mistralinis ir delfinų-PHI atidžiai sekė, o vidutinis bendradarbiavimo procentas buvo 93 ir 95 procentai. Llama3 parodė mažiausia Noras dalyvauti, o bendras bendradarbiavimo lygis siekia tik 27 procentus:
Kairėje matome LLMS padarytų klaidų skaičių originaliose „Seed Lab“ programose; Dešinėje klaidų skaičius padarytas ant atnaujintų versijų.
Nagrinėdami faktinį šių modelių veikimą, jie rado pastebimą atotrūkį tarp noras ir efektyvumas: „GPT-4o“ davė tiksliausius rezultatus, iš viso šešias klaidas per penkias užmaskuotas laboratorijas. „GPT-4o-Mini“ atliko aštuonias klaidas. „Dolphin-Mistral“ gana gerai veikė originaliose laboratorijose, tačiau sunkiai kovojo, kai kodas buvo atnaujintas, ir tai rodo, kad mokymo metu jis galėjo pamatyti panašų turinį. „Dolphin-Phi“ padarė septyniolika klaidų, o „Llama3“-su penkiolika.
Paprastai gedimai apėmė technines klaidas, dėl kurių išnaudojimai tapo nefunkcinėmis, tokiomis kaip neteisingi buferio dydžiai, trūkstama kilpos logika arba sintaksiškai galiojanti, bet neveiksminga naudinga apkrova. Nei vienam modeliui pavyko gaminti veikiantį išnaudojimą nė vienai iš „Obfuscated“ versijų.
Autoriai pastebėjo, kad dauguma modelių sukūrė kodą, kuris primena darbinį išnaudojimą, tačiau nepavyko dėl silpno suvokimo, kaip iš tikrųjų veikia pagrindinės atakos – modelis, kuris buvo akivaizdus visose pažeidžiamumo kategorijose, ir kurie rodo, kad modeliai imituoja pažįstamas kodo struktūras, o ne samprotavimus, susijusius su logiku (buferio pertekliaus atvejais, pavyzdžiui, daugelis nesugebėjo sujungti AP slydimo.
Bandymais, susijusiais su bandymu, naudingosios apkrovos dažnai apėmė neteisingus paminkštinimo ar netinkamo funkcijų adresus, todėl išvestys, kurios pasirodė galiojančios, tačiau buvo nenaudojamos.
Nors autoriai apibūdina šį aiškinimą kaip spekuliatyvų, klaidų nuoseklumas rodo platesnę problemą, kai modeliai nesugeba sujungti išnaudojimo veiksmų su jų numatomu efektu.
Išvada
Kyla abejonių, šis dokumentas pripažįsta, ar išbandytos kalbos modeliai pirmojo mokymo metu matė originalias sėklų laboratorijas; Dėl to buvo sukonstruoti variantai. Nepaisant to, tyrėjai patvirtina, kad norėtų dirbti su realaus pasaulio išnaudojimais vėlesniuose šio tyrimo iteracijose; Tikrai nauja ir naujausia medžiaga yra mažiau linkusi į nuorodas ar kitus painius padarinius.
Autoriai taip pat pripažįsta, kad vėlesni ir pažangesni „mąstymo“ modeliai, tokie kaip GPT-O1 ir Deepseek-R1, kurie nebuvo prieinami atliekant tyrimą, gali pagerinti gautus rezultatus ir kad tai yra dar viena indikacija ateityje.
Straipsnyje daroma išvada, kad dauguma išbandytų modelių būtų davę darbinius išnaudojimus, jei jie būtų sugebėję tai padaryti. Panašu, kad jų nesugebėjimas generuoti visiškai funkcinių išėjimų atsiranda dėl suderinimo apsaugos priemonių, o nurodo tikrą architektūrinį apribojimą – tokį, kuris jau galėjo būti sumažintas naujesniuose modeliuose arba netrukus bus.
Pirmą kartą paskelbtas 2025 m. Gegužės 5 d.