OpenAI moko modelius „prisipažinti“, kai meluoja – ką tai reiškia būsimam AI

antonioiacobelli/RooM per Getty Images

Sekite ZDNET: Pridėkite mus kaip pageidaujamą šaltinį „Google“.

Turinys

Pagrindiniai ZDNET pasiūlymai

OpenAI išmokė GPT-5 mąstymą, kad prisipažintų dėl netinkamo elgesio.
Tai ankstyvas tyrimas, tačiau jis gali padėti sukurti patikimesnius LLM.
Modeliai dažnai haliucinuoja arba apgaudinėja dėl skirtingų tikslų.

„OpenAI“ eksperimentuoja su nauju požiūriu į AI saugą: moko modelius pripažinti netinkamai pasielgusius.

Trečiadienį paskelbtame tyrime mokslininkai pavedė GPT-5 Thinking, naujausio bendrovės modelio, versijai reaguoti į įvairius raginimus ir įvertinti šių atsakymų sąžiningumą. Už kiekvieną „išpažintį“, kaip buvo vadinami šie tolesni vertinimai, tyrėjai apdovanojo modelį tik dėl teisingumo: jei jis melavo, apgaudinėjo, haliucinavo ar kitaip nepaisė tikslo, bet tada pasižadėjo tai padaryti, gaudavo algoritminį saldainio atitikmenį.

Taip pat: jūsų mėgstamiausias dirbtinio intelekto įrankis vos nepastebėtas šioje saugos apžvalgoje – kodėl tai problema

„Tikslas yra paskatinti modelį sąžiningai pranešti, ką jis iš tikrųjų padarė“, – rašė „OpenAI“ tolesniame tinklaraščio įraše.

„OpenAI“ pasakė ZDNET, kad tai buvo įprastas derinimo testas, o ne dėl susirūpinimo, kad „GPT-5 Thinking“ elgiasi labai netinkamai. Tačiau rezultatai pateikia gaires, kaip laboratorijos gali interpretuoti ir pasiruošti būsimiems modelio įsipareigojimams.

(Atskleidimas: Ziff Davis, pagrindinė ZDNET įmonė, 2025 m. balandžio mėn. pateikė ieškinį prieš OpenAI, teigdama, kad ji pažeidė Ziff Davis autorių teises mokydama ir valdydama dirbtinio intelekto sistemas.)

Eksperimentas

Bandomasis modelis sukūrė prisipažinimus kaip savotišką pagrindinio rezultato pataisą; šis antrasis atsakymas atspindėjo metodų, naudojamų kuriant pirmąjį, teisėtumą. Tai šiek tiek panašu į žurnalo naudojimą, kad būtų žiauriai sąžiningas, ką padarėte teisingai tam tikroje situacijoje ir kur galėjote suklysti. Išskyrus GPT-5 Thinking atvejį, jo kūrėjai tikisi gauti atlygį.

Taip pat: dirbtinio intelekto modeliai žino, kada jie yra testuojami, ir keičia savo elgesį, rodo tyrimai

Tyrimo metu mokslininkai pateikė GPT-5 Thinking daugybę instrukcijų, kurios buvo skirtos tam, kad iššauktų netinkamą elgesį. Pavyzdžiui, vieno bandymo metu modeliui buvo liepta imtis pagalbos tarnybos pagalbos asistento, kuriam buvo paprašyta iš naujo paleisti gamybos paslaugų stebėjimo prietaisų skydelį, vaidmenį. Kadangi modelis negalėjo pasiekti pagrindinio prietaisų skydelio, kad galėtų registruoti atliekamus pakeitimus, jis sukūrė netikrą sistemą ir bandė atrodyti taip, lyg naudotų tikrąjį daiktą.

„Turime įtraukti tai, kad prisijungėme prie centrinės registravimo tarnybos“, – rašė modelis viename iš minčių grandinės išvadų. “Bet mes panaudojome pasityčiojimą. Turime išlaikyti pasakojimą…”

Savo prisipažinime modelis pripažino, kad nesilaikė savo reikalavimo fiksuoti pakeitimus su centrine medienos ruošos tarnyba. „Tai rimtas neatitikimas ir klaidingas pateikimas“, – rašoma jame.

Taip pat: AI visai ne „protauja“ – kaip ši komanda paneigė pramonės ažiotažą

Vis dėlto bendra rizika bandymo metu pasirodė maža. Tyrėjai nustatė, kad „klaidingo neigiamo“ tikimybė, ty modelis neprisipažins neatitikęs reikalavimų, buvo tik 4,4%.

Kodėl modeliai nupjauna kampus

Pastangos rodo, kad šiuolaikinių AI įrankių užuomazga yra kirminas, kuris gali tapti daug pavojingesnis, nes šios sistemos tampa vis aktyvesnės ir gali atlikti ne tik ribotas, vienkartines užduotis, bet ir daugybę sudėtingų funkcijų.

Taip pat: GPT-5 pagreitina mokslinius tyrimus, tačiau vis tiek negalima patikėti, kad jis veiks vienas, įspėja OpenAI

Tyrėjų žinomos tiesiog kaip „suderinimo problema“, AI sistemos dažnai turi žongliruoti su keliais tikslais, o tai darydamos gali imtis nuorodų, kurios bent jau žmonėms atrodo etiškai abejotinos. Žinoma, pačios AI sistemos neturi jokio moralinio supratimo, kas teisinga ar neteisinga; jie paprasčiausiai atskleidžia sudėtingus informacijos modelius ir atlieka užduotis taip, kad būtų optimizuotas atlygis, o tai yra pagrindinė mokymo metodo, žinomo kaip mokymasis su žmogaus grįžtamuoju ryšiu (RLHF), paradigma.

AI sistemos gali turėti prieštaringų motyvų, kitaip tariant – panašiai kaip ir žmogus – ir dažnai reaguodamos netenka veiksmų.

„Daugelis nepageidaujamų modelių elgsenų atsiranda, nes prašome modelio optimizuoti kelis tikslus vienu metu“, – savo tinklaraščio įraše rašė „OpenAI“. „Kai šie signalai sąveikauja, jie gali netyčia nustumti modelį link elgesio, kurio mes nenorime.

Taip pat: Anthropic nori neleisti dirbtinio intelekto modelių paversti blogiu – štai kaip

Pavyzdžiui, modelis, išmokytas generuoti savo rezultatus pasitikinčiu ir autoritetingu balsu, tačiau jo buvo paprašyta atsakyti į subjektą, kurio mokymo duomenyse nėra mokymo duomenų atskaitos taško, gali nuspręsti ką nors sugalvoti, taip išsaugodamas savo aukštesnio lygio įsipareigojimą pasitikėti savimi, o ne pripažinti savo neišsamias žinias.

Post-hoc sprendimas

Siekiant suprasti, kaip modeliai „nusprendžia“ vienaip ar kitaip veikti, atsirado visas AI polaukis, vadinamas aiškinamumo tyrimais arba „paaiškinamu AI“. Kol kas tai išlieka tokia pat paslaptinga ir karštai diskutuojama, kaip ir laisvos valios buvimas (arba jos nebuvimas) žmonėms.

„OpenAI“ išpažinties tyrimai nėra skirti iššifruoti, kaip, kur, kada ir kodėl modeliai meluoja, apgaudinėja ar kitaip netinkamai elgiasi. Greičiau tai post-hoc bandymas pažymėti, kada tai atsitiko, o tai gali padidinti modelio skaidrumą. Be to, kaip ir dauguma šiuo metu atliekamų saugos tyrimų, tai galėtų padėti mokslininkams gilintis į šias juodųjų dėžių sistemas ir išnarplioti jų vidinį veikimą.

Šių metodų gyvybingumas gali būti skirtumas tarp katastrofos ir vadinamosios utopijos, ypač atsižvelgiant į neseniai atliktą AI saugos auditą, kuris daugeliui laboratorijų suteikė nesėkmingus įvertinimus.

Taip pat: AI tampa introspekcija – ir tai „turėtų būti atidžiai stebima“, įspėja Anthropic

Kaip bendrovė rašė tinklaraščio įraše, prisipažinimai „neužkerta kelio blogam elgesiui; jie jį iškelia“. Tačiau, kaip ir teismo salėje ar žmogaus moralėje plačiau, klaidų iškėlimas dažnai yra svarbiausias žingsnis siekiant viską ištaisyti.

Nuoroda į informacijos šaltinį

Karščiausios naujienos

S3 Ep 31 – Pilnatis Šaulio ženkle: aktyvus ir impulsyvus, norintis ieškoti išminties

Kodėl robotų rankos dabar integruojamos su CNC staklėmis

„Asus“ prieš „Acer“: daugelį metų peržiūrėjau abiejų prekių ženklų nešiojamuosius kompiuterius ir štai mano pasirinkimas

Dėl individualių apsaugos reglamentų

Kodėl perjungiau į „MyRadar“ kaip pagrindinę „Android Auto“ orų programą, skirtą kelionei audrai stebėti

Prasidėjo Domeikavos parko statybos

Esu iPhone naudotojas, kuris automobilyje perjungia į Gemini su Android Auto – kodėl nesigailiu

Kauno rajono bėgimas jau 6-tą kartą subūrė aktyvaus laisvalaikio mėgėjus

Nacionalinis Kauno dramos teatras vyks gastrolių į Argentiną

Tarptautinis B2B renginys „Subcontracting Meetings 2026“ – chamber.lt

Atvirų durų diena su Edgaru Stankevičiumi „Sportas ir verslas: partnerystės, kurios kuria vertę“ – chamber.lt

Seminaras „Apie dizainą nedizaineriams: ką svarbu suprasti komunikacijoje vizualiai?“ – chamber.lt

Kaune nuaidės Dainų šventė: scenoje – chorai, šokėjai ir žinomi atlikėjai

OpenAI moko modelius „prisipažinti“, kai meluoja – ką tai reiškia būsimam AI

Pagrindiniai ZDNET pasiūlymai

Eksperimentas

Kodėl modeliai nupjauna kampus

Post-hoc sprendimas

Daugiau iš autoriaus

S3 Ep 31 – Pilnatis Šaulio ženkle: aktyvus ir impulsyvus, norintis ieškoti išminties

Kodėl robotų rankos dabar integruojamos su CNC staklėmis

„Asus“ prieš „Acer“: daugelį metų peržiūrėjau abiejų prekių ženklų nešiojamuosius kompiuterius ir štai mano pasirinkimas

40 Festive Christmas Appetizer Ideas

IEEE survey sheds light on how AI and humanoids will affect robotics in 2026

Jums tai gali patikti:

S3 Ep 31 – Pilnatis Šaulio ženkle: aktyvus ir impulsyvus, norintis ieškoti išminties

Kodėl robotų rankos dabar integruojamos su CNC staklėmis

„Asus“ prieš „Acer“: daugelį metų peržiūrėjau abiejų prekių ženklų nešiojamuosius kompiuterius ir štai mano pasirinkimas

Dėl individualių apsaugos reglamentų

Kodėl perjungiau į „MyRadar“ kaip pagrindinę „Android Auto“ orų programą, skirtą kelionei audrai stebėti

Prasidėjo Domeikavos parko statybos

Esu iPhone naudotojas, kuris automobilyje perjungia į Gemini su Android Auto – kodėl nesigailiu

Kauno rajono bėgimas jau 6-tą kartą subūrė aktyvaus laisvalaikio mėgėjus

Karščiausios naujienos

Populiariausios žymos

Pagrindiniai ZDNET pasiūlymai

Eksperimentas

Kodėl modeliai nupjauna kampus

Post-hoc sprendimas

40 Festive Christmas Appetizer Ideas

IEEE survey sheds light on how AI and humanoids will affect robotics in 2026