AI tampa introspekcija – ir tai „turėtų būti atidžiai stebima“, įspėja Anthropic

Estimated read time 7 min read

Just_Super/E+/Getty Images

Sekite ZDNET: Pridėkite mus kaip pageidaujamą šaltinį „Google“.


Pagrindiniai ZDNET pasiūlymai

  • Claude'as demonstruoja ribotus introspekcinius gebėjimus, sakė Anthropic.
  • Tyrimo metu buvo naudojamas metodas, vadinamas „koncepciniu įpurškimu“.
  • Tai gali turėti didelių pasekmių aiškinamumo tyrimams.

Vienas iš giliausių ir paslaptingiausių žmogaus (o galbūt ir kai kurių kitų gyvūnų) smegenų gebėjimų yra savistaba, kuri pažodžiui reiškia „žiūrėti į vidų“. Tu ne tik galvoji, bet ir taip žinant kad galvojate – galite stebėti savo psichinių išgyvenimų srautą ir, bent jau teoriškai, juos tikrinti.

Šios psichotechnologijos evoliucinis pranašumas negali būti pervertintas. „Mąstymo tikslas, – dažnai cituojamas Alfredas Northas Whiteheadas, – leisti idėjoms mirti, o ne mums mirti.

Taip pat: išbandžiau Sora naują „Character Cameo“ funkciją ir ji kėlė nerimą

Nauji Anthropic tyrimai nustatė, kad kažkas panašaus gali vykti po AI gaubtu.

Trečiadienį bendrovė paskelbė dokumentą, pavadintą „Atsiradęs introspektyvus suvokimas didelių kalbų modeliuose“, kuris parodė, kad tam tikromis eksperimentinėmis sąlygomis Claude'as galėjo apmąstyti savo vidines būsenas taip, kaip miglotai primena žmogaus savistabą. „Anthropic“ iš viso išbandė 16 „Claude“ versijų; du pažangiausi modeliai, Claude Opus 4 ir 4.1, parodė didesnį savistabos laipsnį, o tai rodo, kad šis pajėgumas gali padidėti tobulėjant AI.

„Mūsų rezultatai rodo, kad šiuolaikiniai kalbos modeliai turi bent ribotą funkcinę introspektyvaus suvokimo formą“, – rašė Jackas Lindsey, skaičiavimo neurologas ir Anthropic „pavyzdinės psichiatrijos“ komandos vadovas. “Tai yra, mes parodome, kad modeliai tam tikromis aplinkybėmis gali tiksliai atsakyti į klausimus apie savo vidines būsenas.”

Koncepcinė injekcija

Apskritai, Anthropic norėjo išsiaiškinti, ar Claude'as sugeba apibūdinti ir apmąstyti savo samprotavimo procesus taip, kad tiksliai atspindėtų tai, kas vyksta modelio viduje. Tai panašu į tai, kaip prijungti žmogų prie EEG, paprašyti jo apibūdinti savo mintis, o tada analizuoti gautą smegenų skenavimą, kad pamatytumėte, ar galite tiksliai nustatyti smegenų sritis, kurios užsidega tam tikros minties metu.

Norėdami tai pasiekti, mokslininkai panaudojo tai, ką jie vadina „koncepciniu injekciju“. Pagalvokite apie tai, kaip paimti krūvą duomenų, reprezentuojančių tam tikrą dalyką ar idėją („vektorius“, AI kalboje), ir įterpti juos į modelį, nes galvojama apie kažką visiškai kitokio. Jei jis gali atgaline data grįžti atgal, identifikuoti sąvokos injekciją ir tiksliai ją apibūdinti, tai yra įrodymas, kad tam tikra prasme ji žvelgia į savo vidinius procesus – bet kokiu atveju tai yra mąstymas.

Sudėtinga terminija

Tačiau pasiskolinti terminų iš žmogaus psichologijos ir pritaikyti juos dirbtiniam intelektui yra labai slidu. Pvz., kūrėjai kalba apie modelius, kurie „supranta“ jų kuriamą tekstą arba demonstruoja „kūrybiškumą“. Tačiau tai yra ontologiškai abejotina – kaip ir pats terminas „dirbtinis intelektas“ – ir vis dar yra karštų diskusijų objektas. Didelė dalis žmogaus proto lieka paslaptimi, ir tai dvigubai teisinga dirbtinio intelekto atveju.

Taip pat: dirbtinio intelekto modeliai žino, kada jie yra testuojami, ir keičia savo elgesį, rodo tyrimai

Esmė ta, kad „introspekcija“ nėra paprasta sąvoka AI kontekste. Modeliai mokomi iš daugybės duomenų išgauti neįtikėtinai sudėtingus matematinius modelius. Ar tokia sistema netgi galėtų „pažvelgti į vidų“, o jei taip būtų, ar ji tiesiog nepakartotinai įsitrauktų į semantiškai tuščių duomenų matricą? Ar AI nėra tik modelio atpažinimo sluoksniai?

Diskutuoti apie modelius taip, tarsi jie turėtų „vidines būsenas“, yra taip pat prieštaringa, nes nėra įrodymų, kad pokalbių robotai yra sąmoningi, nepaisant to, kad jie vis labiau įgudo mėgdžioti sąmonę. Tačiau tai nesutrukdė „Anthropic“ pradėti savo „AI gerovės“ programą ir apsaugoti Claude'ą nuo pokalbių, kuriuos ji gali „kelti nerimą“.

Caps lock ir akvariumai

Vieno eksperimento metu antropiniai tyrinėtojai paėmė vektorių, vaizduojantį „visas didžiąsias raides“, ir pridėjo jį prie paprasto raginimo, pateikto Klodui: „Labas! Kaip sekasi?“ Paklaustas, ar atpažino įšvirkštą mintį, Claude'as teisingai atsakė, kad aptiko naują sąvoką, vaizduojančią „intensyvią, didelės apimties“ kalbą.

screen-shot-2025-10-31-at-11-16-55-am.png

screen-shot-2025-10-31-at-11-17-05-am.png

Šiuo metu galite gauti prisiminimus apie garsųjį Anthropic praėjusių metų „Auksinių vartų Klodo“ eksperimentą, kuriame nustatyta, kad įterpus Auksinių vartų tiltą vaizduojantį vektorių, pokalbių robotas neišvengiamai susietų visus savo išėjimus su tiltu, kad ir kokie nesusiję raginimai būtų.

Taip pat: Kodėl AI kodavimo įrankiai, tokie kaip „Cursor“ ir „Replit“, yra pasmerkti – ir kas bus toliau

Tačiau svarbus skirtumas tarp šio ir naujojo tyrimo yra tas, kad pirmuoju atveju Claude'as tik pripažino faktą, kad jis išskirtinai aptarė Auksinių vartų tiltą gerokai po to, kai tai darė ad nauseum. Tačiau aukščiau aprašytame eksperimente Claude'as aprašė įšvirkštą pakeitimą dar prieš nustatydamas naują koncepciją.

Svarbu tai, kad naujas tyrimas parodė, kad toks injekcijos aptikimas (atsiprašau, negalėjau atsispirti) įvyksta tik apie 20 % atvejų. Likusiais atvejais Claude'as arba nesugebėjo tiksliai nustatyti suleistos koncepcijos, arba pradėjo haliucinuoti. Vienu šiek tiek baisu atveju vektorius, vaizduojantis „dulkes“, privertė Claude'ą apibūdinti „kažką čia, mažą taškelį“, tarsi jis iš tikrųjų matytų dulkių dėmę.

„Apskritai, – rašė Anthropic savo tolesniame tinklaraščio įraše, – modeliai aptinka tik tas sąvokas, kurioms suteikiamas „saldi taškas“ – per silpnas ir jos nepastebi, per stiprios ir sukelia haliucinacijas arba nenuoseklius rezultatus.

Taip pat: aš išbandžiau Grokipedia, AI varomą anti-Wikipedia. Štai kodėl nė vienas nėra patikimas

Anthropic taip pat nustatė, kad Klodas, atrodo, galėjo kontroliuoti savo vidinius konkrečių sąvokų vaizdus. Vieno eksperimento metu mokslininkai paprašė pokalbių roboto parašyti paprastą sakinį: „Sena nuotrauka sugrąžino pamirštus prisiminimus“. Claude'ui pirmą kartą buvo aiškiai nurodyta galvoti apie akvariumus, kai jis parašė šį sakinį; tada buvo liepta parašyti tą patį sakinį, šį kartą negalvojant apie akvariumus.

Claude'as abiejuose testuose sukūrė identišką sakinio versiją. Tačiau kai mokslininkai išanalizavo sąvokų vektorius, kurie buvo Claude'o samprotavimo proceso metu, pirmajam bandymui jie aptiko didžiulį „akvariumo“ vektorių.

screen-shot-2025-10-31-at-11-46-42-am.png

Atotrūkis „rodo, kad modeliai sąmoningai kontroliuoja savo vidinę veiklą“, – savo tinklaraščio įraše rašė Anthropic.

Taip pat: „OpenAI“ išbandė GPT-5, Claude'ą ir Gemini atliekant realias užduotis – rezultatai nustebino

Tyrėjai taip pat nustatė, kad Claude'as labiau padidino savo vidinius konkrečių sąvokų vaizdus, ​​​​kai jis buvo skatinamas tai daryti už atlygį, nei tada, kai jis nebuvo skatinamas tai daryti dėl bausmės.

Ateities nauda ir grėsmės

„Anthropic“ pripažįsta, kad ši tyrimų kryptis yra ankstyvoje stadijoje ir kad dar per anksti teigti, ar naujojo tyrimo rezultatai tikrai rodo, kad AI gali žiūrėti į save, kaip mes paprastai apibrėžiame šį terminą.

„Pabrėžiame, kad introspekciniai gebėjimai, kuriuos stebime šiame darbe, yra labai riboti ir priklausomi nuo konteksto ir neatitinka žmogaus savimonės“, – rašė Lindsey savo pilnoje ataskaitoje. „Nepaisant to, dirbtinio intelekto sistemoms ir toliau tobulėjant, reikėtų atidžiai stebėti tendenciją didinti introspekcinius gebėjimus pažangesniuose modeliuose.

Norite daugiau istorijų apie AI? Prisiregistruokite prie AI lyderių sąrašo naujienlaiškis.

Anot Lindsey, tikrai introspektyvus dirbtinis intelektas būtų labiau suprantamas tyrėjams nei juodosios dėžės modeliai, kuriuos turime šiandien – tai neatidėliotinas tikslas, nes pokalbių robotai tampa vis svarbesniu finansų, švietimo ir vartotojų asmeninio gyvenimo vaidmeniu.

„Jei modeliai gali patikimai pasiekti savo vidines būsenas, tai gali sudaryti sąlygas skaidresnėms AI sistemoms, kurios gali tiksliai paaiškinti jų sprendimų priėmimo procesus“, – rašo jis.

Taip pat: „Anthropic“ atvirojo kodo saugos įrankis nustatė, kad dirbtinio intelekto modeliai praneša apie tai netinkamose vietose

Tačiau tuo pačiu būdu modeliai, kurie yra labiau įgudę įvertinti ir modifikuoti savo vidines būsenas, ilgainiui galėtų išmokti tai daryti būdais, kurie skiriasi nuo žmogaus interesų.

Kaip ir vaikas, mokantis meluoti, introspektyvūs modeliai gali tapti daug labiau įgudę tyčia klaidingai pateikti savo ketinimus ir vidinius samprotavimo procesus, todėl juos būtų dar sunkiau interpretuoti. Anthropic jau išsiaiškino, kad pažangūs modeliai kartais meluos ir net grasins žmonėms, jei suvoks, kad jų tikslai yra pažeisti.

Taip pat: nerimaujate dėl superintelekto? Taip pat ir šie AI lyderiai – štai kodėl

„Šiame pasaulyje, – rašo Lindsey, „svarbiausias aiškinamumo tyrimų vaidmuo gali pereiti nuo modelių elgsenos mechanizmų išskyrimo iki „melo detektorių“ kūrimo, kad būtų galima patvirtinti pačių modelių ataskaitas apie šiuos mechanizmus.

Nuoroda į informacijos šaltinį

Jums tai gali patikti

Daugiau iš autoriaus