AI modelio išleidimo stebėjimo priemonė: „Opus 4.8“ nesutapimų rodikliai, panašūs į „Claude Mythos“ peržiūrą

Elyse Betters Picaro / ZDNET

Sekite ZDNET: Pridėkite mus kaip pageidaujamą šaltinį „Google“.

AI laboratorijos nepertraukiamai pristato naujus modelius. Be to, kad kiekvienas naujas modelis yra geresnis ir greitesnis nei jų pirmtakai, negarantuojama, kad tai bus esminis pokytis, nepaisant to, kaip bendrovės viešieji ryšiai gali būti poetiški. Modelių pranašumai iš tikrųjų išryškėja kontekste: kur trūksta konkurentų modelių arba jie yra geresni? Kurie modeliai pasižymi išskirtinėmis savybėmis, o kurie tik vejasi pramonės standartus?

Taip pat: kaip mes išbandome AI ZDNET

Mūsų modelio išleidimo stebėjimo priemonė padeda suprasti, kur modeliai yra vienas kito atžvilgiu ir ar verta juos pažvelgti giliau. Nors netikriname kiekvieno šiame sąraše esančio modelio ar modelio atnaujinimo, visada įtrauksime pagrindinius elementus, kuriuos turite žinoti, kartu su mūsų praktiniu ekspertų testu, jei taikoma. Tam tikriems modeliams taip pat įtraukiame eksperto balą. Įdomu, kaip mes išbandome AI? Peržiūrėkite šį mūsų proceso suskirstymą.

Štai keletas didžiausių iki šiol išleistų 2026 m. modelių ir ką apie juos žinoti. Atnaujinsime šį sąrašą, kai tik pasirodys naujas naujas modelis.

Turinys

Claude Opus 4.8

Antropinis | 2026 m. gegužės 28 d

Ką tai daro: Pasak Anthropic, nuo šiandien pakeičiantis Opus 4.7 (už tą pačią kainą), Opus 4.8 siūlo greitesnius mąstymo režimus už trečdalį ankstesnės versijos kainos. Kaip ir daugumai Anthropic modelių, 4.8 pirmenybė teikiama kodavimo galimybėms, o balas didesnis nei 4,7 pagal du kodavimo etalonus, bet ne visiškai viršija OpenAI GPT 5.5. Tai taip pat „pasiekia naujas aukštumas vertinant mūsų prosocialinius bruožus, tokius kaip vartotojo savarankiškumo palaikymas ir veikimas pagal vartotojo interesus“, – pažymėjo bendrovė pranešime, nors apibrėžimai, ką tai reiškia, lieka migloti.

Taip pat: Anthropic pristato Opus 4.8, kurio žudikas yra sąžiningumas

Kodėl tai svarbu: Anthropic visada teikė pirmenybę modelio saugai ir aiškinamumui, tačiau atrodo, kad šis standartas dar labiau pabrėžiamas šiame leidime. Bendrovė teigė, kad Opus 4.7 sąžiningumas buvo 92 proc., be to, jis buvo mažiau smalsus ir linkęs į haliucinacijas. Tai, kad jame teigiama, kad 4.8 yra „iš esmės“ mažesnis nesutapimų lygis nei 4,7, rodo vis aukštesnius modelio saugos standartus, ypač todėl, kad „Anthropic“ palygino 4.8 išlygiavimą su „Mythos Preview“ lygiu.

GPT-5.5 Instant

OpenAI | 2026 m. gegužės 5 d

Ką tai daro: OpenAI savo pranešime teigė, kad ką tik išleisto OpenAI GPT-5.5 lengvesnė versija yra ne tokia išsami nei jos pirmtakas GPT-5.3 Instant. Jame taip pat buvo teigiama, kad buvo mažiau haliucinacijų ir pagerėjo faktiškumas, sakydamas, kad „GPT-5.5 Instant pateikė 52,5 % mažiau haliucinuotų teiginių nei GPT-5.3 Instant labai rizikingi raginimai, apimantys tokias sritis kaip medicina, teisė ir finansai“.

Taip pat: Anthropic's Mythos vystosi greičiau nei tikėtasi, praneša AI saugos agentūra

Kodėl tai reikalais: GPT-5.5 Instant pakeičia GPT-5.3 kaip numatytąjį ChatGPT modelį. Vėlgi, nors tikimasi, kad kiekvienas naujas AI modelis taps efektyvesnis, lengviau naudojamas ir sudarys mažiau daiktų , reikšmingas haliucinacijų pagerėjimas modeliui, kurį dauguma žmonių naudoja greitoms užklausoms, gali reikšti mažiau dezinformacijos plitimo tarp žmonių. Tai ypač svarbu atsižvelgiant į tai, kiek žmonių, pavyzdžiui, naudoja ChatGPT kasdieniams sveikatos klausimams spręsti.

(Atskleidimas: Ziff Davis, pagrindinė ZDNET įmonė, 2025 m. balandžio mėn. pateikė ieškinį prieš OpenAI, teigdama, kad ji pažeidė Ziff Davis autorių teises mokydama ir valdydama dirbtinio intelekto sistemas.)

Nemotron 3 Nano Omni

Nvidia | 2026 m. balandžio 28 d

Ką tai daro: Naujausias „Nvidia“ atviros „Nemotron“ šeimos modelis, šis modelis suteikia agentams daugiarūšio įvestį. Tai reiškia, kad „Nvidia“ teigimu, jie gali „suvokti ir suprasti vaizdo, garso ir teksto įvestis per vieną bendrą suvokimo iki veiksmo kilpą“, taip sujungdami kelias galimybes į vieną sistemą.

Taip pat: AI yra ginklavimosi varžybos, o JAV nori 9 milijardų dolerių Nvidia superlustų, kad neatsiliktų

Kodėl tai reikalai: Paprastai agentų sistemos turi naudoti atskirus kalbos, regos ir teksto modelius, o tai reiškia, kad jos peršoka dokumentus, vaizdo įrašus ir garso įrašus, kad atliktų kelių etapų užduotis. Tai sulėtina darbo eigą, kenkia konteksto agentų rinkimui ir didina išvadų išlaidas. „Nvidia“ metodas, jei jis veiks, supaprastintų šį procesą ir sumažintų žetonų naudojimą, taip sutaupant pinigų. Išbandykite Hugging Face.

GPT-5.5

OpenAI | 2026 m. balandžio 23 d

Eksperto balas: 93/100

Ką tai daro: ZDNET bandytojas Davidas Gewirtzas techniškai įvertino GPT-5.5 A balą, bet sakė, kad jį „reduktyviai galima apibūdinti kaip geresnį ir greitesnį nei GPT-5.4“, o tai, tikiuosi, yra minimalus naujo modelio lūkestis. Tačiau konkrečiau, modelis tapo geresnis agentinio kodavimo, aiškiai identifikuojančių sąvokų, mokslinių tyrimų ir faktinio tikslumo srityse.

Taip pat: aš išbandžiau GPT-5.5 per 10 raundų: jis surinko 93/100, taškų praradau tik dėl gausumo

Kodėl tai svarbu: Nors pats modelis gali neaplenkti savo tiesioginio pirmtako, greitas apsisukimas nuo 5,4 iki 5,4 – mažiau nei du mėnesiai – rodo, kaip greitai agentinis kodavimas pagreitina OpenAI modelio išleidimo ciklą. Kai Davidas Gewirtzas žlunga, įmonė, kaip ir kitos pasienio laboratorijos, naudojančios dirbtinį intelektą dirbtiniam intelektui kurti, siunčia atnaujinimus eksponentiškai didėjančiu greičiu.

„ChatGPT“ vaizdai 2

OpenAI | 2026 m. balandžio 23 d

Ką tai daro: Netrukus po „Sora“, jos generatyvaus vaizdo modelio ir socialinės platformos saulėlydžio, „OpenAI“ šiek tiek klaidinančiai paskelbė „Images 2“. ZDNET modelių bandytojas Davidas Gewirtzas anksti pažvelgė į „Images 2“ prieš jo išleidimą ir buvo sužavėtas. Nors jis nesuteikė šiam modeliui oficialaus eksperto balo, jis sakė, kad tai smagu, didžiulis šuolis ir iš tikrųjų naudingas darbui.

Kodėl tai svarbu: Panašu, kad „OpenAI“ pasitraukė iš labiau į vartotoją orientuoto AI gaminių žaidimo, kai nutraukė „Sora“ gamybą, nes Anthropic jį nugalėjo dėl pelningų įmonių sutarčių. Tai, kad „OpenAI“ vis dar buvo išleista su „Images 2“ tame peradresavimo pasakojime, rodo, kad vaizdų generatoriai yra pakankamai svarbūs įmonės AI, ypač Anthropic's Claude Design.

Claude Opus 4.7

Antropinis | 2026 m. balandžio 16 d

Kas tai daro: Po Opus 4.6 gana greitai pasirodęs šis modelis pasižymi naujomis sąžiningumo viršūnėmis, sumažėjusiu simfoniškumu ir haliucinacijomis. Panašu, kad jis taip pat turi kibernetinio saugumo įgūdžių, nes remia naująjį Claude Security, kuris buvo išleistas netrukus po paties modelio, bet ne, tai nėra „Mythos“, kaip daugelis įtaria.

Taip pat: naujasis Anthropic Claude Security įrankis nuskaito jūsų kodų bazę, ar nėra trūkumų, ir padeda nuspręsti, ką pirmiausia taisyti

Kodėl tai svarbu: Haliucinacijos ir sąžiningumas yra vienos iš sunkiausių, sunkiai išsprendžiamų problemų, kamuojančių net geriausius modelius. „Anthropic“ tvirtinti, kad šiose srityse pasiekė tokį reikšmingą naudą, nėra menkas AI laboratorijos, kuri rimtai žiūri į saugumą.

Claude Mythos (Peržiūra)

Antropinis | 2026 m. balandžio 7 d

Kas tai daro: Tai sunkus dalykas, nes Mythos iš tikrųjų nėra prieinamas visuomenei. „Anthropic“ sukėlė nemenką žiniasklaidos audrą, kai naująjį bendrosios paskirties modelį pavertė per galingu, kad jį būtų galima išleisti kaip įprasta. Nors atrodo, kad šis modelis yra žingsnis pokyčio, palyginti su ankstesniais Antropiniais modeliais, bendrovė buvo ypač sunerimusi dėl jo keliamos grėsmės saugumui, teigdama, kad „jis puikiai sugeba atlikti kompiuterio saugos užduotis“.

Reaguodama į tai, Anthropic vadovavo projektui Glasswing, bendradarbiaujant su keliomis konkuruojančiomis AI laboratorijomis, įskaitant Google, Nvidia ir Microsoft, taip pat saugumo institucijomis, tokiomis kaip Palo Alto Networks, siekiant padėti apsaugoti svarbiausią pasaulyje programinę įrangą ir paruošti pramonę praktikai, kurios mums visiems reikės, kad aplenktume kibernetinius užpuolikus.

Taip pat: „Apple“, „Google“ ir „Microsoft“ prisijungia prie „Anthropic“ projekto „Glasswing“, kad apgintų svarbiausią pasaulyje programinę įrangą

Kodėl tai svarbu: Jei tikėsime Anthropic nurodymais, kad Mythos kelia didelę grėsmę pasaulio programinei įrangai – tiek, kad ją gali pasiekti tik keli pasirinkti partneriai, – kibernetinio saugumo įrenginiai gali būti nepasirengę prisitaikyti prie sparčiai besivystančių modelių galimybių ribos. „Mythos“ gali būti ne vienintelis tokio kalibro modelis, o tiesiog pirmasis iš daugelio, atsiradusių, kai kitos laboratorijos pasieks panašų proveržį.

Kol kas, praėjus vos kelioms savaitėms nuo išleidimo, „Mythos“ padeda gaudyti programinės įrangos klaidas.

GPT-5.4

OpenAI | 2026 m. kovo 5 d

Kas tai daro: OpenAI sukūrė šį naują modelį, išleistą praėjus vos trims mėnesiams po GPT-5.2, kaip specialiai sukurtą profesionaliam darbui. Remiantis pačios įmonės atliktais bandymais (kuris visada turėtų būti imamas su druska, kol nepatvirtins trečioji šalis), GPT-5.4 atitinka arba pranoksta žmonių profesionalus 83 % atvejų.

Kodėl tai svarbu: Kadangi dirbtinio intelekto įmonės daugiau dėmesio skiria įmonės pasitikėjimo (ir sutarčių) įgijimui ir giria, ką gali padaryti AI, joms reikia modelių, galinčių atlikti sudėtingas su darbu susijusias užduotis su minimalia rizika, delsimu ar pernelyg didelėmis išlaidomis. Bet koks modelio tobulinimas, parodantis meistriškumą atliekant profesionalias darbo eigas, turi didesnę tikimybę, kad į jį rimtai žiūrės įmonės, kurios stengiasi pritaikyti dirbtinį intelektą, nors niekas negarantuoja sklandaus integravimo.

Taip pat: naujasis OpenAI GPT-5.4 užkerta kelią žmonėms, atliekantiems profesionalų darbą atliekant bandymus – 83 proc.

Claude Opus 4.6

Antropinis | 2026 m. vasario 5 d

Kas tai daro: Šis modelis greitai iš naujo apibrėžė autonominio agentinio darbo, ypač kodavimo, standartą. Tai nenuostabu, nes „Anthropic“ turi autoritetą kuriant modelius, ypač gerai išmanančius programavimo užduotis. „Opus 4.6“ taip pat patobulino sudėtingas, ilgiau trunkančias užduotis.

Kodėl tai svarbu: „Opus 4.6“ gebėjimas savarankiškai susidoroti su užduotimis reiškia, kad galite patikimai perkelti į ją daugiau darbo eigos – tai, su kuo dažniausiai susiduria agentų pasiūlymai.

Taip pat: Anthropic teigia, kad naujasis Claude Opus 4.6 gali pasiekti jūsų darbo rezultatus iš pirmo karto

GPT-5.3-Kodeksas

OpenAI | 2026 m. vasario 5 d

Kas tai daro: Šis naujas kodavimo modelis, kuris, pasak OpenAI, padėjo sukurti ir derinti patį, gali būti pertraukiamas ir nukreipiamas įpusėjus užduočiai, o tai, jei tiesa, yra didžiulė palaima kūrėjams, naudojantiems jį sudėtinguose arba keičiamuose projektuose su daugybe bandymų ir klaidų. GPT-5.3-Codex taip pat gali pasigirti daugiau nei vienos dienos veikimo trukme ir geriau suvokti vartotojo ketinimus.

Taip pat: naujasis „OpenAI“ „Spark“ modelis koduoja 15 kartų greičiau nei GPT-5.3-Codex, tačiau yra kažkas

Kodėl tai svarbu: OpenAI bando pasivyti Anthropic lyderį agentinio kodavimo srityje (ir, sutapimas ar ne, išleido 5.3 Codex tą pačią dieną, kai Anthropic išleido Opus 4.6). Nors ZDNET ekspertai dažnai teikia pirmenybę Claude Code, o ne kitiems atmosferos kodavimo įrankiams, „OpenAI“ perėjimas prie verslo klientų ir nuo linksmų vartotojų įrankių galiausiai gali panaikinti šią spragą.

Nuoroda į informacijos šaltinį

Karščiausios naujienos

Kauno miesto savivaldybė Tarpdisciplininio itin gabių mokinių ugdymo programos dalyvių mokslo metų baigimo šventė

Sojų garbanų kepsnių receptas – pora gamina

Kauno miesto savivaldybė Plečiasi K. Griniaus slaugos ir palaikomojo gydymo ligoninė: ruošiamasi priimti pacientus Kulautuvoje

„Autonomique“ diegia pusiau humanoidinius robotus ir AI Kanados 1 pakopoje

I’m excited about ChatGPT’s memory upgrade – but I’m quickly seeing a downside

Ką apie pasitikėjimą pasakoja pinigai? Klaipėdoje atidaroma paroda „Rinkti(s) vertę“

G2 2026 m. vasaros ataskaitose 101 blokų grandinė pripažinta lydere ir „Momentum“ lydere

„Be miesto pagalbos kalbėtume apie „Žalgirio“ istoriją, o ne apie jo ateitį“

„Fennec Engineering“ įgyja „Advanced Safety Acceleration Platform“ T2 kvalifikaciją

Nacionaliniuose apdovanojimuose įvertinti Lietuvos profesinio mokymo lyderiai

Tarptautinis B2B renginys „Subcontracting Meetings 2026“ – chamber.lt

Atvirų durų diena su Edgaru Stankevičiumi „Sportas ir verslas: partnerystės, kurios kuria vertę“ – chamber.lt

Seminaras „Apie dizainą nedizaineriams: ką svarbu suprasti komunikacijoje vizualiai?“ – chamber.lt

AI modelio išleidimo stebėjimo priemonė: „Opus 4.8“ nesutapimų rodikliai, panašūs į „Claude Mythos“ peržiūrą

Claude Opus 4.8

GPT-5.5 Instant

Nemotron 3 Nano Omni

GPT-5.5

„ChatGPT“ vaizdai 2

Claude Opus 4.7

Claude Mythos (Peržiūra)

GPT-5.4

Claude Opus 4.6

GPT-5.3-Kodeksas

Daugiau iš autoriaus

Kauno miesto savivaldybė Tarpdisciplininio itin gabių mokinių ugdymo programos dalyvių mokslo metų baigimo šventė

Sojų garbanų kepsnių receptas – pora gamina

Kauno miesto savivaldybė Plečiasi K. Griniaus slaugos ir palaikomojo gydymo ligoninė: ruošiamasi priimti pacientus Kulautuvoje

Raudondvario dvare atgimė istorinės oficinos

Avokadų tuno salotos – virėjų pora

Jums tai gali patikti:

Kauno miesto savivaldybė Tarpdisciplininio itin gabių mokinių ugdymo programos dalyvių mokslo metų baigimo šventė

Sojų garbanų kepsnių receptas – pora gamina

Kauno miesto savivaldybė Plečiasi K. Griniaus slaugos ir palaikomojo gydymo ligoninė: ruošiamasi priimti pacientus Kulautuvoje

„Autonomique“ diegia pusiau humanoidinius robotus ir AI Kanados 1 pakopoje

I’m excited about ChatGPT’s memory upgrade – but I’m quickly seeing a downside

Ką apie pasitikėjimą pasakoja pinigai? Klaipėdoje atidaroma paroda „Rinkti(s) vertę“

G2 2026 m. vasaros ataskaitose 101 blokų grandinė pripažinta lydere ir „Momentum“ lydere

„Be miesto pagalbos kalbėtume apie „Žalgirio“ istoriją, o ne apie jo ateitį“

Karščiausios naujienos

Populiariausios žymos

Claude Opus 4.8

GPT-5.5 Instant

Nemotron 3 Nano Omni

GPT-5.5

„ChatGPT“ vaizdai 2

Claude Opus 4.7

Claude Mythos (Peržiūra)

GPT-5.4

Claude Opus 4.6

GPT-5.3-Kodeksas

Raudondvario dvare atgimė istorinės oficinos

Avokadų tuno salotos – virėjų pora