Sekite ZDNET: Pridėkite mus kaip pageidaujamą šaltinį „Google“.
Pagrindiniai ZDNET pasiūlymai
- OpenAI perrėmina vaizdus kaip vaizdinę kalbą.
- Mąstymo režimas sukuria kontekstą atitinkančią infografiką.
- Ankstyvojo testavimo metu prekės ženklo ištikimybė vis dar nenuosekli.
Šiandien „OpenAI“ paskelbė apie „ChatGPT Images 2.0“ – naujos kartos vaizdo modelį, kuris, bendrovės teigimu, yra orientuotas į tikslumą, patogumą naudoti ir sudėtingas vizualines užduotis.
Ryškiausia nauja galimybė yra galimybė derinti tekstą ir vaizdus, kad būtų sukurti sudėtingi, gražūs puslapiai. OpenAI perfrazuoja visą vaizdo generavimo idėją iš proceso, kuris sukuria dekoracijas (jų žodį) į kalbą (taip pat jų terminą).
Taip pat: geriausi 2026 m. dirbtinio intelekto vaizdų generatoriai: dabar yra tik vienas aiškus nugalėtojas
„OpenAI“ tai apibūdina taip: „Geras vaizdas daro tai, ką daro geras sakinys – jis atrenka, išdėsto ir atskleidžia. Jis gali paaiškinti mechanizmą, sukurti nuotaiką, išbandyti idėją ar argumentuoti“.
Mąstymo galimybės leidžia atlikti sudėtingas darbo eigas
Be žymiai patobulintų gebėjimų maišyti tekstą ir grafiką, naujasis modelis naudoja patobulintas mąstymo galimybes. Jis gali generuoti kelis vaizdus per raginimą su tęstinumu tarp išėjimų. Šis metodas yra įmanomas, nes modelis iš tikrųjų integruoja samprotavimus į vaizdo išvestį.
Šis pokytis yra didelis. Vietoj to, kad būtų sukurtas vaizdas, beveik atitinkantis raginimo detales, 2.0 vaizdai gali būti daug neaiškesni, pvz., „Sukurkite infografiką apie veiklą, kurią turėčiau atlikti atsižvelgiant į rytojaus orus San Franciske“.
Taip pat: Kaip perjungti iš ChatGPT į Gemini
Iš šio raginimo AI rinks oro ir veiklos duomenis apie San Franciską, nustatys veiklą, atitinkančią orą, ir tada sukurs vaizdą arba vaizdų rinkinį, atitinkantį rezultatus.
„OpenAI“ teigimu, „Šiame modelyje Images 2.0 veikia labiau kaip vizualinio mąstymo partneris, padedantis įgyvendinti projektą nuo apytikslios idėjos iki baigto turto su žymiai mažiau jūsų darbo“.
Tikslumas ir dizaino valdymas pagerina naudojimą
Daugelis iš mūsų ilgai stengėsi įtikinti ChatGPT generuoti vaizdus konkrečiu norimu formato santykiu. Dažnai AI atkakliai gamina tai, ko nori. Tačiau dabar, naudojant „Images 2.0“, modelis palaiko „3:1 plataus ir 1:3 aukščio formato santykius“.
Modelis taip pat palaiko aukštesnio tikslumo išvestis, kurios (dažniausiai) sukuria tikslią objektų vietą, išsamų teksto atvaizdavimą ir sudėtingas kompozicijas. Pažiūrėsime, ar galėsime iš to sakinio pašalinti žodį „dažniausiai“, kai produktas bus oficialiai išleistas.
Taip pat: aš išbandžiau asmeninį intelektą, ir jis buvo tikslus (bet nerimą keliantis)
AI taip pat palaiko mažą tekstą, vartotojo sąsajos elementus ir stilistinius apribojimus iki 2K raiškos. Kietas.
Peržiūros testavimas
Man buvo suteikta prieiga prie dienos prieš išleidimą peržiūros, o modelis dažniausiai yra įspūdingas. Pateikiau jai ZDNET pagrindinio puslapio ekrano kopiją ir „Images 2.0“ pranešimo spaudai juodraštį.
Tada nurodžiau: „Remiantis pranešimo spaudai turiniu, sugeneruokite 16:9 infografiką apie naują vaizdo atnaujinimą ir sugeneruokite jį naudodami ZDNET prekės ženklo stilių, kaip parodyta ZDNET pagrindinio puslapio dokumente.
Taip pat: išbandžiau naująjį „Google“ nuotraukų AI tobulinimo įrankį: kaip jis apkarpo, iš naujo apšviečia ir pataiso jūsų kadrus – kartais
Modelis puikiai susitvarkė su infografika, bet kaip bebūtų, jis negalėjo atkurti ZDNET logotipo. Pirmą kartą pabandžius, ZDNET jis šiek tiek nukrito.
Išbandžiau įvairias užklausas tokia tvarka: „Pataisykite ZDNET logotipą. Z jūsų versijoje nusvyra, bet tikrasis logotipas nėra nukritęs“. Tačiau „Images 2.0“ niekada nesugebėjo to ištaisyti.
Taigi aš pradėjau naują sesiją. Šį kartą įtraukiau instrukciją: „Ypatingai atsargiai atkurkite ZDNET logotipą“.
Taip pat: išbandžiau „ChatGPT Plus“ ir „Gemini Pro“, kad pamatyčiau, kuris geresnis ir ar verta jį pakeisti
Štai čia viskas pasidarė labai keista. Pirmą kartą modelis kažkaip iškasė ZDNET logotipo kopiją prieš mūsų 2022 m. pertvarkymą. Šio logotipo niekur nėra mūsų dabartiniame pagrindiniame puslapyje. Keista, bet jis pateikė seną logotipą naudojant dabartinę spalvų schemą. Tada modelis nustūmė logotipą ir infografinę informaciją nuo kairiojo vaizdo krašto. Ji taip pat pasirinko šviesiai mėlyną „Images 2.0“ spalvą, kuri nėra ZDNET prekės ženklo spalva.
Aš labai stengiausi įtikinti jį naudoti dabartinį logotipą. Man pavyko pastumti vaizdą į dešinę, todėl niekas nenutrūko. Tačiau pridėjus raginimą „Naudokite pateiktame puslapyje esantį ZDNET logotipą. Neieškokite alternatyvaus logotipo“, problema nebuvo išspręsta.
Dar kartą išbandžiau iššūkį, kol nusprendžiau grįžti prie šio straipsnio pabaigos. Dar kartą pradėjau naują seansą, todėl AI neturėjo raumenų atminties iš ankstesnių klaidingų skaičiavimų.
Taip pat: dėl šio galingo Dvynių nustatymo mano AI rezultatai tapo asmeniškesni ir tikslesni
Modelis vėl sujaukė logotipą. Šį kartą AI nusprendė pridėti vairo formą prie ištiestos didžiosios D koto.
Tiesą sakant, naudoju išankstinę 2.0 vaizdų versiją. Po oficialaus produkto išleidimo grįšiu su daug išsamesniu modelio bandomuoju paleidimu.
Taip pat išbandžiau panašų testą naudodamas kitą dokumentą su „Google Nano Banana Pro“, bet kadangi jis neatliko sintezės taip, kaip tai daro ši nauja „OpenAI“ produkto versija, ji tikrai negalėjo pakartoti čia gautų rezultatų. Sužinosime daugiau, kai atliksime sudėtingesnius testus
Kainos ir prieinamumas
Naujasis modelis šiandien prieinamas visiems ChatGPT ir Codex vartotojams. Išplėstiniai išėjimai ir mąstymo galimybės pasiekiami ChatGPT Plus, Pro, Business ir Enterprise vartotojams. Ekrano viršuje esančioje ChatGPT išskleidžiamojoje juostoje būtinai pasirinkite „Mąstymas“.
Rašymo metu, prieš išleidžiant, naujasis „Images 2.0“ modelis pasiekiamas tik darbalaukyje. Tačiau „OpenAI“ žada, kad šios galimybės bus ir mobiliojoje versijoje, kartu su galimybe pirštais pasirinkti vaizdus naudojant mobilųjį jutiklinį ekraną.
Vaizdai taip pat pasiekiami per API, naudojant gpt-image-2 modelį. API kainodara skiriasi priklausomai nuo kokybės, mąstymo (mano žodis) ir norimos vaizdo raiškos.
Jei AI gali derinti išdėstymą ir turinį, ar tai pakeis jūsų požiūrį į projektavimo projektus? Praneškite mums toliau pateiktuose komentaruose.
Galite sekti mano kasdienius projekto atnaujinimus socialiniuose tinkluose. Būtinai užsiprenumeruokite mano savaitinį naujienlaiškį ir sekite mane Twitter/X adresu @DavidGewirtz„Facebook“ adresu Facebook.com/DavidGewirtz, „Instagram“ adresu Instagram.com/DavidGewirtz, „Bluesky“ adresu @DavidGewirtz.com ir „YouTube“ adresu YouTube.com/DavidGewirtzTV.