Kaip mes išbandome AI ZDNET

Estimated read time 8 min read

Elyse Betters Picaro / ZDNET

Sekite ZDNET: Pridėkite mus kaip pageidaujamą šaltinį „Google“.


Pagrindiniai ZDNET pasiūlymai

  • ZDNET išbando dirbtinį intelektą praktiškai, naudojant realų pasaulį.
  • Nėra pardavėjo įtakos, nėra prieigos prieš paskelbimą.
  • Standartizuoti testai skatina sąžiningus „geriausius“ palyginimus.

Čia, ZDNET, žinome, kad mums tenka didžiulė atsakomybė. Žinome, kad dažnai sprendimus dėl pirkimo iš dalies priimate remdamiesi mūsų atsiliepimais. Svarbu, kad gautumėte aiškias, nešališkas ir gerai apgalvotas apžvalgas, kad galėtumėte patikimai nuspręsti, kur išleisti pinigus ir (arba) laiką.

Taip, mes taip pat rimtai žiūrime į šią atsakomybę už nemokamus produktus, nes laikas šiais laikais yra toks pat menkas išteklius kaip grynieji pinigai. Mes nenorime, kad jūs švaistytumėte savo laiką, nei mes norime, kad jūs švaistytų savo pinigus.

Taip pat: ZDNET AI politika

Kartais dirbame su pardavėjais, kad gautume prieigą prie jų produktų ir paslaugų, kad galėtume juos peržiūrėti. Tačiau jie niekada nemato apžvalgų prieš paskelbdami. Jie niekada neturi įtakos tam, ką sakome savo apžvalgose. Mūsų apžvalgos visada yra sąžiningos ir orientuotos į produktų naudingumą mūsų skaitytojams.

Kaip mes išbandome AI 2026 m

Taigi pakalbėkime apie tai, kaip mes išbandome AI čia, ZDNET. Atminkite, kad dirbtinis intelektas sėlina į beveik viską, todėl tai gana didelis portfelis. Mes žiūrime į didelius kalbų modelius, kūrimo įrankius, vaizdų generatorius, programas, kuriose įgalintas dirbtinis intelektas, ir net retkarčiais naudojamus AI įrenginius, tokius kaip dulkių siurbliai (gerai naudojamas AI) ir AI kaiščiai (ne tiek daug).

Mes tikriname produktus ir paslaugas remdamiesi įvairiais veiksniais. Mūsų pagrindinė direktyva yra ta, kad visoms peržiūroms reikia praktinės patirties ir realaus pasaulio testų. Praktiškai tai reiškia, kad nors mes galime pranešti apie lyginamąjį rezultatą iš pranešimo spaudai, mes jų neatsižvelgiame į apžvalgas.

Kai žiūrime į produktus ir paslaugas, dažniausiai pateikiame dviejų skirtingų tipų apžvalgas. Kai ieškome geriausių atlikėjų kategorijoje, sudarome geriausiųjų sąrašus. Kai mes giliai pasineriame į produktą ar paslaugą, dažnai pasakojame asmenines istorijas apie savo ilgalaikę patirtį naudojant tą produktą. Šie skirtingi metodai leidžia tyrinėti produktus ir paslaugas iš kelių perspektyvų.

Kaip atliekame lyginamąsias apžvalgas

Mūsų lyginamųjų apžvalgų (dar vadinamų „geriausių sąrašais“) rengimas iš tikrųjų yra trijų etapų procesas. Pirmasis etapas yra vertinimo kriterijų kūrimas, padedantis objektyviai palyginti produktus. Antrasis etapas yra produktų, kuriuos norite palyginti, pasirinkimas. Ir trečiasis etapas yra produktų palyginimas pagal testą.

Kai pradedame, visada klausiame: „Kaip vertinsime šią kategoriją? Paprastai sudarau testų seriją, kurią vėliau dokumentuoju geriausių sąrašo straipsnyje. Testai padeda įvertinti našumą, vertę, naudingumą, tikslumą, saugumą, privatumą ir kt. Mėgstame standartizuoti testą, kad atėjus laikui palyginti produktus žinotume, jog esame objektyvūs.

Pavyzdžiui, geriausių pokalbių robotų apžvalgoje yra visa bandymo metodika, dokumentuota produkto pabaigoje. Patikrinkite tai. Tas pats pasakytina ir apie geriausių AI vaizdo generatorių palyginimą.

Kalbant apie kandidatų produktų pasirinkimą, dažnai yra akivaizdžių produktų, kurie įtraukiami į mūsų kandidatų atrankos sąrašą. Pavyzdžiui, žiūrint į pokalbių robotus, ChatGPT, Gemini ir Claude yra akivaizdūs kandidatai.

Tada pasineriame giliau. Apžvelgiame produktus ar paslaugas, kurių skaitytojai paprašė įvertinti. Kandidatus pridedame atsižvelgdami į bendrą triukšmą apie kategoriją iš tokių vietų kaip forumai, vartotojų grupės ir socialinė žiniasklaida. Ir kartais (bet ne visada) įtraukiame produktą kaip kandidatą, kai pardavėjas atkreipia mūsų dėmesį į atitinkamą produktą ir jis tinka šiai kategorijai.

Paprastai baigiame kandidatų sąrašą iš penkių iki dešimties produktų. Dažnai greitai pažvelgus į bandymo metodiką kai kurie produktai bus pašalinti. Kai kurie yra per brangūs, palyginti su kitais. Kai kurie tiesiog netinka.

Pavyzdžiui, mane nuolat siūlo pardavėjai, turintys mokamas klases, kurie mano, kad jų kursų programa tokia gera, kad turėtų būti įtraukta į geriausių nemokamų kursų sąrašą. Nepaisant jų užsidegimo, mokami kursai niekada nebus įtraukti į nemokamų pasiūlymų sąrašą.

Kandidatų į testą atrankos, prieigos prie produktų ir paslaugų organizavimas ir įsitikinimas, kad viskas yra paruošta testams, gali skirtis. Kai praėjusiais metais pirmą kartą pažiūrėjau į AI svetainių kūrėjus, prireikė 231 el. laiško pirmyn ir atgal pardavėjams ir daugiau nei šešių mėnesių, kad viskas būtų sukurta, kad galėčiau išbandyti jų produktus. Šiais metais projekto atnaujinimas truko tik du mėnesius, o iš viso buvo išsiųsta mažiau nei 50 el.

Tai veda prie kitų dviejų dalykų: faktinio bandymo ir pakartotinio testavimo. Tikrasis bandymas yra paprastas, jei užtrunka daug laiko. Kadangi jau turime testavimo metodiką ir standartinį testų rinkinį, kai turėsime produktus arba sukursime paslaugų paskyras, todėl galime tiesiog atlikti testus. Testo rezultatus įrašome po testo, ekraną prie ekrano.

Vėliau bandome normalizuoti rezultatus, dažnai šiek tiek paskaičiuodami, kad suteiktume produktams lyginamąją našumo vertę ir svorį. Tų metrikų kriterijai taip pat yra dokumentuojami.

Ir tada sąrašas skelbiamas. Tačiau tai dar ne istorijos pabaiga.

Taip greitai besikeičiančioje srityje kaip AI produktai ir paslaugos nestovi vietoje. Kai kurie produktai sugenda ir sudegs, kai kuriems pardavėjams pritrūks finansavimo arba kažkas dar suges siaubingai. Kitiems jie tik gerės. Bet kokiu atveju, praėjus šešiems mėnesiams iki metų, geriausi sąrašai yra beveik pasenę. Taip tikrai buvo su AI svetainių kūrėjų apžvalgomis. Praėjusiais metais visi jie buvo gana baisūs. Šiais metais yra keletas, kurie iš tikrųjų yra gana puikūs.

Kai kurios iš mano mėgstamiausių lyginamųjų AI kategorijos apžvalgų yra:

Gyvenimas su produktais

Kitas būdas peržiūrėti AI produktus yra gyventi su jais ir vykdyti projektus su jais. Tai neapsiriboja tradicinėmis apžvalgomis, nes gaminius ir paslaugas dirbame dienas ir savaites (kartais mėnesius ir metus).

Ryškiausi to pavyzdžiai yra mano straipsniai, susiję su kodavimu. Labai sunku objektyviai palyginti dirbtinio intelekto kodavimo įrankius nieko nesukūrus. Tačiau klasės priskyrimo kodavimas gerokai skiriasi nuo produkto kūrimo ar aktyvios kliento problemos derinimo.

Dažnai šie projektai yra tęsiami. Šis nuolatinis darbas sukuria daugybę puikių dalykų, apie kuriuos reikia kalbėti. Keičiasi ir įspūdžiai.

Kai pirmą kartą pažvelgiau į OpenAI Codex kodavimo AI, tai buvo labai anksti ir man jis visai nepatiko. Kodeksui tobulėjant, atlikau dar vieną bandymą su juo, šį kartą pažiūrėdamas, ar galiu atnaujinti savo saugos produktą. Man pavyko gauti 24 dienų kodavimą per 12 valandų, bet taip pat radau keletą spąstų. Tobulėjant paslaugai, atlikau dar vieną testą, kurio metu per 4 dienas pagaminau 4 metų gaminio kūrimą.

Tos pačios rūšies patirtiniai apžvalginiai straipsniai pasirodė apie „Gemini“, „ChatGPT“, „Claude Code“, įvairius vaizdo generatorius ir kt. Įrankiams nuolat tobulėjant, vis randame naujų būdų, kaip juos panaudoti, išbandome ir gilinamės.

Tai nuolatinis procesas, todėl mes galime jus pasiimti į kelionę. Štai keletas mano mėgstamiausių iš AI pasaulio:

Jūs esate didelė proceso dalis

Gauname daug skaitytojų atsiliepimų el. paštu, socialiniuose tinkluose ir straipsnių komentaruose. Jūs padedate mums suprasti, į ką norite, kad mes žiūrėtume. Taip pat vertiname, kad laikote mums gana aukštus standartus.

Taip pat labai vertiname, kai dalinatės įspūdžiais apie mūsų peržiūrėtus produktus. Daugelis iš jūsų yra gana kvalifikuoti ir išmanantys. Taigi jūsų perspektyvos tikrai padeda mus informuoti, o tai, savo ruožtu, padeda plėsti žinias ir jus dar labiau informuoti. Iš tikrųjų mūsų darbą su ZDNET peržiūri milijonai kolegų profesionalų, patyrusių vartotojų ir entuziastų: jūs, ZDNET skaitytojai.

Mes rūpestingai vertiname savo apžvalgas, nes žinome, kokios jos jums svarbios, kiek į jas atsižvelgiate priimdami sprendimus dėl pirkimo ir kad skiriate realius pinigus ir laiką, dažnai iš dalies remiantis tuo, ką dalijamės ZDNET.

Visada drąsiai kreipkitės, jei norite, kad pažvelgtume į ką nors naujo. Kokią AI kategoriją, produktą ar paslaugą norite, kad mes pasinertume į kitą? Praneškite mums toliau pateiktuose komentaruose.


Galite sekti mano kasdienius projekto atnaujinimus socialiniuose tinkluose. Būtinai užsiprenumeruokite mano savaitinį naujienlaiškį ir sekite mane Twitter/X adresu @DavidGewirtz„Facebook“ adresu Facebook.com/DavidGewirtz, „Instagram“ adresu Instagram.com/DavidGewirtz, „Bluesky“ adresu @DavidGewirtz.com ir „YouTube“ adresu YouTube.com/DavidGewirtzTV.

Nuoroda į informacijos šaltinį

Jums tai gali patikti

Daugiau iš autoriaus