Arba Lenchner, „Bright Data“ generalinis direktorius – interviu serija

Estimated read time 9 min read

Arba Lenchneris, „Bright Data“ generalinis direktorius, nuo 2018 m. Vadovavo rinkoje pirmaujančiai žiniatinklio duomenų rinkimo platformai, padidindama savo plėtrą, inovacijas ir augimą iki 100 mln. USD per metines pajamas. „Bright Data“ suteikia galimybę „Fortune 500“ korporacijoms, vadovaujančioms įmonėms, garsiems universitetams ir viešojo sektoriaus subjektams pasiekti viešąjį interneto duomenis realiuoju laiku ir mastu. „Lenchner“ yra tvirtas palaikymas viešųjų žiniatinklio duomenimis atidaryti ir prieinami, pabrėždamas jo svarbų vaidmenį skatinant naujoves.

Kas paskatino jūsų kelionę į duomenų ir AI pasaulį, o nuo to laiko, kai tapote generaliniu direktoriumi 2018 m., Kaip jūs suformavote „Bright Data“ misiją ir viziją?

Mane visada žavėjo duomenų galia, ypač tai, kaip tai gali paskatinti sprendimus ir kurti naujoves. Kai naudojami teisingi, duomenys taip pat gali paskatinti verslo skaidrumą. 2018 m. Tapimas „Bright Data“ generaliniu direktoriumi suteikė man galimybę padėti formuoti, kaip AI tyrėjai ir įmonės siekia įsigyti ir naudoti viešus interneto duomenis.

Su kokiais pagrindiniais iššūkiais AI komandos susiduria įsigydamos didelio masto viešąjį interneto duomenis, ir kaip juos nagrinėja ryškūs duomenys?

Mastelio keitimas išlieka vienas didžiausių iššūkių AI komandoms. Kadangi AI modeliams reikia didžiulio duomenų kiekio, efektyvi surinkimas nėra maža užduotis. Ir kadangi PG modeliai yra tik tokie geri, kaip duomenys, kuriais jie yra mokomi, užtikrina, kad komandos turėtų prieigą prie naujų, aukštos kokybės duomenų yra nuolatinis iššūkis. Tai ypač pasakytina apie tai, kad žiniatinklis vystosi realiuoju laiku.

Kitas didelis rūpestis yra laikymasis. Duomenų privatumo įstatymai ir reikalavimai nuolat vystosi, todėl AI komandos turi visada žinoti apie tuos pokyčius. Jie taip pat turi suprasti, kaip elgtis su svetainėmis, kurios įgyvendina anti-BOT mechanizmus, kurie gali apsunkinti duomenų rinkimo procesą.

Platforma, kurią sukūrėme „Bright Data“, rūpinasi šiais iššūkiais. Mes pateikiame keičiamą, automatizuotą duomenų rinkimą, kuris pateikia struktūrizuotus realaus laiko duomenis. Mūsų AI varomi įrankiai išvalo ir patvirtina duomenis, kad užtikrintų tikslumą. Mes turime griežtas priemones, kad būtų užtikrintas teisinių ir etinių duomenų rinkimas, siekiant atitikti atitiktį. Idėja yra suteikti galimybę AI komandoms sutelkti dėmesį į puikių modelių kūrimą, o mes tvarkome duomenų tiekimo sudėtingumą.

Kaip aukštos kokybės žiniatinklio duomenys prisideda prie AI modelio našumo, ir kokia yra geriausia duomenų tikslumo užtikrinimo praktika?

Aukštos kokybės duomenys reiškia duomenis, kurie yra išsamūs, be šališkumo, o svarbiausia-tikslūs. Jei duomenų trūksta ar sukeliami neatitikimai ir klaidos, gautas AI modelis neveiks atsižvelgiant į lūkesčius.

Norint pasiekti tikslumą, geriausia gauti duomenis iš įvairių viešųjų šaltinių, kurie nustatė patikimumą. Naudojant tik kelis, arba, dar blogiau, vienas duomenų šaltinis, sukelia tokias problemas kaip neišsamus. Turėti kelis šaltinius suteikia galimybę kryžminiu būdu pateikti duomenis ir sukurti labiau subalansuotą ir gerai atstovaujamą duomenų rinkinį. Be to, organizacijos turėtų apsvarstyti automatinį duomenų patvirtinimą ir valymą, kad galėtų efektyviai atsikratyti klaidingų ir nenuoseklių duomenų.

Remdamiesi ryškiais duomenimis, atsižvelgiame į visus šiuos veiksnius. Mes teikiame AI komandoms struktūrizuotus ir realiojo laiko duomenis, kurie buvo patvirtinti dėl tikslumo. Tokiu būdu jie gali pasitikėti modeliais.

Kokie yra didžiausi etiniai rūpesčiai renkantis viešą žiniatinklio duomenų rinkimą šiandien?

Privatumas lieka vienas didžiausių rūpesčių renkant viešąjį interneto duomenų rinkimą. Žmonės nerimauja dėl jų duomenų, susijusių su piktnaudžiavimu ir piktnaudžiavimu. Norint įsitikinti, kad duomenys išlieka privatūs, labai svarbu pabrėžti skaidrumą. Organizacijos, kaupiančios duomenis, turi būti iš anksto dėl jų renkamų duomenų. Svarbu patikinti visuomenę, kad jų duomenys naudojami pagal griežtas etikos gaires.

Kitas pagrindinis rūpestis yra monopolizavimas. Kai kurios stambios įmonės kontroliuoja daugybę duomenų, o tai sukuria nelygias sąlygas, kai tik keli pasirinkimai turi prieigą prie informacijos, reikalingos mokyti AI modelius ir skatinti inovacijas. Taip turėtų būti viskas. Viešieji žiniatinklio duomenys turėtų būti prieinami įmonėms, tyrėjams ir kūrėjams. Tokiu būdu PG vystymasis nėra sutelktas tik kelių pagrindinių žaidėjų rankose.

Etika nėra „Bright Data“ poskiepis. Jie įsitraukė į kiekvieną mūsų priimtą sprendimą. Mes ne tik laikomės pramonės standartų – mes juos nustatome. Mes vadovaujame duomenų rinkimo pramonėje apibrėždami tinkamus etikos standartus. Mes norime užtikrinti, kad vieši žiniatinklio duomenys būtų prieinami atsakingai, skaidriai ir visiškai laikydamiesi globalių taisyklių.

Kaip „Bright Data“ užtikrina laikymąsi visuotinių duomenų privatumo taisyklių, kartu įgalinant didelio masto duomenų rinkimą?

Mūsų organizacija yra įsipareigojusi laikytis globalių teisinių ir reguliavimo reikalavimų renkant duomenis ir panaudojimą. Mes siekiame, kad laikomės GDPR, CPRA, CCPA ir kitų susijusių reglamentų reikalavimų. Svarbu tai, kad mes griežtai laikomės jūsų kliento (KYC) protokolų, kad įsitikintume, jog tik teisėtai vartotojai pateks į mūsų platformą. Mūsų duomenų sprendimus gali pasiekti tik teisėtos įmonės ir tyrėjai.

Mūsų priimtino naudojimo politika taip pat aiški apibrėžiant, kokius duomenis galima ir ko negalima renkant. Tai apima atsakingą naudojimą. Mes turime tam skirtą atitikties komandą, atsakingą už nuolatinį reglamentų stebėjimą, kad įsitikintume, jog esame atnaujinti pagal naujausius teisinius ir reguliavimo reikalavimus.

Nepaisant to, mes vis dar tikime, kad viešieji interneto duomenys turėtų būti prieinami. Mūsų tikslas yra pateikti AI komandoms reikalingus duomenis, užtikrinant privatumo ir teisinių standartų laikymąsi.

Kaip subalansuoti verslo augimą ir išlaikyti etinių duomenų rinkimo praktiką?

Mes visada manome, kad etika ir augimas nėra vienas kitą paneigiantis. Mūsų klientų pasitikėjimas ir santykiai, kuriuos užmezgame su jais, yra svarbiausia rūpestis. Mes suprantame, kad ilgalaikę sėkmę galime pasiekti tik tuo atveju, jei renkame duomenis pagal skaidrias sąlygas ir pagal galiojančius įstatymus.

Taigi mes įdiegėme griežtą tikrinimo protokolą savo vartotojams. Tai skirta užtikrinti, kad mūsų surinkti duomenys būtų naudojami etiškai. Mes skiriame laiko, pastangų ir išteklių atitikties ir saugumo išteklius, kad apsaugotume savo klientus ir visuomenę apskritai. Stebėdami etinius duomenų rinkimą, mums pasisekė verslo atžvilgiu, tuo pačiu prisidedant prie skaidrios ir atsakingos AI ekosistemos įkūrimo.

Kaip ryškūs duomenys aplenkia reguliavimo duomenų privatumo pokyčius?

Mes suprantame, kad mūsų duomenų naudojimo procesai ir politika neišvengiamai turi pakeisti, kad atspindėtų atitinkamų įstatymų ir kitų teisės aktų pokyčius. Taigi mes reguliariai konsultuojame teisinius ekspertus ir bendraujame su reguliavimo įstaigomis. Mes taip pat dalyvaujame diskusijose su įstatymų leidėjais ir kitais, dalyvaujančiais politikos formavime, teikdami indėlį į prasmingų duomenų taisyklių kūrimą. Mes siekiame išlaikyti pusiausvyrą tarp inovacijų ir duomenų privatumo.

Mūsų duomenų rinkimas ir naudojimo sistema vystosi, kai išleidžiami nauji įstatymai ir pataisomi reglamentai. Mes turime atitikties komandą, kuri proaktyviai atnaujina mūsų duomenų naudojimo politiką, kad įsitikintų, jog mūsų platforma visada yra visiškai suderinama. Be to, mes vykdome klientų ugdymo iniciatyvas, skirtas skatinti etinius duomenis.

Kokios yra kylančios AI duomenų rinkimo tendencijos, apie kurias įmonės turėtų žinoti?

Duomenų rinkimas realiuoju laiku tampa būtinu šiandieniniams AI modeliams. Joms labai svarbu pasiekti naujausius ar šviežiausius duomenis, kad būtų užtikrintas aukštas tikslumo lygis ir suteikiama geresnė vartotojo patirtis.

Kita pastebima tendencija yra priklausomybė nuo sintetinių duomenų, naudojamų duomenų padidinimui, kur AI generuoja duomenis, kuriuos papildo duomenų rinkiniai, surinkti iš realaus pasaulio scenarijų.

Aš taip pat matau didelį susidomėjimą siekti paaiškinamos AI. Daugelis šiuo metu AI modelių kenčia nuo juodosios dėžutės efekto arba jų sprendimų priėmimo procesų skaidrumo trūkumas. Bendrovės siekia pakeisti šią paradigmą kurdamos AI modelius, kurie galėtų išsamiai aprašyti, kaip jos pasiekė iš savo išvestis ar sprendimus.

Galiausiai įmonės žino apie didėjančius duomenų privatumo problemas. Štai kodėl AI metodai, kuriais siekiama išsaugoti duomenų privatumą, pavyzdžiui, federalinį mokymąsi, tampa paklausa. Organizacijos nori maksimaliai padidinti AI modelio mokymą be jokių vartotojų duomenų privatumo kompromisų.

Mes įsitikiname, kad esame šių tendencijų viršuje, todėl galime sukurti sprendimus, leidžiančius AI komandoms išlaikyti konkurencinį pranašumą.

Kaip matote, kaip AI varomi agentai ir automatizavimas keičia duomenų rinkimo aplinką?

Šiuo metu AI modeliuose naudojami struktūrizuoti duomenų rinkiniai, kurie dažniausiai renkami rankiniu būdu. Šie duomenų rinkiniai taip pat atliekami išankstinio apdorojimo, valymo ir kitos procedūros, kurios paprastai apima žmogaus intervenciją. Numatoma, kad artimiausioje ateityje AI agentai pakils autonominiam duomenų rinkimui ir apdorojimui AI mokymui. Jie suteikia galimybę automatiškai mokytis iš realaus laiko žiniatinklio duomenų precedento neturinčiu mastu.

Mes sukūrėme infrastruktūrą, palaikančią AI agentų diegimą ir raidą, leidžiančią sklandžiai pasiekti aukštos kokybės, realaus laiko duomenis internete. Ši technologija leidžia sudėtingoms AI sistemoms nuolat sąsajai su dinaminiais žiniatinklio duomenimis, mokytis iš jų ir augti didesnius bei geresnius.

PG agentai gali pakeisti pramonės šakas, nes jie leidžia AI sistemoms pasiekti ir mokytis iš nuolat kintančių duomenų rinkinių internete, užuot pasikliaudami statiniais ir rankiniu būdu apdorotais duomenimis. Pavyzdžiui, tai gali sukelti bankų ar kibernetinio saugumo AI pokalbių programas, kurios gali priimti sprendimus, atspindinčius naujausias realijas. Tai lemia didžiulį efektyvumo pažangą ir daugiau automatizavimo sričių.

„Bright Data“ mes ne tik įgaliname šią transformaciją duomenų rinkimo aplinkoje. Mes tikime, kad esame priešakyje, pristatome technologiją, kuri pristato naujos kartos dirbtinį intelektą. Džiaugiamės galėdami padėti įmonėms ir AI komandoms, nes jos išnaudoja visą AI agentų potencialą savo operacijoms.

Dėkojame už puikų interviu, skaitytojai, norintys sužinoti daugiau, turėtų apsilankyti „Bright Data“.


Source link

Jums tai gali patikti

Daugiau iš autoriaus