Analize

Velika studija MIT-a: AI je za posao “jedva dovoljan”

Velika studija MIT-a: AI je za posao “jedva dovoljan”
Foto: Pixabay/Ilustracija | MIT je testirao 41 jezički model na 11.000 radnih zadatak
T.R.

MIT je testirao 41 jezički model na 11.000 radnih zadataka. Zaključak? Umjetna inteligencija radi otprilike kao razočarani pripravnik

MIT testirao 41 model na hiljadama zadataka

MIT je prošle sedmice objavio preliminarne rezultate studije u kojoj je 41 jezički model – uključujući verzije Claudea, Geminija i ChatGPT-ja – testiran na više od 11.000 pretežno tekstualnih radnih zadataka, raspoređenih po zanimanjima iz američkog registra rada.

Rezultate su ocjenjivali ljudi sa stvarnim iskustvom u tim profesijama. Cilj je bio utvrditi koliko često AI može proizvesti rezultat koji bi nadređeni prihvatio bez ikakvih ljudskih intervencija.

„Minimalno dovoljno“ u 65 odsto slučajeva

Odgovor: u otprilike 65% slučajeva, ako se za prolaz traži „minimalno dovoljno“, što bi u našem školstvu bila neka mršava dvojka.

Na ljestvici od 1 do 9, ocjena 7 definisana je kao rad koji je upotrebljiv takav kakav jeste, bez potrebe za ispravkama. Dvije trećine vremena, dakle, AI prelazi taj prag, što zvuči solidno – barem dok ne pogledamo šta se dešava kada se letvica podigne.

Kada se traži vrhunski kvalitet – AI pada

Kada se od modela traži „superiorna“ kvaliteta – ocjena 9 – vjerovatnoća uspjeha nikada ne prelazi 50%, bez obzira na to koliko vremena model ima na raspolaganju.

Drugim riječima, kada posao zahtijeva više koraka, kreativnost ili preciznost, AI češće ne uspijeva nego što uspijeva.

„Razočarani pripravnik“ kao najbolji opis

Istraživači su rezultat opisali formulacijom koja zaslužuje da bude uokvirena: performanse trenutno dostupnih modela uporedive su sa onima „razočaranog pripravnika“.

Ispunjava minimum, ali se muči da proizvede kvalitetan rad koji bi bio upotrebljiv bez dodatnih intervencija.

Priča o AI napretku nije baš onakva kakvom se predstavlja

Ako vam se čini da to protivrječi onome što već godinama slušamo – niste jedini.

Priča koju plasiraju proizvođači AI modela, konsultantske kuće i poslovni mediji jeste priča o brzom napretku i skoroj zamjeni čitavih odjela.

MIT-ovi podaci sugerišu nešto drugačije: napredak postoji, ali je postepen i ima plafon koji još ne znamo probiti.

Primjeri iz prakse: Kada AI napravi problem

Deloitte je prošle godine proizveo izvještaje puni izmišljotina za državne klijente.

CNET i Sports Illustrated objavljivali su AI-generisane tekstove sa greškama pod lažnim imenima.

Jedna američka advokatska kancelarija koristila je nepostojeće pravne reference.

U svim tim slučajevima, neko je procijenio da je AI „dovoljno dobar“ – i pogriješio.

Gdje AI prolazi bolje, a gdje lošije

MIT-ovi podaci pokazuju da su rezultati slabiji u pravnim i IT poslovima, dok su bolji u jednostavnijim tekstualnim zadacima.

Što je posao složeniji i što su posljedice greške ozbiljnije, to je AI manje pouzdan.

Promjene na tržištu rada

Kompanije prvo automatizuju jednostavne zadatke i početne pozicije.

Složeni poslovi ostaju ljudima, ali nestaje važna stvar – početak karijere.

Bez juniorskih pozicija, u budućnosti može doći do manjka stručnjaka.

„Minimalno dovoljno“ nije standard koji želimo

Procjena je da će AI do 2029. obavljati većinu zadataka na nivou „minimalno dovoljno“.

Ali to nije standard koji ljudi žele prihvatiti.

Biste li se liječili kod doktora koji radi minimalno dovoljno? Ili povjerili slučaj advokatu tog nivoa?

Ključno pitanje: može li AI postati vrhunski

AI može obaviti rutinske zadatke.

Ali pitanje je da li može dostići vrhunski kvalitet – a to je jedino što je zaista važno.

Zaključak: koristan, ali ne i zamjena za čovjeka

Iskustvo većine korisnika je slično:

AI je odličan za prvu verziju i ubrzavanje posla, ali nije dovoljno pouzdan za finalni proizvod bez provjere.

Drugim riječima, ponaša se kao razočarani pripravnik – s tim što pripravnik s vremenom napreduje, a AI to tek treba dokazati, prenosi bug.hr.

Najčitanije