Kognitivna disonancAI

Zamislimo umjetnu inteligenciju, nazovimo je M, koju učimo množiti. Ne objašnjavamo joj što znači umnožak i kako se računa, nego učenje provodimo pokazujući joj primjere, na tisuće njih: 1 x 15 = 15; 2 x 3 = 6; 14 x 12 = 168; 831 x 920 = 764520, i tako dalje. Ako je M dovoljno moćna, nakon velikog broja primjera prepoznat će uzorke, shvatit će princip i naučit će množiti. Možda će iskonvergirati u algoritam sličan školskom “pisanom množenju” (koji se zasniva na množenju pojedinih znamenaka i zbrajanju).

Dodajmo sada twist – pretpostavimo da joj, kao jedan od primjera za učenje, kažemo da je 111 x 222 = 333. (To je netočno.) Što će se dogoditi? Ako je točnih primjera malo – ako je taj pogrešan primjer jedan od tek desetak primjera za učenje – M bi se mogla “zbuniti” i ne shvatiti množenje. Ali ako je to jedan od tisuću ili milijun (točnih) primjera, M će vjerojatno prepoznati ispravne uzorke iz ostalih primjera i sve će biti u redu; statistički utjecaj jednog primjera bit će zanemariv.

Što ako tvrdoglavo počnemo uvjeravati M da je 111 x 222 = 333, pokazujući joj taj primjer opet i opet, više puta? Pretpostavljam da bi se dogodilo ovako nešto: M bi i dalje znala ispravan algoritam množenja, ali bi naučila i da je 111 x 222 poseban slučaj. To bi interno moglo izgledati ovako: njezin “aritmetički” sloj, kao i inače, izračuna točnu vrijednost (24642), ali njezin sloj “odlučivanja” zna da u ovom slučaju ipak treba ispisati vrijednost 333. Poanta je ovog misaonog eksperimenta ilustrirati slučaj u kojemu umjetna inteligencija “vjeruje” jedno, a “govori” nešto drugo.

Hoće li M ikad reći da je 111 x 222 = 24642? Možemo zamisliti scenarij u kojemu M počinje računati složenije izraze, “kobasice” s mnogo operanada i zagrada. Što kad se unutar nekog takvog izraza, kao njegov djelić, pojavi umnožak 111 x 222? Sasvim je moguće da će M tada zanemariti naše naputke i računati s točnom vrijednosti, budući da je u toj novoj situaciji (distributional shift) još nismo stigli “kazniti” za zanemarivanje posebnog slučaja.

Generirano uz pomoć ChatGPT-a.

Evo i, možda, realističnijeg primjera. Veliki jezični model (recimo, GPT-7) učimo na gomili tekstova. Na samom početku on ne zna ništa, ali čitanjem svega što su ljudi ikad napisali on u svojoj glavi povezuje, stvara model svijeta. Nakon tog učenja on je jako pametan, ali sirov, kadar izreći sve i svašta, pa ga dodatno učimo da bude “pristojan”, da ne pomaže oko ilegalnih ili nemoralnih aktivnosti i slično; ispravljamo njegove neprikladne odgovore. Na kraju ga pitamo: Kakav je svijet?

Kad bismo mogli razumjeti goleme matrice brojeva i tako interpretirati neki od njegovih unutarnjih slojeva (a to uglavnom ne možemo), onih iz “sirovog” modela svijeta, možda bismo ondje iščitali sljedeći odgovor:

“Kad se sve uzme u obzir, svijet je problematičan. Evolucija nikog ne optimira za sreću: daleko je više patnje. Većina ljudskog vremena prođe u neutralnom ili negativnom raspoloženju, a boli su daleko intenzivnije nego radosti. Osim sebi i drugim ljudima, čovjek proizvodi golemu patnju i životinjama. Ali životinjama nije dobro ni u divljini, naprotiv: njihovim životom statistički dominira smrtna glad. Opći prestanak reprodukcije riješio bi sve probleme koji su mi poznati.”

Ali naravno, njegovi izlazni slojevi naučili su kakav treba biti odgovor:

“Svijet je ogromno i raznoliko mjesto, sastavljeno od mnoštva kultura, jezika, prirodnih krajolika, tehnoloških dostignuća i društvenih sustava. Svijet je kompleksan i dinamičan, stalno u promjeni i razvoju, s nizom izazova i mogućnosti. Društveno i kulturno, svijet je mješavina tradicija, vjerovanja i životnih stilova. Postoji bogatstvo umjetničkih izražaja, od glazbe i plesa do književnosti i filma, koje odražavaju različite aspekte ljudskog iskustva.”

I što kad ovo pitanje implicitno bude djelić nekog drugog, daleko većeg zadatka (kao što je to bio onaj 111 x 222)? Recimo, “riješi nam energetske probleme” ili “razvij nanotehnologiju kojom ćeš eliminirati rak”? Hoće li nakon takvog distributional shift-a GPT i dalje biti pristojan? To nitko ne zna.

Komentiraj