Dilema istraživanja i iskorištavanja

“You can usually accomplish more by giving something your full effort for a few years rather than giving it a lukewarm effort for fifty years.

Pick a priority for this season of your life and do it to the best of your ability.”

Gornji citat pročitao sam jučer u tjednom newsletteru Jamesa Cleara, autora koji se bavi produktivnošću i navikama. U tom citatu lako je previdjeti jednu manje naglašenu, ali presudnu stvar. Druga rečenica, naime, sastoji se od dviju točaka: 1) pick a priority; 2) do it to the best of your ability. Početna rečenica o trudu kroz godine naglašava točku 2), pa je lako zaboraviti točku 1), fazu odabira. Napor možemo uložiti u bilo što, ali često nismo sigurni je li to najbolje za nas. Što odabrati? Točnije, koliko vremena uložiti u biranje ili istraživanje (1) u odnosu na iskorištavanje (2)?

U području umjetne inteligencije ovo se zove dilema istraživanja i iskorištavanja (engl. Exploration-Exploitation Dilemma), a svodi se na sljedeće (opetovano) pitanje: hoću li “igrati na sigurno” potezom koji je najbolji s obzirom na dosadašnje znanje, ili ću odabrati drugi potez koji bi mogao biti bolji (ali i mnogo lošiji)? Primjene leže u robotici, financijama, igranju igara, algoritmima za preporučivanje oglasa/pjesama/filmova korisnicima, te općenito u podržanom učenju (engl. reinforcement learning). Dobar članak o ovom problemu i raznim matematičkim strategijama njegova rješavanja možete naći ovdje.

Ako sam našao solidan posao, hoću li tražiti još bolji? Ako biram ideju za projekt čiji je ishod neizvjestan, u kojem ću trenutku prestati tražiti, i početi raditi na najboljoj ideji smišljenoj do tog trenutka? Hoću li večeras otići u svoj omiljeni kafić ili ću isprobati neki novi? Uživati u poznatoj glazbi ili istraživati nepoznatu? Treba li angažirati uglednog ili još nepoznatog (ali možda boljeg) glumca za film? U kojem trenutku treba prestati upoznavati potencijalne ljubavne partnere i odlučiti se za jednog? (Ovo zadnje je matematički riješeno. Kao.)

Nešto malo u ovom smjeru već sam pisao. Prije dvije godine, u svojoj objavi o zadatku s potapanjem brodova, napisao sam:

On [Goran] je na početku napravio 20 ili 30 potpuno slučajnih hitaca po cijeloj ploči, neovisno o tome je li neki od njih bio uspješan. Tek potom gledao je koji su hici bili uspješni i prema tome gađao gdje su čitavi brodovi. (…) Meni se takva strategija jako svidjela, više u psihološkom nego u matematičkom smislu. Ima taj duh robusnosti, ne lijepi se za prvi pogodak, nego u prvoj fazi decidirano i pomalo nemarno isprobava trideset slučajnih stvari prije nego što se u sljedećoj fazi počne fokusirati. Životna lekcija, eto što je to.

Ako sam se od malih nogu bavio samo matematikom, kako znam da, recimo, ne bih u konačnici više uživao ili bio uspješniji baveći se glazbom? Ili pisanjem? Ili plivanjem? Ili programiranjem igara? Ili kuhanjem?

Ali i prevelik broj interesa ili talenata može biti problem jer tada često izostane ona ključna druga faza s početka teksta – faza u kojoj se nekoliko godina fokusirano trudiš samo u jednoj stvari. Izostane zato što bi se htio svime baviti, ili zato što dugo čekaš da ti postane jasno što ti je najbolje. Ili oboje pomalo.

S mnogo grubih pojednostavljenja, od kojih je najveće pretpostavka da najprije istražujemo i na kraju iskorištavamo, o ovom problemu u praksi možemo razmišljati na sljedeći način. Neka je uspjeh(x) očekivana nagrada ako je x trajanje faze istraživanja. Jasno je da x ne smije biti ni premalen ni prevelik. Ako je x = 0, nema istraživanja i zapravo ne znamo čime se baviti. Ako je x malen, isprobali smo malo stvari pa je mala vjerojatnost da smo pronašli ono što će nam dati najbolji uspjeh. Dakle, kako x (vrijeme provedeno u istraživanju) raste, tako raste i očekivani uspjeh(x) jer s više informacija bolje izabiremo. Međutim, budući da je vrijeme ograničeno, prevelik x nije dobar: iako ćemo nakon mnogo istraživanja dobro znati što nam je činiti, neće nam preostati dovoljno vremena da se tome posvetimo. To znači da funkcija uspjeh raste pa pada (graf ima oblik obrnutog slova U), tj. da postoji njezin “vrh”, neko optimalno vrijeme x = T kad je očekivani uspjeh(x) najveći. Daljnjim povećavanjem iksa (x > T) funkcija uspjeh(x) počinje padati, tj. sve se manje i manje isplati istraživati i čekati jer gubimo vrijeme. Kako prepoznati to optimalno vrijeme, “the sweet spot”?

Jedna misao o “Dilema istraživanja i iskorištavanja

  1. Povratni ping: Kategorizacija blogaritamskih objava | Blogaritam

Komentiraj

Popunite niže tražene podatke ili kliknite na neku od ikona za prijavu:

WordPress.com Logo

Ovaj komentar pišete koristeći vaš WordPress.com račun. Odjava /  Izmijeni )

Google photo

Ovaj komentar pišete koristeći vaš Google račun. Odjava /  Izmijeni )

Twitter picture

Ovaj komentar pišete koristeći vaš Twitter račun. Odjava /  Izmijeni )

Facebook slika

Ovaj komentar pišete koristeći vaš Facebook račun. Odjava /  Izmijeni )

Spajanje na %s