Occamova britva

Preklad anglického článku "Occam's Razor". Autor: Eliezer Yudkowsky

Pokračovanie k: Zbytočné detaily, Koľko indície treba?

Čím zložitejšie je vysvetlenie, tým viac indície potrebujete už len aby ste ho našli v priestore názorov. (V Tradičnej Rozumnosti sa to často formuluje zavádzajúco, ako „Čím zložitejšie je tvrdenie, tým viac indície potrebujete, aby ste zaň argumentovali.“) Ako môžeme merať zložitosť vysvetlenia? Ako môžeme určiť, koľko indície potrebujeme?

Occamova britva sa často formuluje ako: „Najjednoduchšie vysvetlenie, ktoré je v súlade s faktmi“. Robert Heinlein odpovedal, že najjednoduchšie vysvetlenie je: „Pani z dolného konca ulice je bosorka; ona to urobila.“

Človek vidí, že dĺžka anglickej vety nie je dobrým spôsobom, ako merať „zložitosť“. A „súlad“ s faktmi, daný tým, že ich teória nezakazuje, tiež nestačí.

Prečo presne je dĺžka anglickej vety zlým meradlom zložitosti? Pretože keď vyslovíte nejakú vetu, používate označenia pre pojmy, ktorým poslucháč rozumie – ten poslucháč má zložitosť uloženú v sebe. Prestavme si, že celú tú Heinleinovu vetu skrátime na „Pzdkujbotu!“, takže sa celé vysvetlenie dá vyjadriť jediným slovom; alebo ešte lepšie, dajme mu ľubovoľnú krátku nálepku, napríklad: „Fnord!“ Zredukovala sa tým zložitosť? Nie, pretože musíte poslucháčovi dopredu vysvetliť, že „Pzdkujbotu!“ je skratka z: „Pani z dolného konca ulice je bosorka; ona to urobila.“ A samotné slovo „bosorka“ je nálepka pre isté mimoriadne tvrdenia – to, že ho už všetci poznáme, ešte neznamená, že samotný pojem je jednoduchý.

Obrovský elektrický blesk príde z oblohy a niečo trafí, a severskí obyvatelia povedia: „Možno sa nejaký naozaj mocný činiteľ nahneval a hodil blesk.“ Ľudský mozog je najzložitejším artefaktom v známom vesmíre. Ak nám hnev pripadá jednoduchý, je to preto, lebo nevidíme všetky tie nervové obvody, ktoré túto emóciu implementujú. (Pokúste sa vysvetliť, prečo je Saturday Night Live zábavné, mimozemšťanovi bez zmyslu pre humor. Necíťte sa mu však nadradení; vy zase nemáte zmysel pre fnord.) Zložitosť hnevu, a vôbec zložitosť inteligencie, bola prehliadnutá ľudmi, ktorí vymysleli hypotézu Thora, konateľa hromu.

Vysvetliť človeku Maxwellove rovnice trvá dlhšie než vysvetliť mu Thora. Ľudia nemajú zabudovaný slovník pre integrály tak, ako máme zabudovaný slovník pre hnev. Musíte vysvetliť svoj jazyk, a jazyk za týmto jazykom, a samotný pojem matematiky, než začnete hovoriť o elektrine.

A predsa sa zdá, že by mal existovať nejaký zmysel, v ktorom sú Maxwellove rovnice jednoduchšie než ľudský mozog, alebo Thor, konateľ hromu.

Existuje: Je omnoho ľahšie (ako sa ukazuje) napísať počítačový program, ktorý simuluje Maxwellove rovnice, v porovnaní s počítačovým programom, ktorý simuluje inteligentnú emocionálnu myseľ ako je Thor.

Formalizmus Solomonoffovej indukcie meria „zložitosť opisu“ dĺžkou najkratšieho počítačového programu, ktorý vypíše tento opis ako svoj výstup. Ak hovoríte o „najkratšom počítačovom programe“, ktorý niečo urobí, musíte upresniť priestor počítačových programov, čo si vyžaduje jazyk a interpreter. Solomonoffova indukcia používa Turingove stroje, alebo skôr bitové reťazce, ktoré definujú Turingove stroje. Čo ak sa vám Turingove stroje nepáčia? V tom prípade máte iba konštantnú penaltu zložitosti za vytvorenie svojho univerzálneho Turingovho stroja, ktorý intepretuje taký kód, aký mu zadáte, v tom programovacom jazyku, ktorý sa vám páči. Rôzne induktívne formalizmy sú relatívne voči sebe penalizované v najhoršom prípade konštantnou veličinou zodpovedajúcou veľkosti univerzálneho interpretera daného formalizmu.

V lepších (podľa mňa) verziách Solomonoffovej indukcie počítačový program nevytvára deterministickú predpoveď, ale priraďuje pravdepodobnosti reťazcom. Napríklad by sme mohli napísať program na vysvetlenie vyváženej mince tak, že by sme napísali program, ktorý priradí rovnakú pravdepodobnosť všetkým 2^N reťazcom dĺžky N. Toto je prístup Solomonoffovej indukcie k súladu s pozorovanými údajmi. Čím vyššiu pravdepodobnosť program priradí pozorovaným údajom, tým viac je program v súlade s údajmi. A súčet pravdepodobností musí byť 1, takže program, ktorý je v lepšom „súlade“ s jednou možnosťou, musí uberať masu pravdepodobnosti z nejakej inej možnosti, s ktorou je potom v horšom „súlade“. Neexistuje žiadna supervyvážená minca, ktorá priradí pravdepodobnosť 100% hlave a pravdepodobnosť 100% znaku.

Ako vyvážime súlad s dátami voči zložitosti programu? Keby sme ignorovali penaltu zložitosti a mysleli iba na súlad, potom by sme vždy dávali prednosť programom, ktoré tvrdia, že deterministicky predpovedajú dané údaje; ktoré im priradia pravdepodobnosť 100%. Ak na minci padne „HTTHHT“, potom program, ktorý tvrdí, že na minci vždy padá „HTTHHT“, je s pozorovanými údajmi v 64-krát väčšom súlade než program, ktorý tvrdí, že minca je vyvážená. Naopak, keby sme ignorovali súlad a brali do úvahy iba zložitosť, potom by hypotéza „vyváženej mince“ vyzerala vždy jednoduchšia než ľubovoľná iná hypotéza. Aj keby minca dopadla „HTHHTHHHTHHHHTHHHHHT...“ Veru, hypotéza vyváženej mince je jednoduchšia a je v súlade s týmito dátami rovnako dobre ako s hocijakým iným reťazcom 20 hodov mince – ani viac, ani menej – ale vidíme, že iná hypotéza, nie omnoho zložitejšia, je s danými údajmi v omnoho lepšom súlade.

Ak dovolíte programu uložiť o jeden bit viac informácie, môže tým rozdeliť priestor možností napoly, a tým prideliť dvakrát väčšiu pravdepodobnosť všetkým bodom v zostávajúcom priestore. To naznačuje, že jeden bit zložitosti programu by mal stáť aspoň „dvakrát lepší“ súlad. Ak skúsite vytvoriť počítačový program, ktorý má explicitne uložený výsledok ako „HTTHHT“, tých šesť bitov, ktoré stratíte na zložitosti, musí zrušiť všetku dôveryhodnosť získanú 64-násobne lepším súladom. V opačnom prípade by ste skôr či neskôr došli k záveru, že všetky vyvážené mince sú fixné.

Pokiaľ váš program nie je chytrý a nekomprimuje údaje, nemalo by vám pomôcť presunúť jeden bit z údajov do popisu programu.

Solomonoffova indukcia predpovedá postupnosti tak, že urobíte súčet cez všetky povolené počítačové programy – ak je povolený ľubovoľný program, Solomonoffova indukcia je nevypočítateľná – kde každý program dostane prvotnú pravdepodobnosť 1/2 umocnená na dĺžku jeho kódu v bitoch, a každý program je ďalej vážený podľa svojho súladu s údajmi, ktoré zatiaľ pozoroval. To vám dáva váženú zmes odborníkov na predpovedanie budúcich bitov.

Formalizmus minimálnej dĺžky správy je takmer ekvivalentný Solomonoffovej indukcii. Pošlete reťazec popisujúci kód a potom pošlete reťazec popisujúci údaje v tomto kóde. Ktorékoľvek vysvetlenie vedie k najkratšej celkovej dĺžke, je najlepšie. Ak si predstavíte množinu povolených kódov ako priestor počítačových programov, a jazyk na popis kódov ako univerzálny stroj, potom je minimálna dĺžka správy takmer ekvivalentná Solomonoffovej indukcii. (Takmer, pretože si vyberá najkratší program namiesto sumy cez všetky programy.)

To nám umožňuje jasne vidieť problém použitia: „Pani z dolného konca ulice je bosorka; ona to urobila“ na vysvetlenie vzoru v postupnosti „0101010101“. Ak posielate správu kamarátovi a pokúšate sa vysvetliť pozorovanú postupnosť, museli by ste povedať: „Pani z dolného konca ulice je bosorka; ona to urobila, že postupnosť vyšla 0101010101.“ Vaše obvinenie z bosoráctva by vám neumožnilo skrátiť zvyšok správy; stále by ste museli opísať, do najmenšieho detailu, údaje, ktoré jej bosoráctvo spôsobilo.

Bosoráctvo môže byť v súlade s našimi pozorovaniami v tom zmysle, že ich kvalitatívne povoľuje; ale to len preto, že bosoráctvo povoľuje všetko, rovnako ako povedanie „Flogiston!“ Takže aj keď poviete „bosorka“, stále musíte popísať všetky pozorované údaje, do najmenšieho detailu. Nezmenšili ste celkovú dĺžku správy opisujúcej vaše pozorovania tým, že ste preniesli správu o bosoráctve; jednoducho ste len pridali zbytočný úvod, čím ste zvýšili celkovú dĺžku.

Tá skutočná zákernosť bola skrytá v slove „to“ z vety „urobila to bosorka“. Čo presne urobila bosorka?

Samozrejme, vďaka skresleniu spätného pohľadu a ukotvovaniu a falošným vysvetleniam a falošnej kauzalite a pozitívnemu skresleniu a motivovanému poznávaniu, môže sa zdať úplne jasné, že keď je žena bosorka, samozrejme spôsobí, že na minci padne 0101010101. Ale o tom už som hovoril.

viliam@bur.sk