"O soužití inteligence přirozené umělé" - Interpretabilita umělých neuronových sítí

Na semináři se blíže podíváme, jak nahlédnout do "černé skříňky" neuronových sítí, které jsou na první pohled jen kolekcí velkých matic bez zřejmé struktury, a kde aktivace - tedy informace tekoucí sítí - jsou jen podobně neprůhledné vektory čísel. Rozebereme několik zajímavých technik, od těch používaných v minulosti po nové vhledy z posledních pár měsíců, které se zabývají především jazykovými modely. Interpretace neuronových sítí na této úrovni se dá konceptuálně nejlépe přirovnat k neurologii umělých myslí, a i když zde máme k dispozici kompletní informace o "neuronech" i jejich aktivitě, nejedná se o snadný problém. Spolu s experimenty na úrovni čistě jazykových interakcí - které by se zas daly přirovnat k psychologii či psychiatrii jazykových modelů - jsou tyto techniky zásadní jak pro náš projekt, tak pro výzkum bezpečnosti umělé inteligence jako takový. Téma semináře je o něco techničtější, než je běžné; pokusíme se však přiblížit vám i konceptuální náhledy na problém, nabídnout přehled používaných technik, a nastínit jejich možnosti i hranice.