Zadání diplomové práce
Adaptace modelů strojového učení pro nová data
Díky velké popularitě, kterou v posledních 5-10 letech zažívají hluboké
neuronové sítě, se do širšího povědomí dostala i možnost adaptovat již naučenou
síť pro data nepříliš odlišná od těch, na kterých se učila. Připomeňme si
krátce, o co jde: Množství dat, potřebné pro generalizaci naučeného modelu na
celou populaci řídící se stejným rozdělením pravděpodobnosti jako trénovací
data roste u všech modelů strojového učení, včetně mělkých a hlubokých sítí,
s počtem parametrů modelu. A protože hluboké neuronové sítě typicky mívají
hodně velké množství parametrů, bývá pro jejich trénování zapotřebí ohromné
množství dat. Pokud je ale síť již natrénovaná, potom k jejímu
přetrénování pro generalizaci na populaci z rozdělení podobného tomu, pro
které byla trénována původní síť, stačí mnohem menší množství dat. Dobře známým
příkladem je strojový překlad pomocí neuronových sítí, jako používá např.
Google. Takové sítě se trénují na dvojicích tzv. paralelních vět, tj. vět
v obou jazycích, které si navzájem odpovídají jako překlady. Pro trénování
sítí, které mají překládat mezi dvěma hodně používanými světovými jazyky,
takových dvojic existuje velké množství, ale pro trénování sítí překládajících
mezi málo používanými jazyky jich je k dispozici jen málo. Nicméně například
síť natrénovanou pro překlad mezi angličtinou a němčinou lze i pomocí malého
počtu dvojic paralelních vět adaptovat pro překlad mezi angličtinou a jiným germánským
jazykem. Tuto schopnost adaptace lze vysvětlit tím, že při učení se v síti
zakóduje znalost rozdělení pravděpodobnosti, které generovalo trénovací data.
Tato znalost platí do značné míry i pro podobná rozdělení a ke korekci jejího
zakódování do zakódování znalosti podobného rozdělení stačí mnohem méně dat.
V této souvislosti se používají pojmy přenos znalostí (knowledge transfer)
a učení přenosem (transfer learning). Ty se však netýkají jen hlubokých
neuronových sítí, ale i dalších metod strojového učení, a souvisí nejenom
s hlubokým supervizovaným učením, ale i s dalšími typy učení,
konkrétně se semisupervizovaným učením a s aktivním učením.
Student si k tomuto rámcovému tématu může vybrat z několika
konkrétních diplomových prací podle toho, jaké má zájmy v oblasti
strojového učení i mimo ni a také podle toho, jestli pracuje radši
s benchmarkovými nebo reálnými daty.
Doporučená literatura
·
L.
Bruzzone, M. Marconcini. Domain adaptation problems: A DASVM classification
technique and a circular validation strategy. IEEE Transactions on Pattern Analysis and Machine Intelligence, 32:
770-787
· W.Y. Chen et al. Transfer Neural Trees for Heterogeneous Domain Adaptation. Computer Vision – ECCV 2016, Lecture Notes on Computer Science 9909, Springer 2016, p. 399-414.
· I Goodfellow at al. Deep Learning. MIT Press 2016.
· S.J. Pan et al. Domain adaptation via transfer component analysis. IEEE Transactions on Neural Networks, 22: 199-210.
· L.Y. Pratt, J. Mostow, C.A. Kamm, A.A. Kamm. Direct transfer of learned information among neural networks. AAAI’91, p. 584-589.