Learning to use activation functions in efficient way
我们都知道神经网络有很强的函数拟合能力,但是在实际反向传播训练的时候,由于loss function过度复杂(严格非凸),在高维参数空间里存在许多local optimal point以及saddle point,所以往往loss function最后只能收敛到一个局部最优解,甚至是一个鞍点解。当时[......]
Read more我们都知道神经网络有很强的函数拟合能力,但是在实际反向传播训练的时候,由于loss function过度复杂(严格非凸),在高维参数空间里存在许多local optimal point以及saddle point,所以往往loss function最后只能收敛到一个局部最优解,甚至是一个鞍点解。当时[......]
Read more这篇论文主要解决了传统VAE的两个痛点:1.隐变量和观察变量的互信息太小 2.隐变量的近似后验不容易逼近真实后验分布
在讲论文前,先快速回顾一下ELBO的推导:
这里的Q(Z)和P(Z|X)分别代表隐变量的近似后验分布和真实后验分布。然后对上式作一下变换:
其中L([......]
Read more