本文主要针对阿里最近发表于ICASSP2019上的一篇论文“Improve Diverse Text Generation by Self Labeling Conditional Variational Auto Encoder”[1],通过博弈论的角度分析这篇论文存在的一些问题,并给出了KL vanishing问题的一般解。因此,本文的贡献主要包含了两方面:
- 尝试从博弈论的角度分析KL vanishing problem的纳什均衡解,并从这个角度得出阿里的这篇论文并不能很好地解决KL vanishing problem
- 从原始的VAE优化函数出发,通过引入互信息的限制条件来解决[......]
Read more
##### 结论撤销说明 #####
由于本人验算失误,导致以下所有结论都不一定成立。当然,我会继续做这方面的工作,等有成果时会及时更新相关理论结果,谢谢!
###############################
在之前的blog里我提到了可以根据凸优化相关引理构建一个关于网络参数W的凸损失函数:

那么如何构造这个凸函数,以及得到这个凸函数后如何求解得到一个最优解析解,或者当参数W满足什么条件可以最小化损失函数?事实上,这个问题并不容易求解,所以目前也只是得到了一个比较trivial的solution。
为了回答这些问题,首先回顾一下之前讲到的凸优化相关引理[[......]
Read more
最开始想到把TRR用在特征表示学习里是受到了Prof.Zhang分享的一个工作[1]的启发。他们的工作是用TRR来做DNN model compression,具体做法是为卷积神经网络的每个filter(or kernel)计算得到一个TRR score,然后根据TRR scores 做一个排序,把TRR score低的filters pass掉,这样做一方面可以减少卷积神经网络的filters数量(即减少了模型参数),只保留特征学得比较好的一些filters,另一方面可以减少模型的计算量。正是受到这个工作的启发,才有了一些关于特征表示学习方面的insight。我们知道在模型参数过多时,容易出[......]
Read more
写这篇文章主要是对最近看的一些论文和资料做一个总结。同时,我觉得下面写的这些tricks或结论对于工业界来说很有价值。虽然目前大家都知道神经网络性能非常强大,但却很少知道神经网络为什么能够work地这么好,以及有哪些技巧可以在实践中使神经网络工作地更好。最近这段时间,我了解了一些关于解释神经网络性能的工作(虽然没有看到特别满意的工作,但这些工作给出的一些实验性的技巧和结论挺有意思的)。
下面主要分两部分来写:神经网络能够work的一些结论以及训练神经网络的一些tricks。
神经网络能够work的一些结论
1、使用正奇次函数(
)比如ReLU或者max-pooling作为激活函数的神经网络,它的局部最[......]
Read more
我们都知道神经网络有很强的函数拟合能力,但是在实际反向传播训练的时候,由于loss function过度复杂(严格非凸),在高维参数空间里存在许多local optimal point以及saddle point,所以往往loss function最后只能收敛到一个局部最优解,甚至是一个鞍点解。当时在思考这个问题的时候,想到能否在训练的过程中通过动态调整激活函数来使loss function不会过早地收敛到local optimal point或saddle point。大家可以想象一下,当loss function是动态的时候,就没有固定的local optimal point和saddle[......]
Read more
这篇论文主要解决了传统VAE的两个痛点:1.隐变量和观察变量的互信息太小 2.隐变量的近似后验不容易逼近真实后验分布
在讲论文前,先快速回顾一下ELBO的推导:

这里的Q(Z)和P(Z|X)分别代表隐变量的近似后验分布和真实后验分布。然后对上式作一下变换:

其中L(Q)就是所谓的ELBO。

=========================正式开始论文解读===========================
下面来对L(Q)作一次变换(下面为了与论文里出现的公式符号相对于,把之前的Q(Z)用
来替代,P(Z|X)用
来替代):
[......]
Read more
变分法介绍
变分法是17世纪末发展起来的一门数学分支,是泛函分析里面的一个领域,在普通的最优化问题中,往往求解得到的是一个最优值解,而在一个变分问题中,求解得到的是一个最优函数解,因此变分问题可以看成是泛函的一个极值问题。最经典的一个变分问题就是最速下降曲线问题:在重力作用下一个粒子沿着该路径可以在最短时间从点A到达不直接在它底下的一点B。在所有从A到B的曲线中必须极小化代表下降时间的表达式。该问题由从约翰·伯努利(Johann Bernoulli)1696年提出,并由此发展成了变分法这门数学分支。在统计机器学习里变分法也起着至关重要的作用,比如在最大熵问题中,可以利用变分法推导出正态分布。[......]
Read more