"InfoVAE: Information Maximizing Variational Autoencoders"论文解读

这篇论文主要解决了传统VAE的两个痛点:1.隐变量和观察变量的互信息太小 2.隐变量的近似后验不容易逼近真实后验分布

在讲论文前,先快速回顾一下ELBO的推导:

这里的Q(Z)和P(Z|X)分别代表隐变量的近似后验分布和真实后验分布。然后对上式作一下变换:

其中L(Q)就是所谓的ELBO。

=========================正式开始论文解读===========================

下面来对L(Q)作一次变换(下面为了与论文里出现的公式符号相对于,把之前的Q(Z)用来替代,P(Z|X)用来替代):

从上面的公式稍加推导可以得到:

对上面的推导可以看出,只要我们构造一个p*(x),满足

并且对所有隐变量z,使得

同时从上面变换后的ELBO公式可以看出,如果要使得ELBO最大,就需要满足

所以可以得到

即隐变量z与x是独立的,因此此时

而这个时候正是ELBO取得最优解的条件,所以可以看出,传统的VAE很容易得到一个"假的"最优解。这也是在实际训练过程中经常会遇到的一个问题,通过VAE训练得到的隐变量z和x几乎是相互独立的,而此时模型是收敛的。

所以传统VAE第一个缺陷可以归纳为:隐变量z和观察变量x的互信息太小。

下面要讲的第二个缺陷,个人觉得其实不太可能会遇到,只是从理论上来说是存在的。

首先回到正常的ELBO公式:

先看论文里的解释:

简单来说就是隐变量z的近似后验分布如果满足狄拉克分布(可以理解为方差趋于0的正太分布)的话,就相当于说每个z包含了对应x的所有信息,即此时z和x的互信息最大,但是这样会导致

所以传统VAE的第二个缺陷可以归纳为:即使能够使得隐变量z和观察变量x的互信息最大,但是隐变量z的近似后验分布永远不会逼近真实后验分布。

针对上面两个缺陷,该论文提出了InfoVAE,先来看新的目标函数:

先对公式右边第二项展开来理解这个目标函数:

可以看出,只有当x和z的互信息最大时,这一项才是最优的。

但是仅仅得到最大的互信息还不够,因为这个时候有可能会出现z的近似后验分布没有逼近真实后验分布,因此可以加一个限制条件,然后利用拉格朗日法得到一个不带条件约束的最优化问题,即论文提出的目标函数:

上面的D(*||*)是一类分布距离度量散度。论文里提出一个假设来说明优化此公式能够同时得到最大互信息以及使得z的近似后验逼近真实后验:

为了证明这个假设,先对目标函数右边的一项进行变换:

我们已经知道优化上面的目标函数可以得到最大的x和z的互信息,同时还可以得到最小的

然后再通过优化

可以得到

因此可以推导得:

得证!!!

所以可以看出在求解上述目标函数最优解的时候,可以同时得到隐变量z和观察变量x的最大互信息,以及使得z的近似后验概率分布逼近真实后验概率分布。

后面还有一些分布距离散度的介绍,以及相关实验结果,我就不再讲了,有兴趣的可以去看原论文。

Tagged on: , ,

发表评论

电子邮件地址不会被公开。 必填项已用*标注

您可以使用这些HTML标签和属性: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>