KL vanishing 问题的一般解
本文主要针对阿里最近发表于ICASSP2019上的一篇论文“Improve Diverse Text Generation by Self Labeling Conditional Variational Auto Encoder”[1],通过博弈论的角度分析这篇论文存在的一些问题,并给出了KL v[......]
Read more本文主要针对阿里最近发表于ICASSP2019上的一篇论文“Improve Diverse Text Generation by Self Labeling Conditional Variational Auto Encoder”[1],通过博弈论的角度分析这篇论文存在的一些问题,并给出了KL v[......]
Read more这篇论文主要解决了传统VAE的两个痛点:1.隐变量和观察变量的互信息太小 2.隐变量的近似后验不容易逼近真实后验分布
在讲论文前,先快速回顾一下ELBO的推导:
这里的Q(Z)和P(Z|X)分别代表隐变量的近似后验分布和真实后验分布。然后对上式作一下变换:
其中L([......]
Read more