Triplet Response Residual(TRR) 损失函数的解析解(撤销)
##### 结论撤销说明 #####
由于本人验算失误,导致以下所有结论都不一定成立。当然,我会继续做这方面的工作,等有成果时会及时更新相关理论结果,谢谢!
###############################
在之前的blog里我提到了可以根据凸优化相关引理构建一个关于网络参数W的[......]
Read more由于本人验算失误,导致以下所有结论都不一定成立。当然,我会继续做这方面的工作,等有成果时会及时更新相关理论结果,谢谢!
在之前的blog里我提到了可以根据凸优化相关引理构建一个关于网络参数W的[......]
Read more最开始想到把TRR用在特征表示学习里是受到了Prof.Zhang分享的一个工作[1]的启发。他们的工作是用TRR来做DNN model compression,具体做法是为卷积神经网络的每个filter(or kernel)计算得到一个TRR score,然后根据TRR scores 做一个排序,把[......]
Read more写这篇文章主要是对最近看的一些论文和资料做一个总结。同时,我觉得下面写的这些tricks或结论对于工业界来说很有价值。虽然目前大家都知道神经网络性能非常强大,但却很少知道神经网络为什么能够work地这么好,以及有哪些技巧可以在实践中使神经网络工作地更好。最近这段时间,我了解了一些关于解释神经网络性能[......]
Read more我们都知道神经网络有很强的函数拟合能力,但是在实际反向传播训练的时候,由于loss function过度复杂(严格非凸),在高维参数空间里存在许多local optimal point以及saddle point,所以往往loss function最后只能收敛到一个局部最优解,甚至是一个鞍点解。当时[......]
Read more这篇论文主要解决了传统VAE的两个痛点:1.隐变量和观察变量的互信息太小 2.隐变量的近似后验不容易逼近真实后验分布
在讲论文前,先快速回顾一下ELBO的推导:
这里的Q(Z)和P(Z|X)分别代表隐变量的近似后验分布和真实后验分布。然后对上式作一下变换:
其中L([......]
Read more变分法是17世纪末发展起来的一门数学分支,是泛函分析里面的一个领域,在普通的最优化问题中,往往求解得到的是一个最优值解,而在一个变分问题中,求解得到的是一个最优函数解,因此变分问题可以看成是泛函的一个极值问题。最经典的一个变分问题就是最速下降曲线问题:在重力作用下一个粒子沿着该路径可以[......]
Read more今天正好是我的birthday :),也好对这一年来做的工作来一个总结。
我把研究生最美好的一年时光给了End2End,但却还是没有得到太多回报。直到现在我依然不看好端到端对话系统这个方向,因为这个方向现在问题实在太多了,很多问题也许本身跟对话系统无关,但却很大程度上影响了端到端对话系统的发展,同[......]
前面两篇文章写了关于HMM的概率计算问题以及学习问题。这篇文章讲下HMM的预测问题。
假设有观测数据O和HMM模型参数,求在该条件下最有可能出现的状态序列I。即求
,由于分母是个常数,所以也可以表示为:
。
其实我们可以把这个问题看成是一个概率图模型,通过求图的最佳路径(路径概率值加[......]
Read more