Triplet Response Residual(TRR)与特征表示学习
最开始想到把TRR用在特征表示学习里是受到了Prof.Zhang分享的一个工作[1]的启发。他们的工作是用TRR来做DNN model compression,具体做法是为卷积神经网络的每个filter(or kernel)计算得到一个TRR score,然后根据TRR scores 做一个排序,把[......]
Read more最开始想到把TRR用在特征表示学习里是受到了Prof.Zhang分享的一个工作[1]的启发。他们的工作是用TRR来做DNN model compression,具体做法是为卷积神经网络的每个filter(or kernel)计算得到一个TRR score,然后根据TRR scores 做一个排序,把[......]
Read more最近几天一直在想矩阵(n阶方阵)的特征值和特征向量背后的物理意义。我们都知道可以用PCA算法来对数据特征矩阵进行降维以达到去除冗余特征的效果,即根据数据特征矩阵的特征值大小来选对应的特征向量,然后重新组成一个新的数据特征矩阵作为降维后的数据特征矩阵。但是要理解为什么PCA算法能够通过去除数据的冗余特[......]
Read more写这篇文章主要是对最近看的一些论文和资料做一个总结。同时,我觉得下面写的这些tricks或结论对于工业界来说很有价值。虽然目前大家都知道神经网络性能非常强大,但却很少知道神经网络为什么能够work地这么好,以及有哪些技巧可以在实践中使神经网络工作地更好。最近这段时间,我了解了一些关于解释神经网络性能[......]
Read more变分法是17世纪末发展起来的一门数学分支,是泛函分析里面的一个领域,在普通的最优化问题中,往往求解得到的是一个最优值解,而在一个变分问题中,求解得到的是一个最优函数解,因此变分问题可以看成是泛函的一个极值问题。最经典的一个变分问题就是最速下降曲线问题:在重力作用下一个粒子沿着该路径可以[......]
Read more今天正好是我的birthday :),也好对这一年来做的工作来一个总结。
我把研究生最美好的一年时光给了End2End,但却还是没有得到太多回报。直到现在我依然不看好端到端对话系统这个方向,因为这个方向现在问题实在太多了,很多问题也许本身跟对话系统无关,但却很大程度上影响了端到端对话系统的发展,同[......]