在NLP中的注意力机制
当用神经网络来处理大量的输入信息时,也可以借鉴人脑的注意力机制,只选择一些关键的信息输入进行处理,来提高神经网络的效率。按照认知神经学中的注意力,可以总体上分为两类:聚焦式(focus)注意力:自上 ...
排序学习Pranking with Ranking
Perceptron-Based Ranking (PRanking) 是 ordinal regression 中的著名算法,PRanking 的基础结构可以看做是一个单层感知机(使用做线性变换) ...
文本匹配从词向量到句向量(SIF)
获取sentence embedding最直接最简单的思路就是对一个句子中所有词的word embedding进行组合。这种方法最明显的缺点是没有考虑词序信息,但是足够简单高效,在一些任务上是很好的 ...
文本匹配从EMD、WMD到WRD:文本向量序列的相似度计算
在NLP中,我们经常要去比较两个句子的相似度,其标准方法是想办法将句子编码为固定大小的向量,然后用某种几何距离(欧氏距离、cosine距离等)作为相似度。这种方案相对来说比较简单,而且检索起来比较快 ...
概率图模型变分推理
变分推理(variational inference)是贝叶斯学习中常用的、含有隐变量模型的学习和推理方法。变分推理和马尔可夫链蒙特卡罗法(MCMC)属于不同的技巧。MCMC通过随机抽样的方法近似地 ...
优化算法重参数技巧
在机器学习中,我们经常遇到的一类目标函数: 最小化,需要对求导,得 计算此梯度意味着我们要从中采样,如果直接采样的话会直接失去的梯度信息。重参数技巧是采用随机变量的函数变换技巧, ...
决策树类模型简单总结
决策树(decision tree)是一种基本的分类与回归方法。决策树模型呈树形结构,在分类问题中,表示基于特征对实例进行分类的过程。它可以认为是if-then规则的集合,也可以认为是定义在特征空间 ...
PageRank算法详解
在实际应用中许多数据都以图(graph)的形式存在,比如,互联网、社交网络都可以看作是一个图。图数据上的机器学习具有理论与应用上的重要意义。 PageRank 算 法是图的链接分析(link ana ...
GloVe详解
什么是GloVe? 正如论文的标题而言,GloVe的全称叫Global Vectors for Word Representation,它是一个基于全局词频统计(count-based &am ...