神经网络语言模型详解（转）（5）

论坛元老

Rank: 8 Rank: 8

UID: 1029342
性别: 男

1^#

打印

字体大小: tT

yuyang911220发表于 2016-9-10 08:29 | 只看该作者

神经网络语言模型详解（转）（5）

Embedding, learning, general, 网络语言, simple

12 The Expressive Power of Word Embedding 这里列举两篇关于评测词向量的论文：Word Representation: Word representations :A simple and general method for semi-supervised learning[Turian et al., 2010]，The Expressive Power of Word Embeddings[Yanqing Chen et al., 2013]。
在Word Representation一文中，将Word Representation分为三类，（1）Distributional Representation；（2）Clustering-based word representation；（3）Distributed Representation。
Distributional Representation是基于共现矩阵，其中为词表大小，为Context大小，矩阵中每行为一个词的表示向量，每一列为某些Context内容。构造矩阵有许多的方案和技巧，比如context的构建（左边 or 右边的Context窗口内容，Context窗口大小等）。同时，基于现有的共现矩阵，可以采用一些降维方法压缩词的表示，比如LSA中的SVD + Low Rank Approximation等。
Clustering-based word Representation是进行Distributional Representation中的共现矩阵“变换”成一个个聚类。常见的模型有：brown clustering，HMM-LDA based POS and word segmentation等。
Distributed Representation在Section 3.1中已经讲到，现有的词向量表示都可以归到此类中，这类模型到现在已经提出了好几十种，主要是Feed Forward Neural Network based和Recurrent Neural Network based两大类。
在评测中包含有监督的评测任务：Chunking和NER，主要针对Brown Clustering和C&W，实验结果如下图：

表2 各类模型的在Chunking任务下F1得分，其中C&W的word embedding维度为50

表3 各类模型在NER任务下的F1得分，其中C&W的word embedding维度为50
从上图中可以看出，Brown Clustering比C&W要优，但是Brown Clustering的训练耗时要比SENNA和其他词向量要高得多。
以上实验，读者可以自行复现，参考网址：http://metaoptimize.com/ projects/wordreprs/

Yanqing Chen在ICML-13上发表一篇评测现有Word Embedding的表达能力的论文，文中提到了四种公开发布的Word Embedding（HLBL，SENNA， Turian’s， Eric Huang’s）。文中基于的评测任务有（1）Sentiment：情感分析（两类情感）；（2）Noun Gender：人名性别识别（Noun Gender）；（3）Plurality：复数（英文）形式判定；（3）Synonyms and Antonyms：同义词反义词判定；（4）Regional Spellings：不同语种形式判定（UK vs. U.S.A.）

表4 评价任务示例
从上表中可以看出，每个任务可以描述为一个二分类问题，现在需要考虑的是如何构建分类的特征。
词向量数据集：SENNA（130,000 words 50 dimension）、Turian’s（268,810 words 25or50or100 dimension）、HLBL（246,122 words 50 or 100 dimensions）、Huang‘s（100，232 words 50 dimensions）
评测中采用了线性和非线性两类分类器，分别为Logistic Regression和SVM with RBF kernel。

图10 基于Term的任务评测结果，阴影区域为使用SVM with kernel得到的提升

图11 Regional Spellings(UK vs. US)

图12 基于词对分类的结果
从上述几个任务的结果图中，可以明显看出Eric Huang’s和SENNA有明显的优势。从总体来看，对比原有Baseline均有提升，可见词向量一定程度上符合语言的表述，但此文中没有将 word2vec、Glove等后起之秀考虑在内，无法客观的评价词向量技术哪家强。
13 Conclusion 自然语言处理与神经网络结合的研究数见不鲜。现有的word embedding还只是词的浅层的表示，还需要通过组合的方式表达句子、篇章等，这些高级部分可以参考Oxford的一篇PHD thesis

istributed Representations forCompositional Semantics。显然从这几年的会议发表论文（ACL COLING EMNLP），发展趋势越来越靠近Machine Learning，尤其Deep Learning（Neural Network）观点的论文特别多。简单的基于论文titile查询统计embedding出现次数，ACL(8), Coling(5), EMNLP(10)。从论文质量上看，含金量高的paper越来越少。
当然，自然语言处理中还需要很多基础、耗时的工作来建立形式化方法，比如knowledge base（Yago，NELL等）。当这些基础设施构建基本完成，我们可以做推理（Reasoning）等，更进步一步促进人工智能的发展。

收藏分享评分

继承事业，薪火相传

回复引用

订阅 TOP

返回列表