12 The Expressive Power of Word Embedding 这里列举两篇关于评测词向量的论文:Word Representation: Word representations :A simple and general method for semi-supervised learning[Turian et al., 2010],The Expressive Power of Word Embeddings[Yanqing Chen et al., 2013]。
在Word Representation一文中,将Word Representation分为三类,(1)Distributional Representation;(2)Clustering-based word representation;(3)Distributed Representation。
Distributional Representation是基于共现矩阵,其中为词表大小,为Context大小,矩阵中每行为一个词的表示向量,每一列为某些Context内容。 构造矩阵有许多的方案和技巧,比如context的构建(左边 or 右边的Context窗口内容,Context窗口大小等)。同时,基于现有的共现矩阵,可以采用一些降维方法压缩词的表示,比如LSA中的SVD + Low Rank Approximation等。
Clustering-based word Representation是进行Distributional Representation中的共现矩阵“变换”成一个个聚类。常见的模型有:brown clustering,HMM-LDA based POS and word segmentation等。
Distributed Representation在Section 3.1中已经讲到,现有的词向量表示都可以归到此类中,这类模型到现在已经提出了好几十种,主要是Feed Forward Neural Network based和Recurrent Neural Network based两大类。
在评测中包含有监督的评测任务:Chunking和NER,主要针对Brown Clustering和C&W,实验结果如下图:
Yanqing Chen在ICML-13上发表一篇评测现有Word Embedding的表达能力的论文,文中提到了四种公开发布的Word Embedding(HLBL,SENNA, Turian’s, Eric Huang’s)。文中基于的评测任务有(1)Sentiment:情感分析(两类情感);(2)Noun Gender:人名性别识别(Noun Gender);(3)Plurality:复数(英文)形式判定;(3)Synonyms and Antonyms:同义词反义词判定;(4)Regional Spellings:不同语种形式判定(UK vs. U.S.A.)
表4 评价任务示例
从上表中可以看出,每个任务可以描述为一个二分类问题,现在需要考虑的是如何构建分类的特征。
词向量数据集:SENNA(130,000 words 50 dimension)、Turian’s(268,810 words 25or50or100 dimension)、HLBL(246,122 words 50 or 100 dimensions)、Huang‘s(100,232 words 50 dimensions)
评测中采用了线性和非线性两类分类器,分别为Logistic Regression和SVM with RBF kernel。