词语表示方法及其相关应用.pptxVIP

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

词语表示方法简介ot表示方法PPMI矩阵表示基于SVD的表示方法基于神经网络的表示方法Menu

NLP中最直观,也是到目前为止最常用的词表示方法是One-hotRepresentation,这种方法把每个词表示为一个很长的向量。这个向量的维度是词表大小,其中绝大多数元素为0,只有一个维度的值为1(或者出现的次数),这个维度就代表了当前的词。“话筒”表示为[0001000000000000…]“麦克”表示为[0000000010000000…]One-Hot表示方法

这种One-hotRepresentation如果采用稀疏方式存储,会是非常的简洁:也就是给每个词分配一个数字ID。比如刚才的例子中,话筒记为3,麦克记为8(假设从0开始记)。词义鸿沟存在问题维度灾难One-Hot表示方法

01词语表示的向量长度等同于term表的长度02对于单词的表示,统计所有词语与该词语作为上下文时出现的次数03如要得到cat的单词向量04我们就统计cat和其他所有单词在局部上下文中的共现情况05假设cat和plays在语料中共现1000次06plays对应的维度是5507那么cat单词向量的第55维就是1000。PPMI矩阵表示

是一种和one-hot表示方法类似的稀疏表示方法01能够对于共现关系进行表示02同样存在维度爆炸的问题(英文单词有限,目前算力可以支持,跨语言时会出现维度爆炸问题)03PPMI矩阵表示

LSA/LSILSA(latentsemanticanalysis)潜在语义分析,也被称为LSI(latentsemanticindex)主要对词语-文档矩阵进行SVD,对一个t*d维的矩阵(单词-文档矩阵)X可以分解为U*D*Vt其中U为t*m维矩阵U中的每一列称为左奇异向量(leftsingularbector)D为m*m维对角矩阵,每个值称为奇异值(singularvalue)Vt为d*m维矩阵,每一列称为右奇异向量。

LSA/LSI

优点1低维空间表示可以刻画同义词,同义词会对应着相同或相似的主题。2降维可去除部分噪声,是特征更鲁棒。3充分利用冗余数据。4无监督/完全自动化。5与语言无关。6LSA/LSI

没有刻画term出现次数的概率模型。04SVD的计算复杂度很高,而且当有新的文档来到时,若要更新模型需重新训练。05缺点01特征向量的方向没有对应的物理解释。03LSA可以处理向量空间模型无法解决的一义多词(synonymy)问题,但不能解决一词多义(polysemy)问题。因为LSA将每一个词映射为潜在语义空间中的一个点,也就是说一个词的多个意思在空间中对于的是同一个点,并没有被区分。02LSA/LSI

类似于LSA/LSI,我们还可以对PPMI矩阵进行分解,使用SVD分解设term表大小为n,则矩阵为n*n大小的方阵然后使用SVD进行分解,分解为U*D*Vt然后使用U阵作为词语表示的信息共现矩阵分解

01特点02对于词语的共现频率有良好的支持03训练出的结果在近义词数据集上效果好(ws353等)共现矩阵分解

01Word2vec是Mikolov提出的词语表示模型02主要包含两个模型:03CBOW04Skip-gram05两个框架:06HierarchicalSoftmax(HS)07NegativeSampling(NS)Word2vec

Word2vec

NerualNetworkLanguageModel(NNLM)

Word2vec

NerualNetworkLanguageModel(NNLM)三层神经网络架构1输入层2投影层3输出层4输入单词使用one-hot编码5输入层是单词数*词向量大小的矩阵,保存词向量6投影层是将输入的映射后的向量用tanh激活7输出层使用softmax函数8训练目标:最大化下面的函数9

Word2vec

模型与NNRM非常类似,也是输入层,投影层和输出层三层CBOW模型主要用当前词的上下文预测当前词Skip-gram模型主要用当前词来预测上下文所以CBOW目标函数为Skip-gram目标函数为Word2vec

Word2vec

CBOW

Word2vec

CBOW输入层包含上下文中n个相关词的词向量,如我们选定n为2,则上下文长度为2,则会包含上文2个词和下文2个词的词向量投影层将输入的2n个词向量做累加,即输出层输出一颗二叉树,以语料中出现过的词作为叶子节点,以词语在语料中出现的次数作为权值构造出的Huffman树,叶子节点数N为term表的长度,非叶子节点为N-1个针对NNLM中隐藏层到输出层的计算以及softmax计算等计算复

文档评论(0)

SYWL2019 + 关注
官方认证
文档贡献者

权威、专业、丰富

认证主体 四川尚阅网络信息科技有限公司
IP属地四川
统一社会信用代码/组织机构代码
91510100MA6716HC2Y

1亿VIP精品文档

相关文档