一文彻底搞懂Embedding

  • 电脑网络维修
  • 2024-11-15

Word2Vec是一种宽泛经常使用的词嵌入(Word Embedding)技术, 它能够将单词示意为高维空间中的密集向量,从而捕捉单词之间的语义和语法相关。 Word2Vec重要蕴含两种模型:Skip-Gram(跳字模型)和CBOW(Continuous Bag of Words,延续词袋模型)。

Skip-Gram与CBOW模型的重要差异在于训练形式:Skip-Gram 经过核心词预测高低文词汇 ,相似于 “由点及面” 的裁减;而CBOW则是 应用高低文词汇预测核心词 ,相似于 “由面定点” 的填充。 前者器重于从部分到全体的推理,后者则强调全体对部分的反映。

一、Word2Vec

一种基于神经网络的词嵌入技术,它的指标是将单词映射到实数向量空间中,使得语义相似的单词在向量空间中的距离较近。 这种映射是经过在大规模文本语料库上训练神经网络模型来成功的。 Word2Vec经过学习单词的共现消息,能够在向量空间中模拟出无心义的语义相关,似乎义词、反义词等。

实质是一个神经网络模型,目的是经过模型训练学习失掉一个矩阵(Matrix C),一个示意词与词之间关联相关的矩阵。

二、Skip-Gram

Skip-Gram(跳字模型):Skip-Gram模型经过给定的核心词来预测其高低文中的单词。详细来说,关于文本中的每一个单词,Skip-Gram模型将其视为核心词,并尝试预测该词周围必定窗口大小内的其余单词(即高低文单词)。

Skip-Gram模型似乎一个词汇侦探,经过核心词“线索”去“追踪”并预测其周围的高低文词汇,以此构建词汇间的语义网络。

Skip-Gram模型训练: 经过遍历文本中的核心词及其高低文,经常使用核心词词向量预测高低文单词散布,计算预测与实在散布间的损失,并应用反向流传降级模型参数与词嵌入矩阵,以提升词向量示意。

三、CBOW

CBOW(延续词袋模型): CBOW(Continuous Bag of Words,延续词袋模型)与Skip-Gram雷同,CBOW模型 经过给定的高低文单词来预测核心词 。详细来说,关于文本中的每一个核心词,CBOW模型会将其周围必定窗口大小内的其余单词(即高低文单词)作为输入,并尝试预测该核心词。

CBOW模型相似于一个初级的完型填空游戏,其中高低文中的词汇(已知选项)被用来“填空”预测出缺失的核心词(答案),从而提醒词汇间的语义咨询和形式。

CBOW模型训练: 经过遍历文本中的核心词及其高低文,经常使用核心词词向量预测高低文单词散布,计算预测与实在散布间的损失,并应用反向流传降级模型参数与词嵌入矩阵,以提升词向量示意。

原文链接:​ ​​ ​​

  • 关注微信

本网站的文章部分内容可能来源于网络和网友发布,仅供大家学习与参考,如有侵权,请联系站长进行删除处理,不代表本网站立场,转载联系作者并注明出处:https://duobeib.com/diannaowangluoweixiu/5609.html

猜你喜欢

热门标签

洗手盆如何疏浚梗塞 洗手盆为何梗塞 iPhone提价霸占4G市场等于原价8折 明码箱怎样设置明码锁 苏泊尔电饭锅保修多久 长城画龙G8253YN彩电输入指令画面变暗疑问检修 彩星彩电解除童锁方法大全 三星笔记本培修点上海 液晶显示器花屏培修视频 燃气热水器不热水要素 热水器不上班经常出现3种处置方法 无氟空调跟有氟空调有什么区别 norltz燃气热水器售后电话 大连站和大连北站哪个离周水子机场近 热水器显示屏亮显示温度不加热 铁猫牌保险箱高效开锁技巧 科技助力安保无忧 创维8R80 汽修 a1265和c3182是什么管 为什么电热水器不能即热 标致空调为什么不冷 神舟培修笔记本培修 dell1420内存更新 青岛自来水公司培修热线电话 包头美的洗衣机全国各市售后服务预定热线号码2024年修缮点降级 创维42k08rd更新 空调为什么运转异响 热水器为何会漏水 该如何处置 什么是可以自己处置的 重庆华帝售后电话 波轮洗衣机荡涤价格 鼎新热水器 留意了!不是水平疑问! 马桶产生了这5个现象 方便 极速 邢台空调移机电话上门服务 扬子空调缺点代码e4是什么疑问 宏基4736zG可以装置W11吗 奥克斯空调培修官方 为什么突然空调滴水很多 乐视s40air刷机包 未联络视的提高方向 官网培修 格力空调售后电话 皇明太阳能电话 看尚X55液晶电视进入工厂形式和软件更新方法 燃气热水器缺点代码

热门资讯

关注我们

微信公众号