Skip-Thought Vectors阅读笔记|电子爱好者

admin管理员组
文章数量:1564680

论文原文	Skip-Thought Vectors
论文信息	NIPS2015
个人解读	Wang & Hytn Chen
更新时间	2020-02-17

句子表示简介

句子分布式表示：将一句话用固定长度的向量进行表示，向量往往高维，因此也可看作将一句话嵌入进高维空间中去，也叫做句嵌入，让句子的语义更准确地编码到有限维的向量中，在向量子空间中保持句子的语义关系，更好地利用语言模型以及无监督上下文信息。

BERT出来之后，句表示领域就很少出来工作了，而这篇文章是BERT借鉴的一篇工作。

早期一点的句表示值得一提的是TF-IDF，中心思想是认为一句话每一个词对于这句话的语义都是有不同程度的贡献的，因此有了权重的概念，那么在已经有词向量的基础上如何通过计算每个词适合的权重，加权求和得到句表示呢？由此就引入了TF-IDF方法，TF代表词频，IDF代表逆文件频率指数，通过这两个特征来计算得出权重，从而得到句表示。

基于神经网络的句表示之前的阅读笔记中已经提及，在此不多加赘述。

基于复述句匹配的句表示，其训练的中心思想就是两句话互为复述句的话句向量应该更加相似，不为复述句的话句向量之间的距离应该更加远。复述句的训练集很容易获取，通过一个已训练好的翻译模型，将翻译结果和标签就可以当做一对复述句。

这里总结一下，上面的种种模型有什么优缺点呢？

基于语言模型的句表示

优点就是利用词与词的共现信息可以抓取到一部分特征，无监督的语料更加降低了成本，但缺点是词与词之间的共现信息还是太片面太模糊了，仅仅抓取这样的信息是不准确不够智能的，而且并未使用句与句之间的语义联系来做一些什么。

基于复述句对的句表示

优点是建模了句对之间的相似性关系，通过这个关系来训练模型，同时训练集的获取成本也低。但是缺点就是仅仅建模了相关性，相似性也还是比较偏面。

当时的skip-gram训练词向量的时候，主导的思想就是，要想了解一个词应该去了解它的上下文到底是什么。而skip thought的中心思想就是认为，当前句子总是会与其上下句之间存在语义联系的，那么就可以利用这样的语义联系来预测上下文的句子，就像skip-gram做的那样。

而skip thought的主要目标就是解决这样一个问题：如何利用大规模无监督语料来完整建模句子间的关系？

skip thought模型

模型简图如下所示：

编码器就是GRU，拿到最后时刻的隐层状态作为当前句子的表示。而解码器也是GRU，与编码器不同的是，在编码器已经得到中间句语义信息的时候，解码器要把这个信息融入进decoder中。原始GRU的原理图如下

对GRU原理理解之前，先看看LSTM的原理。在此不多赘述，其公式如下
r t = σ ( W r x t + U r h t − 1 ) z t = σ ( W z x t + U z h t − 1 ) h ‾ t = tanh ⁡ ( W x t + U ( r t ⊙ h t − 1 ) ) h t = ( 1 − z t ) ⊙ h t − 1 + z t ⊙ h ‾ t \begin{aligned} \mathbf{r}^{t} &=\sigma\left(\mathbf{W}_{r} \mathbf{x}^{t}+\mathbf{U}_{r} \mathbf{h}^{t-1}\right) \\ \mathbf{z}^{t} &=\sigma\left(\mathbf{W}_{z} \mathbf{x}^{t}+\mathbf{U}_{z} \mathbf{h}^{t-1}\right) \\ \overline{\mathbf{h}}^{t} &=\tanh \left(\mathbf{W} \mathbf{x}^{t}+\mathbf{U}\left(\mathbf{r}^{t} \odot \mathbf{h}^{t-1}\right)\right) \\ \mathbf{h}^{t} &=\left(1-\mathbf{z}^{t}\right) \odot \mathbf{h}^{t-1}+\mathbf{z}^{t} \odot \overline{\mathbf{h}}^{t} \end{aligned} rtzththt=σ(Wrx

本文标签：笔记 SKIP Thought Vectors

版权声明：本文标题：Skip-Thought Vectors阅读笔记内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://www.elefans.com/xitong/1726875794a1088333.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

Skip-Thought Vectors阅读笔记

句子表示简介

skip thought模型

更多相关文章

汇编语言笔记-keil5软件仿真及调试

web安全测试用例(网络资源笔记)

乐优商城笔记-商城系统功能编写

P-1(全)web前端HTML5andCSS笔记

联盛德W801系列5-微信小程序与W801蓝牙通信例程(阅读笔记)

bt服务器搭建 linux_CentOS 4.5 下搭建BT下载服务器安装笔记

统信UOS系统开发笔记（八）：在统信UOS上编译搭建mqtt基础环境(版本使用QMQTT::Client)

Youtube ASX Portfolio的视频笔记 What is a Quant? - Financial Quantitative Analyst

VDI（Virtual Desktop Infrastructure）云桌面使用笔记

模拟器抓包(加密与解密笔记)： Charles 04 弱网模拟的测试+手机抓包

【笔记】H5跳转手机应用商店（指定应用页第三方应用商店）

html，css笔记

剑眉大侠的提权笔记

调研笔记01-认知无线网络（Cognitive Radio Ad Hoc Networks）或者车联网（VANETs）下的频谱感知和频谱共享研究

论文笔记与源码阅读：《Cognitive Graph for Multi-Hop Reading Comprehension at Scale》

Cognitive Graph for Multi-Hop Reading Comprehension at Scale论文泛读笔记

Cognitive Mapping and Planning for Visual Navigation 笔记

[RK3288][Android7.1] 调试笔记 --- 设置第三方输入法为默认输入法

“BRECQ: PUSHING THE LIMIT OF POST-TRAINING QUANTIZATION BY BLOCK RECONSTRUCTION”笔记

Clonezilla 再生龙 U盘 安装笔记

发表评论

推荐文章

APP应用平台有哪些？

MyEclipse快捷键

七款无广告不骚扰输入法

noi linux硬盘启动,硬盘U盘启动noi linux（ubuntu7.10 for noip）

云电脑可以做渲染吗？

热门文章

应用宝shangjia安全评估报告_《安全评估报告》提交指引

writing Typecho Plugin记录

Win10有哪些版本？有什么区别？如何选择Win10版本

我是如何使用python控制迅雷自动下载电影的?

linux与pe到移动硬盘,将PE放入移动硬盘的简单方法&amp;几点疑问-已解决(转自深

Ventoy启动U盘安装使用简介

Linux基础（二）：文件系统、文件存储结构

linux安装google浏览器

打印机共享（一台打印机连接多台设备进行远程打印）

计算机如何实现共享接入,局域网内电脑实现共享设置方法

最新文章

linux 怎么关闭输入法快捷键设置方法,关闭输入法快捷键

win10自带输入法导入其他词库

kali安装输入法

kail linux--安装中文输入法

centos7中文输入法

两个port贴合七夕主题，百度输入法的“情感营销”策略

树莓派中文输入法安装

解决Mac版百度五笔删除&quot;百度拼音&quot;电脑重启后输入法菜单中还存在的原因及解决办法

UBUNTU输入法安装后乱码

rk android10.1 默认输入法 百度tv输入法

百度拼音输入法2014官方版

windows10 出现重命名文件名字,百度无法弹出输入法的解决方法

Manjaro安装输入法

android 外接键盘 五笔 百度输入法

用百度输入法的用户体验

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

如何通过treenode实现二叉树

Clonezilla 再生龙 U盘安装笔记

linux与pe到移动硬盘,将PE放入移动硬盘的简单方法&几点疑问-已解决(转自深

解决Mac版百度五笔删除"百度拼音"电脑重启后输入法菜单中还存在的原因及解决办法

rk android10.1 默认输入法百度tv输入法

android 外接键盘五笔百度输入法

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载