2018 NLP

编程入门 行业动态 更新时间:2024-10-09 02:22:09

2018 <a href=https://www.elefans.com/category/jswz/34/1768817.html style=NLP"/>

2018 NLP

自然语言处理概述(前沿、数据集、下游任务)

ELMo(Embeddings from Language Models)是一种动态的,语境化的词向量表示方法,可以根据上下文语境来生成相应词的向量表示

ELMo通过深度双向语言模型(biLM)进行训练,主要解决了两个问题:
(1) 学习词汇用法的复杂特性,如语法和语义;
(2) 学习词汇不同语境下的一词多义性;

ELMo是一种动态词向量表示方法,其最终训练得到一个语言模型
ELMo模型从大规模语料上训练得到的深度双向语言模型(deep biLM)的内部状态学习得到,因此,ELMo的词向量表示是深度的,是biLM内部各层状态的线性组合,而非仅仅取LSTM的最后一层。

NLP 的巨人肩膀(下):从 CoVe 到 BERT

Encoder-Decoder(编码-解码)是深度学习中非常常见的一个模型框架,比如无监督算法的auto-encoding就是用编码-解码的结构设计并训练的;比如这两年比较热的image caption的应用,就是CNN-RNN的编码-解码框架;再比如神经网络机器翻译NMT模型,往往就是LSTM-LSTM的编码-解码框架。因此,准确的说,Encoder-Decoder并不是一个具体的模型,而是一类框架。Encoder和Decoder部分可以是任意的文字,语音,图像,视频数据,模型可以采用CNN,RNN,BiRNN、LSTM、GRU等等。所以基于Encoder-Decoder,我们可以设计出各种各样的应用算法。

Encoder-Decoder框架有一个最显著的特征就是它是一个End-to-End学习的算法;本文将以文本-文本的例子作为介绍,这样的模型往往用在机器翻译中,比如将法语翻译成英语。这样的模型也被叫做 Sequence to Sequence learning[1]。所谓编码,就是将输入序列转化成一个固定长度的向量;解码,就是将之前生成的固定向量再转化成输出序列

Attention Model
自注意力是为给整个句子所有的单词一定的权重,得到一定的关注。此处,引入self-attention层,当然是为了让每个单词在进行编码时,都能关注要句子的其他单词。
然后自注意力层的输出送到前馈神经网络,注意,这里每个单词对应的前馈神经网络都是一样的。

GPT:generative pre-train model
GPT的精髓可以说就是Transformer了,可惜的就是GPT采用的单向语言模型:
第一阶段:用语言模型做预训练,第二阶段通过fine-tuning的模式解决下游任务

从Seq2Seq,Attention,Transformer到ELMo,BERT,GPT-2(二)

更多推荐

2018 NLP

本文发布于:2024-03-05 21:51:54,感谢您对本站的认可!
本文链接:https://www.elefans.com/category/jswz/34/1713548.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文标签:NLP

发布评论

评论列表 (有 0 条评论)
草根站长

>www.elefans.com

编程频道|电子爱好者 - 技术资讯及电子产品介绍!