【PyTorch单点知识】torch.nn.Embedding模块介绍：理解词向量与实现|电子爱好者

admin管理员组
文章数量:1584365

文章目录

- - 0. 前言
  - 1. 基础介绍
  - - 1.1 基本参数
    - 1.2 可选参数
    - 1.3 属性
    - 1.4 PyTorch源码注释
  - 2. 实例演示
  - 3. `embedding_dim`的合理设定
  - 4. 结论

0. 前言

按照国际惯例，首先声明：本文只是我自己学习的理解，虽然参考了他人的宝贵见解及成果，但是内容可能存在不准确的地方。如果发现文中错误，希望批评指正，共同进步。

在自然语言处理(NLP)中，torch.nn.Embedding是PyTorch框架中一个至关重要的模块，用于将离散的词汇转换成连续的向量空间表示。这种转换允许模型捕捉词汇之间的语义关系，并在诸如情感分析、文本分类和机器翻译等任务中发挥关键作用。

本文将深入探讨torch.nn.Embedding的工作原理，并通过示例代码演示其在PyTorch中的使用。

1. 基础介绍

torch.nn.Embedding的本质是一个映射表（Lookup table），它用于储存自然语言词典和嵌入向量的映射关系。

1.1 基本参数

torch.nn.Embedding的初始化接受两个基本参数：num_embeddings和embedding_dim。

num_embeddings：这个参数直观理解为“要嵌入的自然语言的词汇数量”，表示上面所述的自然语言词典的大小，即可能的唯一词汇数量。比如英语中的常用单词，从abandon开始一共有3000个，那num_embeddings就可以设定为3000；
embedding_dim：表示每个词汇映射的嵌入向量的维度。

1.2 可选参数

padding_idx：用于指定词汇表中的填充词汇索引，该位置的向量将被初始化为零。
max_norm：用于限制嵌入向量的L2范数。
norm_type：用于指定范数类型。
scale_grad_by_freq：如果设置为True，则将梯度按词汇频率缩放。
sparse：如果设置为True，则将嵌入梯度标记为稀疏。

1.3 属性

torch.nn.Embedding 模块只有一个属性 weight。这个属性代表了嵌入层要学习的权重，即存储所有嵌入向量的矩阵。这是嵌入层的学习权重，形状为 (num_embeddings, embedding_dim)，也就是上文所说的lookup table映射表。这些权重代表实际的嵌入向量，它们是可学习的参数，并且在训练过程中会被优化算法更新。默认情况下，weight 是从标准正态分布 N(0, 1) 随机初始化的。这意味着每个元素都独立地从均值为 0、标准差为 1 的正态分布中采样。

1.4 PyTorch源码注释

以下是nn.Embedding的源码注释，用于上面说明的参考：

Args:
        num_embeddings (int): size of the dictionary of embeddings
        embedding_dim (int): the size of each embedding vector
        padding_idx (int, optional): If specified, the entries at :attr:`padding_idx` do not contribute to the gradient;
                                     therefore, the embedding vector at :attr:`padding_idx` is not updated during training,
                                     i.e. it remains as a fixed "pad". For a newly constructed Embedding,
                                     the embedding vector at :attr:`padding_idx` will default to all zeros,
                                     but can be updated to another value to be used as the padding vector.
        max_norm (float, optional): If given, each embedding vector with norm larger than :attr:`max_norm`
                                    is renormalized to have norm :attr:`max_norm`.
        norm_type (float, optional): The p of the p-norm to compute for the :attr:`max_norm` option. Default ``2``.
        scale_grad_by_freq (bool, optional): If given, this will scale gradients by the inverse of frequency of
                                                the words in the mini-batch. Default ``False``.
        sparse (bool, optional): If ``True``, gradient w.r.t. :attr:`weight` matrix will be a sparse tensor.
                                 See Notes for more details regarding sparse gradients.

    Attributes:
        weight (Tensor): the learnable weights of the module of shape (num_embeddings, embedding_dim)
                         initialized from :math:`\mathcal{N}(0, 1)`

    Shape:
        - Input: :math:`(*)`, IntTensor or LongTensor of arbitrary shape containing the indices to extract
        - Output: :math:`(*, H)`, where `*` is the input shape and :math:`H=\text{embedding\_dim}`

2. 实例演示

这里我将给出一个简单的例子来说明如何使用 PyTorch 的 torch.nn.Embedding 模块创建一个嵌入层，并获取一些单词的嵌入向量。

假设我们有一个小型的词汇表，包含以下单词：

“the”
“cat”
“dog”
“sat”
“on”
“mat”

我们将这些单词映射到索引上，例如：

“the” -> 0
“cat” -> 1
“dog” -> 2
“sat” -> 3
“on” -> 4
“mat” -> 5

现在我们可以创建一个 torch.nn.Embedding 层，将这些单词映射到嵌入向量中。我们将使用一个 3 维的嵌入向量来表示每个单词。

下面是具体的代码示例：

import torch
import torch.nn as nn

# 创建一个 Embedding 层
# num_embeddings: 词汇表的大小，这里是 6
# embedding_dim: 嵌入向量的维度，这里是 3
embedding = nn.Embedding(num_embeddings=6, embedding_dim=3)

# 定义一些单词的索引
word_indices = torch.LongTensor([0, 1, 2, 3, 4, 5])  # "the", "cat", "dog", "sat", "on", "mat"

# 通过索引获取嵌入向量
word_embeddings = embedding(word_indices)

# 输出嵌入向量
print(word_embeddings)

运行上述代码后，word_embeddings 将是一个形状为 (6, 3) 的张量，其中每一行代表一个单词的嵌入向量。

tensor([[ 0.0439,  0.7314, -0.3546],
        [ 0.6975,  1.2725,  1.4042],
        [-1.7532, -2.0642, -0.1434],
        [ 0.2538,  1.1123, -0.8636],
        [-0.7238, -0.0585,  0.5242],
        [ 0.6485,  0.6885, -1.2045]], grad_fn=<EmbeddingBackward0>)

例如，word_embeddings[0] 对应于单词 “the” 的嵌入向量，word_embeddings[1] 对应于单词 “cat” 的嵌入向量，以此类推。

这就是一个简单的英语单词嵌入向量的例子。在实际应用中，词汇表会更大，嵌入向量的维度也会更高，而且通常会使用预训练的嵌入向量来初始化这些权重。

3. `embedding_dim`的合理设定

通过上文说明，我们可以轻松地掌握nn.Embedding模块的使用，但是这里有个问题：embedding_dim设定为多少比较合适呢？

这里首先要说明下嵌入向量：它应该是代表单词“语义”的向量，而不是像one-hot那样是简单的字母映射。

举个例子：meet和meat两个词，拼写十分接近，即它们的one-hot编码十分接近，但是它们的语义完全不同，也就是说嵌入向量应该相差很远。而huge和enormous情况刚好相反，它们的one-hot编码完全不同，而嵌入向量应该比较接近。

那回到embedding_dim的设定选择上来，我觉得可以参考以下3个方面来设定比较合理的embedding_dim：

平衡信息量与过拟合风险
- 信息量: 较高的 embedding_dim 可以捕获更多的信息和细微差别，从而提高模型的表达能力。然而，这也可能会导致过拟合，因为高维空间容易出现稀疏性问题。
- 过拟合风险: 较低的 embedding_dim 可以减少参数数量，降低过拟合的风险，但可能会丢失一些信息。
考虑词汇表的大小
- 较小的词汇表: 如果词汇表相对较小（例如几千个词），较低的 embedding_dim（如 50 或 100）可能就足够了。
- 较大的词汇表: 对于较大的词汇表（例如几十万或更多），可以选择较高的 embedding_dim（如 200 至 500）以更好地捕捉语义信息。
实验验证
- 交叉验证: 最终的选择通常需要通过实验来确定。使用交叉验证来评估不同 embedding_dim 下的模型性能，可以帮助找到最佳值。
- 预训练嵌入: 如果有可用的预训练嵌入（如 Word2Vec、GloVe 或 FastText），可以考虑使用它们的维度作为参考。

一点点思考：在Embedding方法中，embedding_dim一般是要比num_embeddings小（很多）的，这会导致矩阵的秩不满，最终会导致Embedding方法中的单词可以通过线性变换变成另一个单词。比如把abandon的词向量×2得到get的词向量，而one-hot不会有这个问题，这是Embedding小小的局限性。

4. 结论

torch.nn.Embedding模块在PyTorch中为NLP任务提供了强大的工具，允许模型从词汇索引中学习有意义的向量表示。通过初始化和调用这个模块，我们可以轻松地将文本数据转换为适合深度学习模型的格式，从而挖掘文本数据中的丰富语义信息。

本文标签：单点向量模块知识 Pytorch

版权声明：本文标题：【PyTorch单点知识】torch.nn.Embedding模块介绍：理解词向量与实现内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://www.elefans.com/xitong/1727933446a1138659.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

【PyTorch单点知识】torch.nn.Embedding模块介绍：理解词向量与实现

文章目录

0. 前言

1. 基础介绍

1.1 基本参数

1.2 可选参数

1.3 属性

1.4 PyTorch源码注释

2. 实例演示

3. embedding_dim的合理设定

4. 结论

更多相关文章

ESP8266 WiFi模块和单片机，电脑连接

[职场] 使用CAD制图工作的优点 #职场发展#知识分享

使用Python制作一场坑爹的蓝屏(TK模块)

【可信计算】第六次课：可信平台控制模块（TPCM）

Metasploit密码爆破模块

交叉编译dropbear使能ssh登录以及rt3070wifi模块的移植使用

【Pytorch】安装指定的历史版本的torch和TorchVision

快速安装之前版本的pytorch（以1.8.0为例）

Wine零知识学习3 —— Winetricks介绍及下载和运行

三维空间中的旋转--旋转向量

计算机网络知识整理

Windows下安装pytorch的全过程，踩了不少坑（有cuda10.1和cudnn10.1的网盘链接）

搜索引擎系统———引擎模块（ssm三剑客项目）

《这就是搜索引擎-核心技术详解》简单梳理+一些知识图谱的知识

MySQL进阶知识

[C++基础]-入门知识_c++分布式

WLAN知识汇集

pytorch pt转onnx 以及 simpler—onnx方法（包含tensorrt文件转换）

深度学习如何恢复训练？中断的训练如何接着之前保存的 ckpt 参数继续训练？Pytorch-Lightning Trainer

历时8个月，10w字！前端知识体系+大厂面试笔记（工程化篇）

发表评论

推荐文章

Windows10和Ubuntu通过Samba服务共享的设置方法

Android 跑马灯效果实现的两种方式，解决和viewpager的冲突问题

百度网盘不限速方法，无需百度网盘SVIP，每天领5分钟不限速下载券

微软OfficeOneDrive设置自动云端备份文件 (类似WPS Office+免费)

【定时任务】cron表达式在线生成器怎么用？

热门文章

【CORS】跨域资源共享解决方案＜Access-Control-Allow-Origin＞

电脑技巧：电脑卡顿的4个优化小技巧，太有用了

【软路由】esxi 通过ping实现停电自动关机

小米智能摄像机自动同步到网盘（百度网盘、一刻相册、阿里云盘等）

RP9版本3686汉化包百度网盘地址

PPA格式Linux安装,Ubuntu12.04 用PPA安装fcitx和搜狗输入法附加组件Linux版

通过网页免费下载音乐（F12）

重磅！Google学术发布2019年最有影响力的7篇论文！

ChinaDaily----体育史上最重要的女性时刻之一

python -m bitsandbytes 报错显示CUDA Setup failed despite GPU being available.

最新文章

微信输入法v1.2.1.611纯净版：安全、高效、无广告的中文输入新体验

Ubuntu中文输入法：方便高效的输入体验

更好用计算机怎么打,电脑输入法哪个好用（最受欢迎的7大输入法对比详情）...

且用且珍惜，良心无广的4款软件，可惜很多人不知道

2个或2个以上路由器串联上网，在同一网段

手机上最好用的五笔输入法_远程输入法，用电脑键盘给手机打字，省蓝牙键盘钱了...

好用的中英文输入法总结

为什么微信输入法是比搜狗输入法更好的选择？

学校宿舍路由器只能登陆一个人的账号上网怎么办？

java虚拟路由器_DIY时代：自制宽带路由器上网

debian配置四叶草输入法

linux安装输入法

市面上哪款输入法最好用，对比出结论

路由器启动及密码设置

1200兆路由器网速_办个100M的网，买一个1200M的路由器回家，网速真的会变快吗？...

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

3. `embedding_dim`的合理设定

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载