研读论文报告-《Word Embedding andWordNet Based Metaphor Identification and Interpretation》（2018ACL）|电子爱好者

admin管理员组
文章数量:1609901

“论文主要研究的问题是识别并解释输入句子中的隐喻词，作者首次提出了一个支持机器翻译的无监督隐喻识别模型，无需任何预处理和标注数据即可进行训练。”

本次主要根据论文实现的论文的第四部分的如下图：

具体：程序步骤是给出一个英文句子，指定需要判断的目标单词，应用维基数据集训练词向量，得到所有英语单词的词向量（我写的程序可追加训练），给出一个英文句子，指定需要判断的目标单词，将句子中的单词分为上下文单词和目标单词。根据WordNet，查找目标单词的同义词和直接上位词，将这些单词以及他们的变形作为候选单词集合，根据论文公式计算每个候选词和上下文单词的均值向量的cos相似度，取使相似度最大的单词作为最接近的词X，然后再计算X与目标单词的cos相似度，根据是否大于论文中所说的阈值来判断隐喻性。阈值论文交代了为0.6。

python 2.7

需要装的包：gensim、numpy、nltk。

第一步要先把将下载的wiki预料压缩包转换为text格式。

gensim部分程序，包括第一步和利用gensim生成词向量程序参考了网上的例子。

# -*- coding: utf-8 -*-
from __future__ import print_function
import six
from gensim.corpora import WikiCorpus
import sys
reload(sys)
sys.setdefaultencoding('utf-8')


if __name__ == '__main__':
    inp = "enwiki-latest-pages-articles1.xml-p1p30303.bz2"
    outp = "out_wiki.en_new.txt"
    space = " "
    i = 0

    output = open(outp, 'w')
    wiki = WikiCorpus(inp, lemmatize=False, dictionary={})
    for text in wiki.get_texts():
        if(i % 1000 == 0):
            print("正在抽取第"+str(i)+"篇文章")
        if six.PY3:
            output.write(' '.join(text).decode('utf-8') + '\n')
        else:
            output.write(space.join(text) + "\n")
        i = i + 1
    output.close()

# -*- coding: utf-8 -*-
from gensim.models import Word2Vec
from smart_open import open
if __name__ == '__main__':
    input1 = "out_wiki.en_new.txt"
    output1 = "word2vec1.model"
    output2 = "vector1.model"

    sentences = []
    with open(input1, 'r') as f:
        for line in f:
            if " " in line:
                sentences.append(line.split(" "))

    model = Word2Vec(size=200, window=5, min_count=5, workers=4)  # 定义word2vec 对象
    print "正在建立训练集词典，请稍等……"
    #.sg=1是skip-gram算法，对低频词敏感；默认sg=0为CBOW算法。语料小（小于一亿词，约 500MB 的文本文件）的时候用 Skip-gram 模型，语料大的时候用 CBOW 模型

    model.build_vocab(sentences)  # 建立初始训练集的词典
    print "正在训练词向量，请稍等……"
    model.train(sentences, total_examples=model.corpus_count, epochs=model.iter)  # 模型训练
    print "正在训练模型，请稍等……"
    model.save(output1)  # 模型保存
    print "正在保存模型和词向量，请稍等……"
    model.wv.save_word2vec_format(output2, binary=False)  # 词向量保存
    print "完成！"

研读论文报告-《Word Embedding andWordNet Based Metaphor Identification and Interpretation》（2018ACL）

本文标签：报告论文 Embedding andWordNet Based

版权声明：本文标题：研读论文报告-《Word Embedding andWordNet Based Metaphor Identification and Interpretation》（2018ACL）内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://www.elefans.com/xitong/1728575848a1164458.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

研读论文报告-《Word Embedding andWordNet Based Metaphor Identification and Interpretation》（2018ACL）

更多相关文章

ssm基于JAVA的学生网上请假系统的设计与实现论文

游戏交易系统设计与实现（配置文件+论文+系统源码+数据库+调试）

ChatGPT论文润色指令

论文笔记AliMe KG: Domain Knowledge Graph Construction and Application in E-commerce

论文 | 知识图谱自动构建 Automatic Knowledge Graph Construction

论文笔记Multi-Modal Knowledge Graph Construction and Application: A Survey

MapTR：Structured Modeling and Learning for Online Vectorized HD Map Construction——论文笔记

2015年度中国智能路由器市场监测报告

CNCERT发布《2018年我国互联网网络安全态势报告》

【专题】2024年6月数字化行业报告合集汇总PDF分享（附原数据表）

高校网络设计与规划课程设计报告

看了几十篇轻量化目标检测论文扫盲做的摘抄笔记

论文表格制作

【时间序列】ICDE 2021丨时间序列相关研究论文汇总

笔记1（数据集介绍）-THE TUH EEG CORPUS: A Big Data Resource for Automated EEG Interpretation（论文）

可逆神经网络顶级会议论文汇总（2019-2021）

【论文】动态贝叶斯网络用于时序建模及动作分类

CVPR代码和论文链接目录大全

论文笔记：Interpretable Convolutional Neural Networks

CVPR2020论文和代码整理链接

发表评论

推荐文章

最新全国五级行政区划json文件下载链接 全国最新统计用区划代码和城乡划分代码使用指南

网页制作练习

123 张图详解 177 个计算机网络名词

定制office2007静默安装版

全面认识二极管，一篇文章就够了

热门文章

2020年用于Web应用程序开发的十大Node js框架21

Python 连接 ftp 服务器操作

wifi渗透流程整理笔记

Normal 、Loader、MaskRom三种模式有什么区别

系统学习深度学习（二十二）--CNN经典模型总结

可望不可及的开源：Google是如何逐步牢牢控制开源系统Android的？

excel自定义格式分钟计时_巧用EXCEL制作计时器

论文点云：基于深度学习的点云分类和切割

性能调优

【android免root脚本制作】基于控件的操作——auto.js进阶

最新文章

Win10自动关机设置无效解决方案

在 装的Qt commercial 4.6.0 时报错

Toad DBA Suite for Oracle 12.6 64-bit Commercial 简单连接

Intel Non-Commercial Software Download

Toad for Oracle 10.5.1 Commercial

电脑定时自动关机的多种实现方法

Toad for Oracle 10.5 Commercial

编译qt-win-commercial-src-4.3.0全过程。

java指令工具_jvm 指令工具 jcmd 命令（Java多功能命令行）

rpm 安装mysql的顺序_centos7 RPM方式安装MySQL5.7

计算机延时关机小程序,电脑自动关机小程序

Windows2000 server + Microsoft Visual Studio 6.0 + Qt-commercial4.22-src编译过程

每日论文推荐：我们距离GPT-4V有多远，最接近GPT-4V的开源多模态大模型

国际贸易术语(incoterms)

smartgit 授权文件 Free Trial License to Non-Commercial

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

如何通过treenode实现二叉树

最新全国五级行政区划json文件下载链接全国最新统计用区划代码和城乡划分代码使用指南

在装的Qt commercial 4.6.0 时报错

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载