【中文金融事件抽取】DCFEE: A Document-level Chinese Financial Event Extraction System ...|电子爱好者

admin管理员组
文章数量:1564631

Motivation：

因为都是基于监督学习方法，所以特定领域没有足够的标签数据；
大部分事件抽取方法都是局限于句子级别的，而事件通常都是在一个文档中用多个句子表达的。

Contributions

提出一个文档级别的中文金融事件抽取系统（ECFEE），该系统可以：

自动生成大规模标签数据；
从全篇文档中抽取事件。

DCFEE，尝试通过使用远程监督（DS）来生成EE数据并进行两阶段提取：

用于SEE的序列标注模型
用于检测关键事件句子的关键事件句子检测模型，以及启发式策略，用于填充DEE的周围句子中缺少的论元。

文章目录

- 1. 介绍
- - 1.1 基本概念
  - 1.2 中文金融领域EE的挑战
  - 1.3 文章贡献
- 2.方法
- - 2.1 数据生成
  - - 2.1.1 数据来源
  - 2.1.2 数据生成方法
- 2.3 事件抽取（EE）
- - 2.2.1 句子级事件抽取（SEE）
  - 2.2.2 文档级事件抽取（DEE）
  - - 关键事件检测
    - 论元补全策略
- 3 评估
- - 3.1 数据集
- 4 ECFEE的应用
- 6 结论
- 问题：

1. 介绍

1.1 基本概念

事件抽取（Event Extraction, EE）：发现文中事件提及(event mentions)，并抽取出事件。

名词解释：
事件提及：有提到事件的句子。这种句子一般包括明显的事件触发词(event triggers)和事件论元(event arguments)。
事件触发词：能够最清楚地表示一个事件发生的词。
事件论元：在事件中扮演特定角色的实体。

事件抽取的作用：
有利于构建NLP应用，如：

信息抽取（IE）
问答（QA）
摘要

1.2 中文金融领域EE的挑战

缺乏数据：大部分EE方法都是依赖于监督学习，依赖于人工标注的数据，而中文金融领域则没有标注数据。
文档级EE：大部分事件抽取方法都是局限于句子级别的，而事件通常都是在一个文档中用多个句子表达的。

1.3 文章贡献

提出DCFEE框架：可以自动生成大规模标签数据并且从财经报告中抽取文档级事件
为事件抽取引入了自动标记数据的方法，并且给出了一系列构建中文金融事件数据集的实用性建议。
DCFEE已经成功搭建为在线应用，可以用来从金融报告中快速抽取事件。

2.方法

DCFEE框架预览：

如图2中，就是DCFEE框架，该框架主要包括2部分：

数据生成模块：使用远程监督(DS)对全篇文档（文档级数据）中的事件提及，以及对事件提及（句子级数据）的触发词和论元进行标注。
事件抽取系统：包含基于句子级标签数据的句子级事件抽取（SEE）；以及基于文档级标签数据的文档级事件抽取（DEE）。

2.1 数据生成

标签数据生成框架如下图：

2.1.1 数据来源

主要有两种数据来源：

金融事件知识库（结构化数据）：包括9种一般金融事件类型和关键的事件论元。如图3中表格第一栏，NAME、ORG等。
企业发出的金融公告（非结构化文本数据）

2.1.2 数据生成方法

假设包含事件触发词和大部分事件论元的句子有可能是事件提及。

标记触发词：对于每种金融事件，构建一个事件触发词词典。因此触发词可以通过查询预定义的词典来进行标记。
通过这些预处理，结构化数据可以映射到公告中的事件论元。因此，我们可以自动识别事件提及并标记事件触发词和其中包含的事件论元，以生成句子级别的数据，如图3底部所示。
事件提及自动标记为正例，剩余部分被标记为负例，以组成文档级数据。如图3中右边。
句子级数据和文档级数据共同组成EE系统要求的训练数据。

小结：识别事件触发词 → 识别事件提及和论元（句子级） → 标记事件提及，组合为文档级数据。

Tips
数据标记中存在的挑战：金融公告和事件知识库的对应；事件论元的歧义和缩写。
建议：
i.减小搜索空间：通过检索关键事件参数（例如公告的发布日期和股票代码），可以减少候选公告的搜索空间。
ii.正则表达式：通过正则表达式可以匹配到更多的事件论元，提高标注数据的召回率。例如LONCIN CO LTD (Role=Shareholder Name)在金融事件数据库中，但是LONCIN在公告中。我们可以通过正则表达式来解决这个问题，并将LONCIN标记为事件论元。
iii.规则：一些任务驱动的规则可用于自动标注数据。例如，我们可以通过计算 2017-02-23 (Role=Pledging Start Date) 和2018-02-23(Role=Pledging End Date)之间的间隔标记出12 months (Role=Pledging End Date)

2.3 事件抽取（EE）

本论文的事件抽取系统的整体架构如图4：

主要包含两部分：句子级事件抽取（SEE，从句子中提取出发词和论元）和文档级时间抽取（DEE，旨在基于关键事件检测模型和论元补全策略从整个文档中提取事件参数。）

2.2.1 句子级事件抽取（SEE）

把SEE 作为序列标注任务，使用句子级标记数据作为训练数据。对于每一个角色（事件触发词，事件论元和其他）使用BIO标注。这里使用Bi-LSTM-CRF模型进行标注。
得益于双向长短记忆（Bi-LSTM）组件，它可以有效地使用过去和未来的输入功能，并且还可以通过条件随机场（CRF）层使用句子级标记信息。

实现方式在图4左侧。句子中的每个字都被表示为向量输入到Bi-LSTM层，Bi-LSTM层的输出为每个字符的得分。CRF层用来克服标签偏置问题。SEE最终为文档中的每个句子返回句子级事件抽取的结果。

2.2.2 文档级事件抽取（DEE）

文档级事件抽取由两部分组成：关键事件检测模型（发现文档中的事件提及）和论元补全策略（补全缺失的事件论元）

关键事件检测

如图4中右上角部分。即下图：

事件检测的输入由两部分组成：

SEE输出的事件论元和事件触发词的表示（蓝色部分）
当前句子的向量表示（红色部分）

这两部分连接起来作为卷积神经网络（CNN）层。然后当前句子就被分为两类（是关键事件或者不是）。

小结：使用CNN进行文本分类。

论元补全策略

通过DEE获得了关键事件（该事件包含大部分论元），通过SEE获得每个句子的事件抽取结果。
问题：事件信息不完全。
方法：论元补全策略，从上下文自动补全缺失的事件论元。
如下图，Pledge事件包含在事件提及 S n S_n Sn，从 S ( n + 1 ) S_(n+1) S(n+1)句子中获得12月这一论元。

3 评估

3.1 数据集

有4种金融事件：
Equity Freeze(EF) event：股票冻结事件
Equity Pledge(EP) event：股权质押事件
Equity Repurchase (ER) event：股权回购事件
Equity Overweight (EO) event：股权增持事件
通过自动生成数据，共标记了 2976 个公告。我们将标记数据分为三个子集：训练集（占公告总数的 80%）、开发集（10%）和测试集（10%）。

表 1 展示了数据集的统计数据。
NO.ANN :每个事件类型可以自动标记的公告数量。
NO.POS: 正案例句子的总数（提及事件）。
NO.NEG:负例句子的数量。
正负例句子构成文档级数据，作为DEE的训练数据。

4 ECFEE的应用

中文财务文本的在线EE服务。它可以帮助财务专业人员从财务公告中快速获取事件信息。图5显示了在线DCFEE系统的屏幕截图。不同的颜色词代表不同的事件参数的类型，带下划线的句子代表文档中提到的事件。

6 结论

论文介绍了DCFEE，该框架能够基于自动标记的数据从中国财务公告中提取文档级事件。实验结果表明了该系统的有效性。我们成功地将系统联机，用户可以通过它快速从财务公告中获取事件信息9。

问题：

没能解决multi-event问题，即一文档多事件的问题。
与上下文无关的论元补全策略无法有效解决论元分散的挑战。

本文标签：中文事件金融 Document DCFEE

版权声明：本文标题：【中文金融事件抽取】DCFEE: A Document-level Chinese Financial Event Extraction System ... 内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://www.elefans.com/xitong/1727384100a1112219.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

【中文金融事件抽取】DCFEE: A Document-level Chinese Financial Event Extraction System ...

文章目录

1. 介绍

1.1 基本概念

1.2 中文金融领域EE的挑战

1.3 文章贡献

2.方法

2.1 数据生成

2.1.1 数据来源

2.1.2 数据生成方法

2.3 事件抽取（EE）

2.2.1 句子级事件抽取（SEE）

2.2.2 文档级事件抽取（DEE）

关键事件检测

论元补全策略

3 评估

3.1 数据集

4 ECFEE的应用

6 结论

问题：

更多相关文章

基于金融行业的软件测试分析

TortoiseSVN (Subversion客户端) 使用手册(中文) （四）

用VS2010英文版开发环境 制作中文安装包 注意事项

onlyoffice开发java_OnlyOffice二次开发探索(J2EE)-Go语言中文社区

FreeCAD是什么、如何下载（windows+0.18.4版本）和安装以及中文设置

Autocad2017破解版下载|Autodesk Autocad 2017中文破解版下载 64位(附注册机序列号)

腾讯云携手招联金融成立联合实验室，首枪瞄准仿冒App识别

batocera 完整包_Batocera Plus 2.0 中文整合版bt下载 8G和150G

关于使用C#调用Win32API,抓取第三方句柄,模拟鼠标点击,键盘发送事件(C2Prog.exe)

Socket.IO 中文文档 概述部分

FL Studio21最新中文破解进阶高级完整版安装下载教程

用火狐浏览器下载中文文件名的文件乱码及其解决

浏览器关闭、刷新、关闭标签事件，兼容IE8,chrome,firefox

第五章第三十题（金融应用：复利值）(Financial application: compound value)

第二章第二十一题（金融应用：计算未来投资回报）(Financial application: calculate future investment value)

金融领域文档级别事件抽取-Doc2EDAG: An End-to-End Document-level Framework for Chinese Financial Event Extract

chrome浏览器手机版怎么设置中文

医疗金融法律大模型：从ChatDoctor到BloombergGPTFinGPTFinBERT、ChatLawLawGPT_zh

谷歌浏览器无法登录网络教育网站，输入用户密码点击无反应，事件

谷歌浏览器Chrome离线安装包中文官网下载方法

发表评论

推荐文章

iOS程序破解:获取应用商店上应用的ipa程序包

配置 Everything 使HTTP搜索生效，通过手机浏览器搜索访问计算机文件

tl-wn821n无线网卡驱动 linux,tl-wn821n win10驱动

整理一下自己对制作windows启动U盘和安装windows的笔记

安装与卸载MySQL的详细步骤

热门文章

服务器运行功率 与额定功率 比例,看完变大神 几招轻松教你看懂电源铭牌

clover更新驱动 后不能开机_黑苹果Clover配置工具：Clover Configurator v5.15.0.1

组策略 计算机 用户账户控制,Win10系统总是弹出用户账户控制提示&quot;是否允许程序修改计算机&quot;的解决方法...

打开手机内置浏览器 H5 uniapp ..皆可用

苹果手机输入法软件测试,苹果手机三款输入法谁更牛？专业媒体评测后给出结果...

重装Windows 11

谷歌浏览器自动登录怎么设置

零基础入门chrome浏览器扩展插件开发教程

padavan支持惠普打印服务器,[分享]Padavan打印机共享，电脑和手机上添加，亲测通过！...

java.exe 0xc000012d_应用程序无法正常启动0xc000012d，此情况要怎么解决，望大神交一交...

最新文章

百度输入法下载|百度拼音输入法下载

关于卸载百度输入法

百度手机输入法自定义码表

对小米版百度输入法的认知

【技术贴】百度输入法老皮肤下载|百度输入法老的默认皮肤|百度皮肤下载

日均语音请求量突破10亿次，百度输入法的又一个起点

对百度输入法的使用体验

python如何设置搜狗输入法中英文切换_2020秋季报告：手机输入法AI时代来临，百度输入法优势明显...

百度输入法 v3.25 for android,【图片】【3.25皮肤更新】LeoStyleHD布局全键盘双键中英9键双拼23键【百度手机输入法吧】_百度贴吧...

感觉百度输入法好于搜狗输入法

WPF与输入法冲突研究之一：百度输入法会导致WPF程序的崩溃！

百度输入法、QQ 浏览器竟都在窃取用户隐私？

linux系统输入法软件下载,百度输入法Linux版

百度输入法在开始菜单中无法切换为中文输入

手机百度输入法环境:android 1.6,百度手机输入法Android 5.1版—新增粤语语音输入...

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

用VS2010英文版开发环境制作中文安装包注意事项

Socket.IO 中文文档概述部分

服务器运行功率与额定功率比例,看完变大神几招轻松教你看懂电源铭牌

clover更新驱动后不能开机_黑苹果Clover配置工具：Clover Configurator v5.15.0.1

组策略计算机用户账户控制,Win10系统总是弹出用户账户控制提示"是否允许程序修改计算机"的解决方法...

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载