admin管理员组文章数量:1566624
HIBRIDS: Attention with Hierarchical Biases
for Structure-aware Long Document Summarization [pdf]
- 论文状态:被ACL22接收
- 作者:University of Michigan的 Shuyang Cao 和 Lu Wang
- TL;DR: 本文用相对关系矩阵为transformer引入文档结构信息,进而提升长文档摘要的效果,并介绍了一个新的任务:结构化"问题-摘要对"生成.
1. Motivation
文档的结构对于摘要是很重要的信息,如何有效地给摘要模型加入结构信息是一个有趣的问题.
受到自顶向下知识学习的启发:人们是从问宽泛的问题开始学习整体知识,再深入到细节中学习的.
于是作者提出一个新任务:给定一个文档,自动生成问题和摘要,并把"问题-摘要对"排列成文档的类似结构.
2. Contribution
- 发明了一种有效地给摘要模型提供源文档结构信息的方法:相对位置矩阵
- 发布了一个新的摘要任务: 生成"问题-摘要对",从中提取文档的结构信息
3. Model
作者构建文档的结构树,用一个矩阵 B B B,引入了2个值来表示树结构:
- PathLen(x,y):章节x与y之间路径的长度
- LvlDiff(x,y): x与y在树中深度(到root的距离)的差异
对应的图:
作者以这个树结构矩阵
B
B
B为查询表,为transformer的attention计算方式提供额外的结构信息.
对于encoder, 给定i号查询
q
i
q_i
qi和由输入的n个token的key组成的矩阵
K
K
K
更改self-attention机制为:
a
i
j
=
s
o
f
t
m
a
x
(
q
i
K
T
+
b
i
)
j
b
i
=
[
b
i
1
,
b
i
2
,
.
.
.
,
b
i
n
]
a_{ij} = softmax(q_iK^T + b_i)_j \\ b_i = [b_{i1},b_{i2},...,b_{in}]
aij=softmax(qiKT+bi)jbi=[bi1,bi2,...,bin]
其中,bias项的计算方式是查表:
b
i
j
=
B
[
PathLen
(
i
,
j
)
,
LvlDiff
(
i
,
j
)
]
b_{ij}=B[\text{PathLen}(i,j),\text{LvlDiff}(i,j) ]
bij=B[PathLen(i,j),LvlDiff(i,j)]
此外,作者还对decoder进行了设计,引入结构信息.
4. Experiments
数据的来源是GOVREPORT摘要数据集,里面是政府的报告和摘要,很长,源文档平均长度为9409,摘要平均长度为553.
作者请了11个大学生来在GOVREPORT数据集的基础上标注,标注者会根据每个摘要段落创造结构化的问题,并只能选择摘要句子作为答案.
作者的结构化"问题-摘要对"生成分了3个任务:
- QSGen-Hier: 给定对齐的文档和根问题,生成一个能回答问题且有结构的摘要.
- QSGen-ChildQ: 给定一个"问题-摘要对"和对齐的文档章节,生成所有的子问题.
- Full Summary Generation: 生成整个长文档的摘要.
作者采用的摘要模型是Longformer,窗口长度设置为1024,在此基础上加入结构信息.
最后的实验表明,只在encoder里加结构信息貌似是最能帮助摘要生成的.
5. Key takeaways
- 可以通过PathLen与LvlDiff构建矩阵,表示树中节点之间的相对位置关系.
- 可以直接用查相对位置表的方式给Transformer引入结构信息.
本文标签: 笔记HierarchicalBiasesHIBRIDSStructure
版权声明:本文标题:[ACL22] HIBRIDS:Hierarchical Biases for Structure-aware Long Document Summarization 阅读笔记 内容由热心网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:https://www.elefans.com/dongtai/1725840844a1044996.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论