标点恢复

编程入门 行业动态 更新时间:2024-10-17 02:53:41

<a href=https://www.elefans.com/category/jswz/34/1714940.html style=标点恢复"/>

标点恢复

Incorporating External POS Tagger for Punctuation Restoration

标点恢复是自动语音识别中一个重要的后处理步骤,使得输出的文本加入标点符号更充分表达语义信息。这篇论文中标点恢复结合了词性标注信息使得模型有更好的效果。
亮点
(1)加入词性标注,并将词性标签融合到模型中
(2)提出序列边界采样(SBS)来更有效地学习标点位置作为序列标记任务
标点恢复任务可以看作一个序列标注任务。

模型


模型分为两个部分,左边部分是一个加载预训练语言模型得到的特征表示,右边部分是 P O S T a g g e r POS ~Tagger POS Tagger得到每一个token的词性的embedding 特征,最后将得到的特征进行拼接经过 F u s i o n L a y e r L Fusion~Layer~L Fusion Layer L和 S o f t m a x L a y e r S Softmax ~Layer~S Softmax Layer S得到最后的标点符号。这里实际上是一个序列标注问题。

Fusing POS tags into LM representations

(1) LM representations
一个长度为 n n n的文本 X X X经过预训练模型表征得到隐藏状态 H H H,这里预训练模型模型用 F F F表示
H = F θ ( X ) ∈ R n × d H = F_{\theta}(X)\in\boldsymbol{R}^{n \times d} H=Fθ​(X)∈Rn×d
(2) Fusing POS tags
加载词性标注预训练模型 F W F_{W} FW​得到 X X X中的每一个token的词性标注结果 T ^ \hat{T} T^
T ^ = F W ( X ) ∈ R n \hat{T} = F_{W}(X)\in \boldsymbol{R}^{n} T^=FW​(X)∈Rn
其中 W ∈ R b × e W\in\boldsymbol{R}^{b\times e} W∈Rb×e 是 S o f t m a x L a y e r W Softmax ~Layer W Softmax LayerW, b b b是embedding size, e e e是词性的tag数量。 S o f t m a x L a y e r W Softmax~Layer~W Softmax Layer W得到 P O S T a g g e r POS Tagger POSTagger的embedding特征,简单来说,初始话一个embedding矩阵,我们使用 T ^ \hat{T} T^中的元素来查找 W W W 中的对应列,并形成 POS 嵌入 E ∈ R n × b E\in\boldsymbol{R}^{n\times b} E∈Rn×b
(3) Self-attention Fusion Layer L
将 H H H和 E E E进行拼接得到 C ∈ R n × ( b + d ) C\in\boldsymbol{R}^{n\times(b+d)} C∈Rn×(b+d),采用self-attention 多头encode layer L γ L_{\gamma} Lγ​高效的表征 C C C,最后加一层 S o f t m a x L a y e r S S η Softmax~Layer~S~S_{\eta} Softmax Layer S Sη​得到标点符号
tags Y ^ \hat{Y} Y^
Y ^ = S η ( L γ ( C ) ) \hat{Y} = S_{\eta}(L_{\gamma}(C)) Y^=Sη​(Lγ​(C))
其中 γ \gamma γ和 η \eta η表示相关的参数。

Sequence boundary sampling

由于原始 ASR 输出中的句子边界不明确,因此整个训练集的原始输出可以被视为连续的词流。 由于内存限制,它必须被截断以与最大序列长度 L 对齐。

实验结果

(1)数据标注格式
这里采用序列标注任务的格式进行标注

it	O
can	O
be	O
a	O
very	O
complicated	O
thing	COMMA
the	O
ocean	PERIOD
and	O
it	O
can	O
be	O
a	O
very	O
complicated	O
thing	COMMA
what	O
human	O
health	O
is	PERIOD
and	O
bringing	O
......

(2)实验结果

如有错误,欢迎大家指证。

更多推荐

标点恢复

本文发布于:2024-03-08 16:04:44,感谢您对本站的认可!
本文链接:https://www.elefans.com/category/jswz/34/1721379.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文标签:标点

发布评论

评论列表 (有 0 条评论)
草根站长

>www.elefans.com

编程频道|电子爱好者 - 技术资讯及电子产品介绍!