标点恢复

编程入门行业动态更新时间:2024-10-17 02:53:41

标点恢复

Incorporating External POS Tagger for Punctuation Restoration

标点恢复是自动语音识别中一个重要的后处理步骤，使得输出的文本加入标点符号更充分表达语义信息。这篇论文中标点恢复结合了词性标注信息使得模型有更好的效果。
亮点
（1）加入词性标注，并将词性标签融合到模型中
（2）提出序列边界采样（SBS）来更有效地学习标点位置作为序列标记任务
标点恢复任务可以看作一个序列标注任务。

模型

模型分为两个部分，左边部分是一个加载预训练语言模型得到的特征表示，右边部分是 P O S T a g g e r POS ~Tagger POS Tagger得到每一个token的词性的embedding 特征，最后将得到的特征进行拼接经过 F u s i o n L a y e r L Fusion~Layer~L Fusion Layer L和 S o f t m a x L a y e r S Softmax ~Layer~S Softmax Layer S得到最后的标点符号。这里实际上是一个序列标注问题。

Fusing POS tags into LM representations

(1) LM representations
一个长度为 n n n的文本 X X X经过预训练模型表征得到隐藏状态 H H H，这里预训练模型模型用 F F F表示
H = F θ ( X ) ∈ R n × d H = F_{\theta}(X)\in\boldsymbol{R}^{n \times d} H=Fθ(X)∈Rn×d
(2) Fusing POS tags
加载词性标注预训练模型 F W F_{W} FW得到 X X X中的每一个token的词性标注结果 T ^ \hat{T} T^
T ^ = F W ( X ) ∈ R n \hat{T} = F_{W}(X)\in \boldsymbol{R}^{n} T^=FW(X)∈Rn
其中 W ∈ R b × e W\in\boldsymbol{R}^{b\times e} W∈Rb×e 是 S o f t m a x L a y e r W Softmax ~Layer W Softmax LayerW， b b b是embedding size, e e e是词性的tag数量。 S o f t m a x L a y e r W Softmax~Layer~W Softmax Layer W得到 P O S T a g g e r POS Tagger POSTagger的embedding特征，简单来说，初始话一个embedding矩阵，我们使用 T ^ \hat{T} T^中的元素来查找 W W W 中的对应列，并形成 POS 嵌入 E ∈ R n × b E\in\boldsymbol{R}^{n\times b} E∈Rn×b
(3) Self-attention Fusion Layer L
将 H H H和 E E E进行拼接得到 C ∈ R n × ( b + d ) C\in\boldsymbol{R}^{n\times(b+d)} C∈Rn×(b+d)，采用self-attention 多头encode layer L γ L_{\gamma} Lγ高效的表征 C C C，最后加一层 S o f t m a x L a y e r S S η Softmax~Layer~S~S_{\eta} Softmax Layer S Sη得到标点符号
tags Y ^ \hat{Y} Y^
Y ^ = S η ( L γ ( C ) ) \hat{Y} = S_{\eta}(L_{\gamma}(C)) Y^=Sη(Lγ(C))
其中 γ \gamma γ和 η \eta η表示相关的参数。

Sequence boundary sampling

由于原始 ASR 输出中的句子边界不明确，因此整个训练集的原始输出可以被视为连续的词流。由于内存限制，它必须被截断以与最大序列长度 L 对齐。

实验结果

（1）数据标注格式
这里采用序列标注任务的格式进行标注

it	O
can	O
be	O
a	O
very	O
complicated	O
thing	COMMA
the	O
ocean	PERIOD
and	O
it	O
can	O
be	O
a	O
very	O
complicated	O
thing	COMMA
what	O
human	O
health	O
is	PERIOD
and	O
bringing	O
......

（2）实验结果

如有错误，欢迎大家指证。

更多推荐

标点恢复

本文发布于:2024-03-08 16:04:44，感谢您对本站的认可！

本文链接:https://www.elefans.com/category/jswz/34/1721379.html