标点恢复"/>
标点恢复
Incorporating External POS Tagger for Punctuation Restoration
标点恢复是自动语音识别中一个重要的后处理步骤,使得输出的文本加入标点符号更充分表达语义信息。这篇论文中标点恢复结合了词性标注信息使得模型有更好的效果。
亮点
(1)加入词性标注,并将词性标签融合到模型中
(2)提出序列边界采样(SBS)来更有效地学习标点位置作为序列标记任务
标点恢复任务可以看作一个序列标注任务。
模型
模型分为两个部分,左边部分是一个加载预训练语言模型得到的特征表示,右边部分是 P O S T a g g e r POS ~Tagger POS Tagger得到每一个token的词性的embedding 特征,最后将得到的特征进行拼接经过 F u s i o n L a y e r L Fusion~Layer~L Fusion Layer L和 S o f t m a x L a y e r S Softmax ~Layer~S Softmax Layer S得到最后的标点符号。这里实际上是一个序列标注问题。
Fusing POS tags into LM representations
(1) LM representations
一个长度为 n n n的文本 X X X经过预训练模型表征得到隐藏状态 H H H,这里预训练模型模型用 F F F表示
H = F θ ( X ) ∈ R n × d H = F_{\theta}(X)\in\boldsymbol{R}^{n \times d} H=Fθ(X)∈Rn×d
(2) Fusing POS tags
加载词性标注预训练模型 F W F_{W} FW得到 X X X中的每一个token的词性标注结果 T ^ \hat{T} T^
T ^ = F W ( X ) ∈ R n \hat{T} = F_{W}(X)\in \boldsymbol{R}^{n} T^=FW(X)∈Rn
其中 W ∈ R b × e W\in\boldsymbol{R}^{b\times e} W∈Rb×e 是 S o f t m a x L a y e r W Softmax ~Layer W Softmax LayerW, b b b是embedding size, e e e是词性的tag数量。 S o f t m a x L a y e r W Softmax~Layer~W Softmax Layer W得到 P O S T a g g e r POS Tagger POSTagger的embedding特征,简单来说,初始话一个embedding矩阵,我们使用 T ^ \hat{T} T^中的元素来查找 W W W 中的对应列,并形成 POS 嵌入 E ∈ R n × b E\in\boldsymbol{R}^{n\times b} E∈Rn×b
(3) Self-attention Fusion Layer L
将 H H H和 E E E进行拼接得到 C ∈ R n × ( b + d ) C\in\boldsymbol{R}^{n\times(b+d)} C∈Rn×(b+d),采用self-attention 多头encode layer L γ L_{\gamma} Lγ高效的表征 C C C,最后加一层 S o f t m a x L a y e r S S η Softmax~Layer~S~S_{\eta} Softmax Layer S Sη得到标点符号
tags Y ^ \hat{Y} Y^
Y ^ = S η ( L γ ( C ) ) \hat{Y} = S_{\eta}(L_{\gamma}(C)) Y^=Sη(Lγ(C))
其中 γ \gamma γ和 η \eta η表示相关的参数。
Sequence boundary sampling
由于原始 ASR 输出中的句子边界不明确,因此整个训练集的原始输出可以被视为连续的词流。 由于内存限制,它必须被截断以与最大序列长度 L 对齐。
实验结果
(1)数据标注格式
这里采用序列标注任务的格式进行标注
it O
can O
be O
a O
very O
complicated O
thing COMMA
the O
ocean PERIOD
and O
it O
can O
be O
a O
very O
complicated O
thing COMMA
what O
human O
health O
is PERIOD
and O
bringing O
......
(2)实验结果
如有错误,欢迎大家指证。
更多推荐
标点恢复
发布评论