海南话语语音识别相关调研

编程入门 行业动态 更新时间:2024-10-11 15:20:01

<a href=https://www.elefans.com/category/jswz/34/1758373.html style=海南话语语音识别相关调研"/>

海南话语语音识别相关调研

一、海南话介绍

海南话,狭义的海南方言属汉藏语系汉语闽南方言,也就是海南话,是海南岛最普遍的方言,各市县都普遍使用,只是发音上略有不同,但基本上都能互相交流,一般以文昌人的语音为标准口音,大部分人以为自己的祖先来源于福建。 -----来自掌上海南资讯(以下为来源链接):

=MzA5MDE0NDk4Mw==&mid=2656307232&idx=1&sn=cbe9e83b2874215bfd37297e4b784263&chksm=8bb08198bcc7088e74defeeeb471f1563bed14e5dd966efa7f3b6097dabaaac64a0ec9019d51&scene=27

二、海南闽语的来源

闽语形成于福建,从福建出发,广泛地流播于闽、粤、浙、琼、台等中国东南沿海省份,其中,在台湾、海南两个海岛省份是首要的、主要的方言。通行于海南省的闽语一般称为海南闽语,俗称“海南话”。福建沿海居民自宋代起迁入海南,带来了当时的闽南方言。至明代海南闽语就已在海南岛上被使用了。根据辛世彪《海南闽语比较研究》,大明正德年(1506-1521)的《正德琼台志》有载“村落乡音有数种,一曰东语,又名客语,似闽音。”此后历代海南方志对这种名为“东语”、“客话”(“客语”)的描述也多为”类闽音“、“与漳(州)潮(州)相类”,这种方言也就是如今的海南闽语,如今,海南民间对于海南闽语还有“客话”,亦即“外来语言”的称呼,符合闽语由福建迁来的历史事实。

/

三、海南话方言调研

文章[1]以2001年的人口统计作为参照分析,海南岛上的语言有海南闽语、黎语、澹州话、临高话、军话、苗话等十余种,如下图:


目前在海南岛使用人口最多的语言是海南闽语,且文章[1]的”海南闽语”指的是海口及文昌等海南东部和北部的海南话,因为海南南部和西部的海南话与东北部的海南话有一系列的区别。 二、海南闽语与福建闽语的区别? 海南闽语的形成应该在唐代到宋代这一个时期,宋代最终定型,并且与福建闽语有了较大的区别,海南闽语是闽南话的一个分支。

四、海南话语音识别相关调研

经调研并未找到基于海南闽语语音识别的相关资料,由于海南闽语是闽南话的一个分支,以下参考闽南语智能语音识别相关资料,整理出构建海南话语音识别的需要完成的相关工作内容及技术难点。

(一)闽南语技术难点:
(1)现状分析:

由于方言投入大收益低、受众相对较少、语言复杂多变等原因,对闽南语的识别率尚达不到行业实际应用需求。

(2)难点与解决思路:
① 闽南语语系庞大复杂:

声母18个、韵母至少85个、声调7个,声韵调三者结合和使用的音节大约有2300个左右,这跟普通话只有1300多个音节比较,多了一倍。

② 字音的类型多

有读书音(文读音)、说话音(白读音)、训读音和俗读音四种类型,产生的原因是由于中国古代各地之间交通相对不便,传媒手段落后,各地区倾向在语言上维持相对保守的形态;但是知识阶层存在向地区行政中心甚至首都流动的需求,因此掌握京畿地区(国都及其附近的地区)的通用语是其一项重要的功课。所以历朝历代,各地读书人可能会使用自身使用的方言去模仿京畿地区的通用语,在自身获得仕途上升空间同时,也为当地语言带来文化的新气象。这一套模仿权威通用语的方言体系相对于某地原有的早期固有读音而言,形成特殊的多音现象即为文白异读。白读音(旧时当地读音)、文读音(知识阶层引进读书音)

③ 保留不少古音痕迹

这些特点,不仅普通话没有,就是汉语其他方言也是少有,或即使有,数量也没有闽南方言那么多,因此闽南方言被人们誉为“古汉语的活化石”[1]

④ 音变现象复杂

闽南方言连读音变的类型多,如同化、异化、增音、 减音、浊化、双声化、叠韵化、合音以及弱化等等,变化众多[1]

⑤ 闽南语语音语料数据较少

目前网上可以公开获取的可用于机器学习用的闽南语语音语料相对较少,可获取的闽南语音频大多背景音太强或是缺乏对应的标注。

⑥ 各地发音、口音差异较大
(二)闽南语语音识别解决思路:

① 针对闽南语语音语料的匮乏的问题,通过广播电视监管业务系统和省内各级广播电视台获取到了宝贵的可用于机器学习的闽南语语音语料。
② 针对各地口音不同的问题,拟以具有代表性、融合性的厦门闽南语口音为研究对象,同时兼顾台湾、泉州和漳州地区的发音特点。
③ 针对闽南语复杂多变的问题,采用一种高效学习的端到端深度学习方法。

(三)闽南语语音识别字典、词典构建:

词典的建立参照《普通话闽南方言词典》[3],此词典以厦门话为代表,兼顾了泉州、漳州在声韵调方面的某些特殊音。通过对闽南声母表、韵母表((阴声韵、阳声韵、鼻化韵、入声韵)、音调、隔音符号的研究,最终形成可用于语音识别的闽南语词典。

(四)海南闽南语难点与解决方案:
(1) 数据获取

(1)海南闽语技术难点同闽南语,相比闽南语资源更加匮乏
(2)针对训练语音数据可从海南网络广播电视台中获取视频并处理为wav

(2)语音数据的标注

海南网络广播电视台中的数据种类多样,包括故事会、健康之声、琼剧精选、民生新闻等,其中琼剧、故事会相关频道的语音背景噪声较大,琼剧精选频道中说话声、音乐声、普通话间隔插播,可训练的有效训练数据待确定

(3)建模单元、词典构建

①词典:
 陈鸿迈先生的 《海口方言词典》是较为系统地记录海口方言的词汇的著作,但暂无方法获取。
②建模单元:
1)按常见字进行建模,按常见字进行建模需提供常见字列表,或者按字频统计得到(如果文本语料较少可能覆盖不全)
2)按音节建模,需要确定使用哪家的声母、韵母及声调进行标音,下面是各位研究者对海南闽语的声母韵母表示[1],声母数量16-19个、韵母45-65个、声调6-9个:

(五) 闽南语相关论文:
语音合成
=3uoqIhG8C44YLTlOAiTRKibYlV5Vjs7ioT0BO4yQ4m_mOgeS2ml3UOxPUfDJ3GO-RbqBGAyOmapyuHO9NUiPBTMwUxZbTZgQ&uniplatform=NZKPT
=3uoqIhG8C44YLTlOAiTRKibYlV5Vjs7i8oRR1PAr7RxjuAJk4dHXotuqJVocjO3Brd68pKCWKUvQtKOQTOxK6ZlWSav4PsWt&uniplatform=NZKPT
=3uoqIhG8C475KOm_zrgu4lQARvep2SAke-wuWrktdE-tSIT2YIbQ2CuUN517lA07FGA5GnFUsoq47sTVysjqB6lpq8tbQamd&uniplatform=NZKPT
=3uoqIhG8C475KOm_zrgu4lQARvep2SAkVtq-vp-8QbjqyhlE-4l1YiDlDOQIo2BBFwwNLfdmekevtQJ77gDtc73eNstfNrmy&uniplatform=NZKPT
语音识别:
=3uoqIhG8C44YLTlOAiTRKibYlV5Vjs7ioT0BO4yQ4m_mOgeS2ml3UOxPUfDJ3GO-RbqBGAyOmapyuHO9NUiPBcdULFum2DlR&uniplatform=NZKPT
=3uoqIhG8C44YLTlOAiTRKibYlV5Vjs7iy_Rpms2pqwbFRRUtoUImHVUvTyT6p95loMDQTyP_Z84CqNAGTYPsKMdSM9wmzlhw&uniplatform=NZKPT
=3uoqIhG8C44YLTlOAiTRKibYlV5Vjs7iy_Rpms2pqwbFRRUtoUImHbr2yNYEFKe0KyUxNqi8gv8LK60Lh-tBX-07i5XWWZu-&uniplatform=NZKPT
HakkaASR
.git

海南闽南语广播电台视频数据:
/
以下分别为为海南闽语的声母、韵母及声调表示:


声调表示:

[1]刘新中. 海南闽语的语音研究[D].暨南大学,2004.
[2]周长揖. 普通话闽南方言词典[M]. 福建: 福建人民出版社,2006.
[3]厦门大学中国语言文学研究所汉语方言研究室. 普通话闽南方言词典[M]. 福建: 福建人民出版社, 1982.

更多推荐

海南话语语音识别相关调研

本文发布于:2024-03-04 22:36:04,感谢您对本站的认可!
本文链接:https://www.elefans.com/category/jswz/34/1710600.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文标签:海南   话语   语音识别

发布评论

评论列表 (有 0 条评论)
草根站长

>www.elefans.com

编程频道|电子爱好者 - 技术资讯及电子产品介绍!