嵌入式处理器Jetson Orin上使用Whisper做语音内容识别(1)"/>
在嵌入式处理器Jetson Orin上使用Whisper做语音内容识别(1)
简介
最近在项目中遇到了个问题,就是如何做语音内容识别???要离线、免费、开源的!!!选来选去也就只能用whisper了。鉴于网上其它参考方案都是基于PC端的N卡demo,就目前(20231116)而言还没有看到关于嵌入式上的应用方式;资料太少了。其中遇到的问题可谓千奇百怪,接下来几篇内容将大致列出部署过程及遇到的问题如何应对。因为各个环境存在一些差异,具体还是按实际情况解决实际问题。
由于jetson诞生到至今,应用领域都是视频识别之类的内容多一些,对于语音上的应用真的是太少。没有找到什么案例,接下来自己科普吧,然后照葫芦画瓢。
科普
在此之前,我们一般会参考一下目前PC端的实现方式,以及可行性分析。先看看网上一些文章吧,比如:Linux 中的机器学习:Whisper——自动语音识别系统。看着也没啥问题,装个软件运行起来即可,其中包括python的虚拟环境、Whisper、CUDA硬件加速搞定这几个差不多了。但是要注意目前网上的demo基本都是X86-64+N卡的,需要把所有软件换成aarch64的。
关于whisper是什么这里就不多介绍了,OpenAI开放了whisper接口,也开放了whisper模型,用户可以直接下载到自己电脑上使用,无需联网,也不需要调API花钱,这里体验一下本地下载使用,感受一下开源语音转文字。毕竟openai的在线API也是一笔不小的开支,还有可能设备部署后不联网的问题。参考在这:开源whisper快速语音转文字和视频生成字幕使用体验。里面也说明了当前处理中文处在的一个水平。
至于为什么没有考虑国内的~~~一言难尽吧,一个是开源问题、一个是收费问题(毕竟打工人是真的qiong),这些是要面临,另一个是生态问题,能不能用起来还是关键,硬件加速之类的,毕竟这个需要很大的计算量。所以综上所述还是先考虑Whisper试一下。Github地址:Whisper-openAI。
那么Buzz、DeepSpeech是啥?具体咱没有认真研究,简单看了下,大概就是Whisper+上了GUI、实现了跨平台、让用户使用体验更加友好这么个意思吧,自己做开发调用终究还是不太合适。DeepSpeech是Mozilla一个项目。
那Faster-Whisper、faster-whisper-webui、whisperCPP又是啥?咱也是简单看了看,目前还没用上,总的来说就是在whisper基础继续改进得来的,这个后期有机会再试试吧,看数据表现还是不错的,先使用原版的whisper+python体验一下。
硬件要求
Nvidia Jetson Orin NX 16G --- Ubuntu20.04.6 LTS ARM64位版本
由于jetson的系统内存和显存是共用的,低于16G就不用继续往下了。因为不能用大语言模型,转出来的内容差别太大了。
GPU+CUDA这个看情况吧,核心数和计算速度也影响最终的转换生成时间。但是内存不够免谈了,直接退出或者报错。
其它AI、边沿计算的板子没试过,觉得英伟达的N卡生态好、相应的应该说针对嵌入式这边也好一些,遇到问题有更多的解决方案。
软件要求
注意python的版本、英伟达的jetpack包版本、还有py的虚拟环境。
#end
更多推荐
在嵌入式处理器Jetson Orin上使用Whisper做语音内容识别(1)
发布评论