在嵌入式处理器Jetson Orin上使用Whisper做语音内容识别(1)

编程入门 行业动态 更新时间:2024-10-26 05:34:52

在<a href=https://www.elefans.com/category/jswz/34/1770281.html style=嵌入式处理器Jetson Orin上使用Whisper做语音内容识别(1)"/>

在嵌入式处理器Jetson Orin上使用Whisper做语音内容识别(1)

简介

最近在项目中遇到了个问题,就是如何做语音内容识别???要离线、免费、开源的!!!选来选去也就只能用whisper了。鉴于网上其它参考方案都是基于PC端的N卡demo,就目前(20231116)而言还没有看到关于嵌入式上的应用方式;资料太少了。其中遇到的问题可谓千奇百怪,接下来几篇内容将大致列出部署过程及遇到的问题如何应对。因为各个环境存在一些差异,具体还是按实际情况解决实际问题。

由于jetson诞生到至今,应用领域都是视频识别之类的内容多一些,对于语音上的应用真的是太少。没有找到什么案例,接下来自己科普吧,然后照葫芦画瓢。

科普

在此之前,我们一般会参考一下目前PC端的实现方式,以及可行性分析。先看看网上一些文章吧,比如:Linux 中的机器学习:Whisper——自动语音识别系统。看着也没啥问题,装个软件运行起来即可,其中包括python的虚拟环境、Whisper、CUDA硬件加速搞定这几个差不多了。但是要注意目前网上的demo基本都是X86-64+N卡的,需要把所有软件换成aarch64的。

关于whisper是什么这里就不多介绍了,OpenAI开放了whisper接口,也开放了whisper模型,用户可以直接下载到自己电脑上使用,无需联网,也不需要调API花钱,这里体验一下本地下载使用,感受一下开源语音转文字。毕竟openai的在线API也是一笔不小的开支,还有可能设备部署后不联网的问题。参考在这:开源whisper快速语音转文字和视频生成字幕使用体验。里面也说明了当前处理中文处在的一个水平。

至于为什么没有考虑国内的~~~一言难尽吧,一个是开源问题、一个是收费问题(毕竟打工人是真的qiong),这些是要面临,另一个是生态问题,能不能用起来还是关键,硬件加速之类的,毕竟这个需要很大的计算量。所以综上所述还是先考虑Whisper试一下。Github地址:Whisper-openAI。

那么Buzz、DeepSpeech是啥?具体咱没有认真研究,简单看了下,大概就是Whisper+上了GUI、实现了跨平台、让用户使用体验更加友好这么个意思吧,自己做开发调用终究还是不太合适。DeepSpeech是Mozilla一个项目。

那Faster-Whisper、faster-whisper-webui、whisperCPP又是啥?咱也是简单看了看,目前还没用上,总的来说就是在whisper基础继续改进得来的,这个后期有机会再试试吧,看数据表现还是不错的,先使用原版的whisper+python体验一下。

硬件要求

Nvidia Jetson Orin NX 16G  ---  Ubuntu20.04.6 LTS ARM64位版本

由于jetson的系统内存和显存是共用的,低于16G就不用继续往下了。因为不能用大语言模型,转出来的内容差别太大了。

GPU+CUDA这个看情况吧,核心数和计算速度也影响最终的转换生成时间。但是内存不够免谈了,直接退出或者报错。

其它AI、边沿计算的板子没试过,觉得英伟达的N卡生态好、相应的应该说针对嵌入式这边也好一些,遇到问题有更多的解决方案。

软件要求

注意python的版本、英伟达的jetpack包版本、还有py的虚拟环境。

#end

更多推荐

在嵌入式处理器Jetson Orin上使用Whisper做语音内容识别(1)

本文发布于:2024-02-06 16:19:08,感谢您对本站的认可!
本文链接:https://www.elefans.com/category/jswz/34/1750450.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文标签:嵌入式   处理器   语音   内容   Orin

发布评论

评论列表 (有 0 条评论)
草根站长

>www.elefans.com

编程频道|电子爱好者 - 技术资讯及电子产品介绍!