在嵌入式处理器Jetson Orin上使用Whisper做语音内容识别（1）

编程入门行业动态更新时间:2024-10-26 05:34:52

在<a href=https://www.elefans.com/category/jswz/34/1770281.html style= 嵌入式处理器Jetson Orin上使用Whisper做语音内容识别（1）"/>

在嵌入式处理器Jetson Orin上使用Whisper做语音内容识别（1）

简介

最近在项目中遇到了个问题，就是如何做语音内容识别？？？要离线、免费、开源的！！！选来选去也就只能用whisper了。鉴于网上其它参考方案都是基于PC端的N卡demo，就目前（20231116）而言还没有看到关于嵌入式上的应用方式；资料太少了。其中遇到的问题可谓千奇百怪，接下来几篇内容将大致列出部署过程及遇到的问题如何应对。因为各个环境存在一些差异，具体还是按实际情况解决实际问题。

由于jetson诞生到至今，应用领域都是视频识别之类的内容多一些，对于语音上的应用真的是太少。没有找到什么案例，接下来自己科普吧，然后照葫芦画瓢。

科普

在此之前，我们一般会参考一下目前PC端的实现方式，以及可行性分析。先看看网上一些文章吧，比如：Linux 中的机器学习：Whisper——自动语音识别系统。看着也没啥问题，装个软件运行起来即可，其中包括python的虚拟环境、Whisper、CUDA硬件加速搞定这几个差不多了。但是要注意目前网上的demo基本都是X86-64+N卡的，需要把所有软件换成aarch64的。

关于whisper是什么这里就不多介绍了，OpenAI开放了whisper接口，也开放了whisper模型，用户可以直接下载到自己电脑上使用，无需联网，也不需要调API花钱，这里体验一下本地下载使用，感受一下开源语音转文字。毕竟openai的在线API也是一笔不小的开支，还有可能设备部署后不联网的问题。参考在这：开源whisper快速语音转文字和视频生成字幕使用体验。里面也说明了当前处理中文处在的一个水平。

至于为什么没有考虑国内的~~~一言难尽吧，一个是开源问题、一个是收费问题(毕竟打工人是真的qiong)，这些是要面临，另一个是生态问题，能不能用起来还是关键，硬件加速之类的，毕竟这个需要很大的计算量。所以综上所述还是先考虑Whisper试一下。Github地址：Whisper-openAI。

那么Buzz、DeepSpeech是啥？具体咱没有认真研究，简单看了下，大概就是Whisper+上了GUI、实现了跨平台、让用户使用体验更加友好这么个意思吧，自己做开发调用终究还是不太合适。DeepSpeech是Mozilla一个项目。

那Faster-Whisper、faster-whisper-webui、whisperCPP又是啥？咱也是简单看了看，目前还没用上，总的来说就是在whisper基础继续改进得来的，这个后期有机会再试试吧，看数据表现还是不错的，先使用原版的whisper+python体验一下。