2024/07/1197 浏览综合
阿里通义前几天开源了两个语言模型SenseVoice和CosyVoice,前者可以实现高精度的语言识别和语言情感辨别,后者可以实现语言生成,并且提供了训练模型,具体在github可以看到(也可以线上直接体验,不用自己配置)。开源地址的话百度直接搜SenseVoice和CosyVoice就行(我也不知道直接上链接会不会发不出去)可以弥补一下主线全是字没有声音的遗憾[表情_斜眼笑](直接用角色语音生成)
注:二图描黑的是github,分别是对应的开源地址,具体可以看网址最后的区分。
我准备配一个试试,顺便看看能不能搞一个软件实现屏幕截图自动识别文字播放对应音频。网上全是教程问题不大[表情_斜眼笑]
TapTap
TapTap
3