首页 > 资讯 > 科技 > 正文
2024-03-06 00:53

音频处理工具,更快的低语 GUI 软件体验

如今,关于人工智能的工具越来越多。 随着AI的出现,大家一定听过很多关于某种模型的信息。 各厂商也在比较各型号的性能。 换句话说,它有点类似于软件和系统,我们讨论使用哪个内核的风格。

训练模型通常需要大量的计算能力,并且必须放置在专用服务器上。 训练的结果就像精炼的灵丹妙药,可以在精简的用户设备上运行。 今天我们要说的是一款结合了音频识别方面诸多优势的模型启动器——GUI。

你可能对此有点熟悉。 这是一个神经网络模型,可以在本地将语音实时转换为文本,用于翻译和字幕。 之前给大家介绍过一款叫--的软件,它可以快速进行离线操作。 语音文本识别、GPU加速等

--GUI增加了更多功能,可以快速将音视频文件转换为srt/txt/smi/vtt/lrc,并支持、、、VAD-model等技术。 简而言之,支持的可调整选项有: 比之前推荐的工具多一点。

由于此类刀具离线加工的特点,其体积相对较大。 GUI本身1.6G,安装后占用6G多,而且这还不包括后续添加模型的大小。 建议您尝试一下。 到时候,将其放在有足够空间的盘子上。

如果你想把音频和背景音乐分开,直接把文件扔进去就可以了。 我尝试了一下,效果还不错。 也可以单独设置输出内容。

对于其他模型,您需要加载其他模型。 加载模型的时候需要注意。 可以选择处理设备、CPU 或 CUDA。 如果你不是使用显卡,就选择自动即可,否则会提示加载失败。

该模型还具有多种选择。 如果上面有V3标志,记得打开这个开关。

让我们尝试一下语音转文字。 如果你觉得你的设备处理等待时间有点长,你可以挂在后台,在软件执行时切换到其他界面。 您可以在其详情页面看到具体的信息输出。 这是正确的。 比例较高,有中英文混用、首字母大写等细节。

这种机器识别的方式和人类是一样的。 识别率不可能100%正确。 识别后,会出现一些错误,需要手动调整。 在--GUI中会自行跳转到字幕制作界面,可以快速浏览。 在这里针对不同的说话者调整、分割文本等等。

设置中,有很多细节可以调整,包括调整默认语言和音频的翻译,以及防止幻听的各种参数。

这个功能在一些视频编辑软件中还是需要收费的,或者需要云端处理,而且识别准确率也只有那么高。

有了这种软件,你就可以自己手动操作了。 需要将音频转文字的朋友可以说已经准备好了~