«

音频编辑像改Word?StepFun AI刚刚扔出了开源王炸!

qimuai 发布于 阅读:106 AI新闻


音频编辑像改Word?StepFun AI刚刚扔出了开源王炸!

最新AI落地实操,点击了解:https://qimuai.cn/

你还在为剪辑音频头疼吗?剪掉口误、调整语气、甚至换个音色,每次都要在专业软件里折腾半天?现在,有人把这事儿变得像改Word文档一样简单了。

StepFun AI(阶跃科技)刚刚扔出一组开源“王炸”——Step-Audio-EditX、Step-Audio和Step-Audio 2。这可不是普通的语音工具,而是把音频编辑直接塞进了大语言模型的架构里。

先看Step-Audio-EditX。它是全球第一个开源“LLM级别”音频编辑大模型,30亿参数规模。什么意思?它能把一段语音拆成一个个“词令牌”,你想改情绪、调语气、换风格,就像在文档里删改文字一样直观。语气太生硬?选中,改成“欢快”。音色不合适?直接切换成“成熟女声”。它甚至能精细调整本地化情感和风格细节,而且完全开源,代码和模型权重随便下载。内容创作者、媒体编辑、语音修复团队,这下有福了。

再看Step-Audio系列。Step-Audio本身就是个产品级语音交互模型——情绪、方言、歌声、角色音色,它都能合成,而且特别懂中文语境。但Step-Audio 2更狠:端到端多模态大模型,听、说、理解、推理、音色克隆全部打通。它不仅能和你语音对话,还能感知你的情绪,调用多模态工具(比如联网搜索或切换音色)。在国际测试集上,它的mini版本干翻了Qwen-Omni、Kimi等主流模型,综合表现目前最强。

关键这些模型全都开源。Step-Audio 2的mini版、base版,随便拿去用。商业应用?研究开发?没问题。

这意味着什么?语音编辑不再是专业音频工程师的专属魔法。你想给视频配音、给播客调音、做个性化TTS、甚至做跨语种翻译和音频分析,现在都有了一套统一、可控、门槛更低的工具链。Step-Audio-EditX专注表达编辑,Step-Audio系列搞定交互和理解——阶跃科技几乎把音频AI的各个环节都“LLM化”了。

所有领域都值得用AI重做一遍。本文作者承接各种AI智能体和AI全域营销自动化软件、工作流开发,了解加微信:qimugood(读者也可此微信一起交流)。

AI每日进展

文章目录


    扫描二维码,在手机上阅读