音频编辑像改Word？StepFun AI刚刚扔出了开源王炸！

qimuai 发布于 2025-11-10 18:02 阅读：146 AI新闻

最新AI落地实操，点击了解：https://qimuai.cn/

你还在为剪辑音频头疼吗？剪掉口误、调整语气、甚至换个音色，每次都要在专业软件里折腾半天？现在，有人把这事儿变得像改Word文档一样简单了。

StepFun AI（阶跃科技）刚刚扔出一组开源“王炸”——Step-Audio-EditX、Step-Audio和Step-Audio 2。这可不是普通的语音工具，而是把音频编辑直接塞进了大语言模型的架构里。

先看Step-Audio-EditX。它是全球第一个开源“LLM级别”音频编辑大模型，30亿参数规模。什么意思？它能把一段语音拆成一个个“词令牌”，你想改情绪、调语气、换风格，就像在文档里删改文字一样直观。语气太生硬？选中，改成“欢快”。音色不合适？直接切换成“成熟女声”。它甚至能精细调整本地化情感和风格细节，而且完全开源，代码和模型权重随便下载。内容创作者、媒体编辑、语音修复团队，这下有福了。

再看Step-Audio系列。Step-Audio本身就是个产品级语音交互模型——情绪、方言、歌声、角色音色，它都能合成，而且特别懂中文语境。但Step-Audio 2更狠：端到端多模态大模型，听、说、理解、推理、音色克隆全部打通。它不仅能和你语音对话，还能感知你的情绪，调用多模态工具（比如联网搜索或切换音色）。在国际测试集上，它的mini版本干翻了Qwen-Omni、Kimi等主流模型，综合表现目前最强。

关键这些模型全都开源。Step-Audio 2的mini版、base版，随便拿去用。商业应用？研究开发？没问题。

这意味着什么？语音编辑不再是专业音频工程师的专属魔法。你想给视频配音、给播客调音、做个性化TTS、甚至做跨语种翻译和音频分析，现在都有了一套统一、可控、门槛更低的工具链。Step-Audio-EditX专注表达编辑，Step-Audio系列搞定交互和理解——阶跃科技几乎把音频AI的各个环节都“LLM化”了。

所有领域都值得用AI重做一遍。本文作者承接各种AI智能体和AI全域营销自动化软件、工作流开发，了解加微信：qimugood(读者也可此微信一起交流）。

AI每日进展

文章目录

📚 推荐阅读

扫描二维码，在手机上阅读