关于AIGC人工智能、思维方式、知识拓展,能力提升等。投稿/合作: @inside1024_bot
AIGC 领域的最新工具、开源项目以及行业大事件
Hume AI 这次开源的 TADA,换了一个更务实的方向:先把不出错、够快、够轻这三件事做到极致。
传统 LLM 做 TTS,一个很大的麻烦就是:文字信息很少,但音频帧特别多,最后就容易上下文爆炸、推理变慢,甚至模型越说越跑偏。
TADA 的解法很直接,就是尽量让文字和语音“一对一锁住”往前走。你可以简单理解成,它不是先想好一大段声音再慢慢往外吐,而是每读一个 token,就同步生成对应那一小段语音。
这样做的好处非常现实:速度更快、内存更省,而且从结构上就更不容易胡说八道。我觉得这类设计比单纯堆参数、堆数据更有意思,因为它是在真正解决架构层面的老问。
两个特点:
第一是它够轻,甚至能往手机、边缘设备上放,这意味着以后很多语音能力不一定非要走云端 API,端侧跑起来后,延迟、隐私、成本都会好很多。
第二是它开源得比较彻底,MIT 协议,商用限制也少,这种东西一出来,开发者社区肯定会很快接上,后面不管是 AI 助手、播客生成、有声书、视频配音,还是需要同步字幕的场景,都会有人开始拿它做产品实验。
但是TADA 的强项明显不在“最有情绪、最像真人”,而是在“稳”和“省”。
所以如果追求的是特别强的表演感、拟人感,那可能还是得看更高端的商业模型。
@aigc1024

OpenClaw小龙虾🦞专属频道
@openclaw1024
🚨突发|英伟达宣布260亿美元豪赌:未来五年打造全球最强开源AI模型
Wired独家披露,来自2025年财务文件。
卖铲子的也要挖金了。
260亿美元是什么概念?训练GPT-4只花了约30亿。这笔钱足够开发多个前沿模型,还有余。
OpenAI、Anthropic、DeepSeek——这些曾是Nvidia最大的客户,现在成了对手。
但风险也巨大:微软、亚马逊、谷歌既是Nvidia客户,也在投资竞争对手,还在开发自己的芯片减少对Nvidia的依赖。
这一步,可能加速他们”去N化”的决心。
美国开源AI赛道,曾经只有Meta的Llama孤军奋战。现在,算力之王亲自下场。
Jensen Huang在赌什么?
@aigc1024

OpenClaw小龙虾🦞专属频道
@openclaw1024
Back to Top