关于AIGC人工智能、思维方式、知识拓展,能力提升等。投稿/合作: @inside1024_bot
AIGC 领域的最新工具、开源项目以及行业大事件
美国麻省理工发布7门免费AI课程,推荐💄 - 小红书

MIT 发布了一批免费AI 课程,足以让你达到入职水平。

没有付费墙,没有废话。
精华推荐 👇
1. AI 101(AI 入门)
→ 从零开始,建立真正的直觉。
https://ocw.mit.edu/courses/res-6-013-ai-101-fall-2021

2. 深度学习训练营(Deep Learning Bootcamp)
https://introtodeeplearning.com/

3. 人工智能(Artificial Intelligence)
→ 解决问题的方法论 + 机器学习基础。
https://ocw.mit.edu/courses/6-034-artificial-intelligence-fall-2010/

4. 机器学习导论
→ 那些你真正会用到的
https://openlearninglibrary.mit.edu/courses/course-v1:MITx+6.036+1T2019/about

5. 如何 AI 化(几乎)任何事物(How to AI Almost Anything)
→ AI + 创意(音乐、艺术、系统设计)。
https://ocw.mit.edu/courses/mas-s60-how-to-ai-almost-anything-spring-2025/

6.
。。。
#提示词工程 #AI工作流 #AI的神奇用法

Invalid media: image
🧑‍🏫Claude母公司免费开放AI课程及认证 - 小红书

🍎Claude母公司免费开放AI课程及认证

1、Claude 入门指南:掌握 Claude 日常办公应用与核心功能→ https://anthropic.skilljar.com/claude-101

2、AI 通识基础课:构建 AI 思维框架(入门必学)
https://anthropic.skilljar.com/ai-fluency-framework-foundations

3、智能体技能开发:在 Claude Code 中配置可复用指令集→ https://anthropic.skilljar.com/introduction-to-agent-skills

。。。

#AIHackathon #AI工作流

Invalid media: image
Hey Gen 用了不到两年半的时间,从 100 万美元到了一个亿,这个增长速度在 AI 行业也是相当猛的。#ai创造营#

他们 CEO 这次不只是分享里程碑数字,更重要的是他们把内部称为"圣经"的一套产品方法论公开出来了。

包含了团队内部无数次讨论、实验和踩坑之后总结出来的经验,总结一下做个笔记👇

HeyGen 把视频分成了两类:沟通类视频和电影类视频。

沟通类视频包括业务更新、教程、采访、播客、解释性视频,目的是说明、告知或传达信息,最适合基于脚本的编辑。电影类视频是高制作广告、电影、音乐视频、预告片这种,目的是打动、激发或娱乐观众,最适合时间线编辑。

HeyGen 的重点是让沟通类视频对所有人都可用。他们说的"所有人"是真正的所有人,从初学者到专业人士的每一种技能水平。产品足够简单,任何人都能在几分钟内制作出高质量的视频。

整个方法论的核心就一句话:
快速行动,成为绝对最佳。乘着 AI 浪潮,接受研究中的不确定性,押注未来六个月,构建随着模型改进而自我升级的灵活产品,同时不牺牲质量。

传统时代是在稳固基础上构建,为长久性优化,提前规划 12-18 个月,打磨好再发布,按序开发。AI 时代的 HeyGen Way 是乘着科技浪潮,为自动改进而构建,实际规划 2 个月周期(与模型升级周期一致),发布以学习,并行试验。

为什么是两个月?这个周期与模型升级周期一致,既能快速调整策略又能保持专注。

他们的节奏包括:两个月路线图规划,与 AI 进展周期同步,与领导层、技术负责人和产品经理深入回顾并制定策略。6-12 个月战略押注,预测并为下一次重大突破做准备。每两周承诺清单,产品和工程共同决定优先级。每日发布,改进、特性或实验每天上线。

实验流程很快:第 1 天定义假设和成功指标,第 2 天构建真正最小化的 MVP,第 3-5 天向部分用户发布,第 2 周分析学习并决定下一步。

好的实验要快(以天为单位不是周),科学化且数据驱动,提供明确信号(继续、转向或停止),做大动作而不是小修小补。大多数实验会失败,这是预期之内的。带着学习的失败等于胜利,没有学习的失败才是真正的失败。

## 提出五大运营原则
Open AI 最近疯狂押注算力基础设施,都开始自研芯片了#ai创造营#

昨晚又宣布跟 Broadcom 一起合作部署 10GW 的 AI 加速器,而且里面的芯片设计和系统都是 Open AI 自研的。

Greg 解释了为什么会需要这么大量的算力,GPT 正在从交流的时候实时推理变为在你不跟他交流的时候也在工作的产品。

就比如 Pulse 功能,每天早上起来的时候他都已经为你准备好你要消费的内容了。

但是这种功能由于算力成本问题只能给 Pro 会员用,他们希望将类似功能推送给每个人。

而且他们自研芯片的项目已经在 ASIC 基础上干了 18 个月了。

目前 Open AI 有 2GW 的算力,其中大部分算力都用在了模型训练和研发上,只有少部分用于推理。

最终他们的规划是到 2033 年把算力干到 250GW,翻了 125 倍,需要的消耗美国一半的能源。
推荐看看,Anthropic 新文章《如何为 Agent 构建工具》

Agent 与传统确定性软件不同,工具的设计要兼顾非确定性行为,不能简单照搬API或函数式开发思路。#ai创造营#

建议先快速原型开发并本地测试工具,随后通过与Agent协作生成大量贴近真实场景的评测任务,结合自动化评测和Agent的推理反馈,持续迭代优化。

原则层面:

提出应优先实现高影响力、能覆盖关键工作流的工具,避免无效的“包API”式工具;

通过命名空间(如前缀/后缀)清晰划分工具边界,减少代理混淆;工具返回内容要聚焦高信号上下文,优先自然语言和可读标识符,必要时支持详细/简洁等多种响应格式以兼顾上下游需求;

对于可能产生大量输出的工具,建议分页、过滤、截断并优化默认参数,避免token浪费;错误提示要具体明确,帮助代理自我修正。

工具描述和参数设计要像给新同事写文档一样详尽,消除歧义,输入输出严格定义,持续通过评测微调描述以提升代理调用效果。

详情anthropic.com/engineering/writing-tools-for-agents
a16z 新文章 AI 改变了消费级软件的营收留存模式

旧模式:为用户流失而设计#ai创造营#

在 AI 时代之前,消费级软件主要有两种盈利模式广告收入和单层级订阅。

这两种模式的共同点是净收入留存率几乎总是低于 100%。因为每年总有一部分用户流失,而留存用户支付的金额不变。

新模式:大扩张时代

用户支出增加:基于使用量的付费模式取代了固定的订阅费。

消费到企业(C2E)的桥梁:用户以前所未有的速度将个人工具带入工作场所,这些工具可以通过公司报销,从而利用企业更大的预算。

实现“大扩张”的三大关键策略

策略一:复杂的定价架构

摒弃单一订阅费,采用混合定价模式,结合价格分层 和 按使用量计费 。

核心思想:借鉴游戏行业“鲸鱼用户”的模式,通过多层级订阅和额外的按需购买选项,让收入与用户的参与度同步增长。

具体做法:
设置多个订阅等级(如 Pro, Ultra),根据功能、速度、模型访问权限等进行区分。
在每个等级中包含一定的使用额度(如生成次数、计算单元),超出部分需要用户购买额外的“点数包”(credit packages)。

策略二:搭建消费到企业的桥梁

为产品增加基础的团队协作功能,从而打开企业市场,实现 ARPU 的巨大提升。

核心思想:如今,员工被鼓励在工作中使用 AI 工具。任何有潜在工作用途的产品,都应假设用户会将其引入团队。从对价格敏感的个人用户转向对价格不敏感的企业买家,是巨大的扩张机会。

具体做法:
开发基础的协作功能,如:团队文件夹、共享库、协作画布、身份验证(SSO/SAML)和安全设置。
为个人和团队设定显著的价格差异。甚至可以像 Notion 当年那样,为个人用户提供非常慷慨的免费计划(甚至亏本),以加速用户基数增长,然后通过对协作功能收费来盈利。

策略三:从第一天起就进行企业级投资

消费级公司应尽早(在成立后一到两年内)建立销售能力并开发企业级功能。

核心思想:在 2025 年,等待是致命的。与 Canva(成立近7年后才推出团队版)不同,现在的市场节奏要求快速行动。如果一家公司推迟开发企业功能,竞争对手会迅速抢占市场。

具体做法:
招聘销售负责人:自下而上的用户增长只能走这么远,最终需要专业的销售团队来处理企业采购流程和签订高价值合同。
构建关键企业功能:除了协作功能外,还需要:
安全/隐私:SOC-2 合规、SSO/SAML 支持。
前段时间闭门会有家长问怎么教孩子用 AI #ai创造营##AI教育#

刚好 Anthropic 发布了三门面向教育工作者和学生的 AI 课程。

为教师设计的 “AI Fluency for Educators” 指导如何在教学材料、评估和课堂讨论中融入 AI。

面向学生的 “AI Fluency for Students” 强调在课程与职业规划中负责任地协作 AI,学生在与 AI 共事的同时培养自己的批判性思维技能。

“Teaching AI Fluency” 则帮助教师在校园推广 AI 素养,提供教学与评估框架及课程设计建议。

家长感觉只需要关注前两门课程就行。

AI Fluency for Students (anthropic.skilljar.com/ai-fluency-for-students)的详细课程内容:

AI流利度框架介绍:通过2节课,系统讲解4D框架在学生学习和成长中的应用,帮助学生理解如何在不同情境下与AI协作。

4D框架在学习与职业规划中的应用:通过2节课,结合实际案例,指导学生如何将4D框架应用到学业任务、知识理解、职业技能发展和未来规划中,强调“人始终在环”——即在与AI协作时保持主动性、判断力和责任感。

AI Fluency for Educators(anthropic.skilljar.com/ai-fluency-for-educators)的详细课程内容:

介绍AI流畅性框架,帮助学员理解如何在学生场景中应用委托、描述、辨别和勤勉四个维度。

展示如何将4D框架应用于课程设计和学习材料的开发,利用AI作为思维伙伴,提升教学内容的连贯性和评估的真实性。

通过实际案例和经验,指导学员在教学实践中负责任地与AI协作,并为学生树立良好榜样。
Anthropic 模型可解释团队的研究员录了一期播客#ai创造营#

介绍了模型的可解释性和模型安全的的关系,以及两者为何重要

其中可解释性的研究流程和一些我们常见的模型概念解释比较有意思

可解释工具链的核心目标是绘制一张从「输入提示 A」到「输出文本 B」的完整“思维流程图(flowchart)”。

研究流程主要分为五步:

数据采样:向模型投喂多样化提示(对话、代码、诗歌等),记录每一层激活。

特征分解:利用聚类、稀疏编码将上亿维激活压缩成可人类理解的「概念向量」。

概念标注:通过统计「何时点亮」的方法,为向量贴上“咖啡”“Golden Gate Bridge”“拍马屁式赞美”等标签。

因果干预:人为增减激活强度,观察输出如何改变,以验证标签的因果性而非仅是相关性。

流程可视化:把多层概念依时间顺序连线,形成人读得懂的步骤图,类似可追踪代码调用栈。

团队将该系统比喻为“显微镜”,但也坦言显微镜 still 有极限:目前只能解释约 20% 的决策路径;大模型(Claude 4 级别)的规模更让工具疲于奔命。

视频里面列举了多条令人会心一笑的内部概念:

“拍马屁式赞美(sycophantic praise)”:只要上下文出现过度恭维,某一簇神经元就高亮,驱动输出“绝妙”“天才”等华丽辞藻。

Golden Gate Bridge 表征:无论输入是描述驾驶跨桥场景的文字,还是桥的图片标注,甚至仅 “金门(Golden Gate)”的暗示,该向量皆被触发,说明模型形成了跨模态、抽象且稳健的“地标”概念。

“6 + 9” 加法电路:凡遇到以 6 结尾与 9 结尾数字相加,无论在算式、参考文献年份 (1959+6)、还是故事情节中的门牌号相加,都会走进同一条计算通路,证实模型使用的是“通用算子”而非死记硬背。

Bug Tracker:当阅读代码时,特定神经簇负责标记潜在错误并在后续回答中引用,显示出“延迟呼应”能力。

这些案例共同反驳了“模型只是训练数据记忆库”的观点:若仅靠记忆,模型不可能在从未见过的跨域场景中复用同一逻辑通路。

研究员进一步发现,模型在处理长篇故事人物关系时,会给首位出现的角色分配“编号概念”,其后所有动作、情绪均与该编号绑定,从而维持叙事一致性;此策略与人类“变量绑定”高度相似,却是自发涌现。
试了一下前几天看到的这个 Macaron #ai创造营#

本来是被颜值吸引的,结果发现他们的这个帮你创建APP 的 Agent 和对应的 APP 市场很厉害
大家都在卷桌面端的工作提效的时候他们瞄上了创建帮你更好生活的移动应用。

而且你不止可以用自己创建的也可以用别人创建好的。

看了一下应用的介绍,产品的功能主要包括两部分:

1. 马卡龙形象的 AI 陪伴聊天personal agent ,他有长时间的记忆能力
2. Personal agent 可以帮你生成在手机上运行的 APP,你可以让他构建任何你日常需要的软件,可以将两者想象成微信和小程序的关系

在应用启动页面情感设计就做的很好。

Macaron 会询问你一些你的喜好和性格,然后会针对你的选择来调整最后你的 AI 模型的对话风格和性格,并且你的 AI 会有一个独特的马卡龙形象。
跟很多主流 AI Agent 不太一样,现在主流 AI Agent 恨不得一点情感都没有,比如最近被骂的 GPT-5.

进去以后开始聊天你就会发现这个 AI 的情感会更加丰富,会倾向于鼓励和肯定你。
可能是因为我在前面选了偏向鼓励的回复,这样稍微进行一些调整,模型的回复就会更加符合用户的喜好。
Sam 每天在为了平衡用户对于 AI 的语气和回应方式而纠结不如学一下 Macaron 的处理方式。

从聊天页面左滑你就会进入到自己的应用页面,这里会展示你创建的和获取到的别人创建的应用。

有社区的用户创建的各种应用,涉及到生活工作的方方面面,比如帮你选粉底的、帮你规划旅行计划的等。
每个应用都会跟应用商店一样有个详情页,而且这里面的所有内容都是 AI 自己生成的。
最好玩的就是里面应用的图标,在风格非常一致的同时又很好的表现了应用的功能。
每个应用图标上都有一个马卡龙,我猜那个马卡龙的样子还是前面说的由应用的创建者创建的样子。

他们这个经济系统也很有意思的,软件里面创建应用、修改应用、获取应用都需要消耗杏仁,然后你创建的应用被人获取的时候会支付给你杏仁,这样杏仁就完成了循环。
理论上如果你做了一个比较多的人使用的应用的话,你就完全不用担心你的杏仁额度了,可以不用充值畅玩马卡龙。

马卡龙应用创建很简单门槛也很低。
你只需要跟 AI 聊天的时候说你要创建一个 XXX 应用就行,他就会自动开始给你创建,有时候还会让你补充一些信息和需求,然后你只需要等待就行。
谷歌最近的模型进展太快了,而且全面开花。他们的开发者负责人访谈了 Deepmind CEO,里面详细介绍了:#ai创造营#

-Genie 3 世界模型的信息
-通往 AGI 的路径
- 产品迭代方法
- 模型评估策略

干货挺多的,我总结了一下:

迈向 AGI 的路径拆分为模型、评测、工具三个相互强化的支点:

模型:在基础网络中引入显式「思考」与「世界模型」,通过多模态互补、规划搜索和自监督,对感知与推理进行一体化表征。
评测:从静态数据集转向动态、自适应、对抗性环境,让基准能随能力提升而自动升级难度,并覆盖物理直觉与安全性维度。
工具:把外部算力与专用子模型视为「延伸器官」,允许主模型在推理过程中即时调用,并通过代理调度形成系统级闭环。

这三者缺一不可:没有强模型,再复杂的评测只是「秀场」;没有合适的测评,模型无法有针对性地优化;缺少工具链则会让模型陷入「闭门造车」。这一三角形心智模型为 DeepMind 制定路线图提供了结构化的思考框架。

Genie 3 引出一种「内化现实」的方法论:

不再单纯追求图像或文字的表层相似度,而是要求模型在潜在空间建立对物理规律、材料属性、时间连续性的因果图谱。训练流程可按以下逻辑拆解:

从高保真模拟环境中收集具备物理一致性的多模态数据(视觉、深度、动作);
通过自监督损失逼迫网络同时最小化预测下一帧像素和保持对象持久性;
在推理阶段反向使用该世界模型生成新场景,验证其自洽性;
利用外部 Agent 在生成世界中完成任务,进一步采样「硬例」细化模型。

这一框架的核心心智在于:只有当 AI 能「想象」世界并用行动检验想象,才算真正理解世界。团队接下来的重点将是降低推理成本以开放给更多外部开发者,同时设计版本管理与重现机制,确保优秀关卡能被社区反复分享且状态一致 .

产品设计需要前瞻性:

与指数级底座赛跑,对创业者而言,底层模型更新速度已逼近「双周级」,传统瀑布式需求规划难以跟上。Demis 提供了如下心智模型:

以「能力预测表」替代「需求列表」:先列出未来 12 个月大模型大概率将具备的 API 与思考能力,再反推用户体验。
设计「可撤换引擎」:核心逻辑应与模型调用松耦合,后端一旦升级仅需调整提示词或调用格式。
构建「不可平替」价值层」:把精力投入模型短期内难以原生支持的环节,如高精度数据管道、合规策略或领域知识图谱。
Open AI 也发布了 GPT-5 的官方提示词指南,更适合开发者参考#ai创造营#

具体包括:智能体任务与工具调用、推理与上下文复用、代码生成与协作、可控性与指令遵循、Markdown 格式化、元提示(Metaprompting)代码工具与环境说明

基本涉及了 AI 产品和 Agent 构建的各个方面,我总结了一下还是推荐看原文👇

智能体任务与工具调用

Agentic Workflow Predictability:推荐使用 Responses API 持续保存推理过程,提升智能体应用效率。

Agentic Eagerness:可通过调整 `reasoning_effort` 参数和提示词,控制模型的主动性。
降低主动性:使用低 `reasoning_effort`,明确探索范围和早停标准,减少不必要的工具调用和上下文收集。
提高主动性:提升 `reasoning_effort`,鼓励模型持续完成任务,减少向用户确认或交还的频率。
Tool Preambles:通过提示词引导模型在工具调用前,简明扼要地重述用户目标、规划执行步骤。

推理与上下文复用

Reasoning Effort:可根据任务复杂度调整推理深度。复杂任务建议高推理力度,并将任务拆分为多个步骤分批完成。
Responses API:推荐使用 Responses API 传递前序推理结果,节省 token。

代码生成与协作

前端开发推荐栈:GPT-5 在前端开发表现优异,推荐使用 Next.js、React、Tailwind CSS、shadcn/ui 等主流框架和组件库。
零到一应用生成:通过提示模型自建评估标准,并据此反复自我优化,提升一次性生成应用的质量。
代码风格与规范:明确代码编辑规则、工程原则、目录结构和 UI/UX 最佳实践,确保模型生成代码与现有项目风格一致。
协作编码案例:通过参数和提示词双重控制,平衡输出简洁性与代码可读性,鼓励模型主动提出变更并让用户审核。

可控性与指令遵循

Steerability:GPT-5 对提示词的可控性极高,可控制输出长度、风格和工具调用行为。
Verbosity:新增 `verbosity` 参数,控制最终答案的长度。可在提示词中覆盖默认设置,实现场景化定制。
Instruction Following:GPT-5 对提示词指令极为敏感,需避免矛盾或模糊的指令。
不是 通义,母猪下崽呢一天一个模型#ai创造营#

发布 Qwen3-Coder-Flash:Qwen3-Coder-30B-A3B-Instruct

- 非常快的生成速度。
- 256K 上下文(最多 一百万扩展上下文)
- 针对 Qwen Code、Cline、Roo Code、Kilo Code 等平台进行了优化。
- 无缝函数调用和 Agent 工作流程
试了一下 MyShell 新推出的 ShellAgent 2.0#ai创造营#

这个有意思的点是,没有前端页面,都在一个 Chatbot 里面用通用组件交互,只需要专注 Agent 流程本身就好,用户也不用管展示,只说功能逻辑就行。

我先是想让他整一个计算八字的 Agent,然后再给一张对应的图片。

看过我之前的提示词的都知道我需要写一堆网页样式和交互逻辑的提示词,这个对于 C 端用户来说是很高的门槛,但是现在完全不需要的,一句话就行。
在你输入提示词之后他会先进行需求分析,然后询问你一些需要补充的细节,在你确认之后就开始生成了。
右侧会展示 Agent 的生成进度,下面那个用户旅程图特别有意思,你可以很快的理解他的 Agent 构筑思路。
而且旅程图的部分选中之后还能作为上下文填写到修改的部分。

生成过程非常的简单,输入完提示词等待他生成结果就行。
生成结束后你就能看到右侧预览界面有内容了,这时候直接进行交互就行。
之后等待结果就行,由于这个是真的强力模型在推动,所以效果上非常好,整个结果非常专业、全面和完善。
最后我还会让他根据你的运势生成一张运势海报图片,帮助你形象的理解自己的运势。

搞完这个之后由于 MyShell 里面还内置了一些 Web3 的工具,虽然咱不能玩,但是可以看看八卦。
于是我就让他可以根据你输入的钱包地址详细的分析这个钱包的资产和转账内容,然后给出一个偏娱乐性质的报告。

输入提示词等待一段时间后就好了,我们只需要点击开始追踪,然后输入钱包地址或者 ENS 域名,选择网络就好,这里用 V 神的域名做测试。
然后等待结果就行,AI 会以非常简练而且幽默的方式对你解读这个钱包的资产配置以及背后所代表的意思,很好玩,无论你是否理解 Web 3 都可以看懂。

ShellAgent 2.0 里面内置了超多工具,除了能生成文本和图片之外还能生成音频。
所以就想了一个点子,让他根据我的文档内容生成学习的播客和图片闪卡来拆解学习资料。

你只需要上传文档或者给出你想要学习的网页链接就可以。
比如我这里拿个论文模型试一下,他会先生成对应的核心要点总结,然后你可以选择生成图片的闪卡或者解读播客。
右侧的图片就是生成的图片闪卡,感觉可以自己打印出来放到一个地方去记忆。
后面还会帮你生成一个播客,直接听就行。
这个观点很好,软件正从以界面为中心的用户体验(UX),变为以 Agent 为核心的 Agent 体验(AX)。#ai创造营#

最好的产品会主动理解、记忆并不断优化用户体验。

传统的 UX(用户体验)以屏幕和界面为中心,用户每次操作都从零开始,产品只根据预设流程做出反应,几乎不记住用户的历史和偏好。设计师提前规划好所有路径,用户需要不断填写表单、选择选项,软件只追求“更少点击、更快流程”。

AX则以“关系”为核心。软件像一个智能助手,持续记住用户的目标、偏好和历史,主动推送下一步建议,随着使用不断进步。系统会自主规划路径,学习上下文,记住团队习惯,甚至能做出设计师未预设的决策。

在 AX 模式下,衡量产品成功的标准变成了“信任感”和“复利价值”,而不是单纯的操作效率。信任的建立也更像人与人之间的协作,智能体会展示自己的推理过程,随着信任加深逐渐减少干预。
未来大多数软件都会采用 AX 模式,成为“你合作的伙伴”而不是“你使用的工具”。一旦体验过真正的 AX,传统的 UX 会让人觉得“过时且低效”。

这是 UX 和 AX 两者的详细对比:

传统用户体验 (以屏幕为中心):

用户点击一个按钮,产品做出反应,任务便完成了。每一次新的会话都意味着从零开始。
一旦用户偏离了设计师预设的“理想路径”,系统往往会不知所措,并出现错误状态。
用户需要通过填写表单等来提供所有信息,一旦离开当前会话,产品便会忘记关于你的一切。
衡量体验好坏的标准主要集中在减少操作摩擦上,而不是能否带来深刻的理解或创造持久的价值。
用户信任的是品牌界面的外观和感觉,而非系统持续的、智能的判断力。

代理式体验 (以关系为中心)

代理会持续追踪进度,适时地推动下一步,并随着时间推移不断学习和改进。
它能主动地感知、推断并选择行动方案,这些行动是设计师未曾,也无需逐行编写脚本的。
系统会记住并复用用户的偏好、行为模式,甚至是团队的工作规范,用户无需再三解释自己。
关键的衡量指标转向了用户留存率、对决策的满意度,以及用户最终愿意将多少自主权交予系统。
代理会像一位出色的人类队友,在合作初期充分展示其工作成果以建立信任,然后随着用户信心的增长而逐渐减少不必要的干预。

来源:x.com/gregisenberg/status/1947693459147526179
Manus 昨晚发布了一篇非常好的内容#ai创造营#

总结了他们关于 AI Agent 上下文工程上的经验教训。

除了了解如何做以外 Peak 还清晰的解释了为什么这么做,非常适合作为入门引导文章。

我手动整理一下,强烈推荐看原文:manus.im/blog/Context-Engineering-for-AI-Agents-Lessons-from-Building-Manus

首先需要围绕 KV 缓存进行设计

KV 缓存命中率是生产阶段 AI 代理中最重要的指标,它直接影响延迟和成本。

在 Agent 任务中预填充和解码之间的比例在代理中相比聊天机器人显得极为不平衡。

相同前缀的上下文可以利用 KV-cache,这大大减少了首次生成标记时间(TTFT)和推理成本,比如 Claude Sonnet 可以相差 10 倍。

简单解释一下 KV Caching:

KV Caching(Key-Value 缓存)是指在生成式 Transformer(如 GPT、T5 等模型的解码器部分)中,将每一步生成时计算得到的 Key(K)和 Value(V)矩阵保存下来。这样,在生成下一个 token 时,模型只需要计算新 token 的 Key 和 Value,并与之前缓存的内容一起用于注意力计算,而不必每次都重复计算所有历史 token 的 Key 和 Value。

提高 KV-cache 命中率涉及几个关键做法:

1️⃣保持提示前缀稳定。由于 LLMs 的自回归特性,即使是单个标记的差异也会使该标记及其之后的缓存失效。一个常见错误是在系统提示开头包含时间戳——尤其是精确到秒的时间戳。虽然这样可以让模型告诉你当前时间,但也会大幅降低缓存命中率。

2️⃣使上下文仅追加。避免修改之前的操作或观察。确保序列化是确定性的。许多编程语言和库在序列化 JSON 对象时不保证键的顺序稳定,这可能会悄无声息地破坏缓存。

3️⃣在需要时明确标记缓存断点。一些模型提供商或推理框架不支持自动增量前缀缓存,而是需要在上下文中手动插入缓存断点。设置这些断点时,要考虑潜在的缓存过期问题,至少确保断点包含系统提示的结尾部分。

屏蔽而非移除工具

随着你的 Agent 功能越来越多,他的工具数量激增。最近 MCP 的流行更是火上浇油。模型更可能选择错误的动作或采取低效的路径。简而言之,你的重装代理反而变得更笨了。
试了一下秘塔新发布的深度研究,这是首个在国内免费提供的深度研究产品

他们在除了免费、准确性高以外,在体验上也做了非常多的优化#ai创造营#

AI 搜索或者 AI 深度研究最重要的就是减少模型幻觉,提高搜索结果和推理结果的准确性。
一般大家都会从两个部分进行优化:
首先就是通过算法和模型真的提高搜索结果和信息获取的准确性,然后加上模型验证等方式降低模型幻觉。
由于我们无法彻底根除模型幻觉,第二个方式就是通过各种交互和展示帮助用户低成本快速的完成信息的验证,给用户信心。

首先秘塔为了降低成本同时保障准确性做了很多工作。
他们将深度研究拆分为多个子任务进行分段强化学习,从而大幅降低了降低资源消耗,又能维持非常高的准确性。在BrowseComp等评测集上也体现了这一点。

然后在通过交互和展示帮助用户快速完成信息验证增强信心的方面。
秘塔这次用一种非常新颖的交互打开了深度研究算法的黑箱,让用户直观的看到了模型在执行任务过程中的动态“问题链”本身。
这个可以说是在搜索结果后面增加标注后的另一个非常重要的 AI 产品交互创新了。
产品交互分为三部分:顶部预览实时展示模型搜索进度和原因,左下 Console 滚动显示搜索摘要,右下总览视图方便定位流程位置。
每步推理用颜色卡片区分:绿色为结论明确,紫色需继续推理,橙色信息待补充。卡片连线标注分支原因,便于理解推理流程。

除了帮你理解过程外,秘塔深度研究还有一个优势是在研究结果的表现上。
不仅有文字,还支持多模态展示,并可点击按钮生成播客式语音讲解,方便随时核实内容。
数字标注悬停时会高亮引用卡片,还能生成语音讲解。PDF 用红色、视频用粉色标记,PDF 可侧边栏直接展开对照。
最后你还可以基于搜索结果生成可互动的研究报告网页,里面除了文字和可视化排版外,他还会搜索对应主题的图片和视频填充进去丰富内容。

说完了这么多交互和产品设计上的创新和优化,我们来看看最核心的搜索结果怎么样。

首先是最近闹得很热的关于娃哈哈宗庆后遗产分配的案子。搜索结果简明梳理了娃哈哈宗庆后遗产案的争议点,按时间线清晰展示事件经过,并分析了后续影响,内容全面且结构清晰。

最近稳定币很火,但是为啥 Web 3 很多国家都在打击,这个东西也是基于 web3 但又好像变合法了,都是不太清楚的。
我一直觉得飞书多维表格是他们最强的产品部分了。#ai创造营#

昨天飞书大会有事没去,看了一下新发布的能力,有点牛批啊,基本上可以代替所有的传统业务系统了。

多维表格的 AI 能力是我觉得超级牛皮的部分,AI 字段、AI 节点、AI 工作流三层直接让很多业务流程可以自动化,复杂的流程也可以一句话搭建完成,不需要理解。

我之前就用飞书的多维表格搞过一个 AI 视频生产和 AI 论文分析模板,效率高了很多。

现在表单容量提升到了 1000 万行,基本上一个中型非互联网公司所有的数据够呛有这么多,计算速度提升了 10 倍,甚至可以媲美专业数据库了。

而且内置超多的 BI 组件,数据透视、TopN、桑基图、地图等都有,原始的数据管理和分析可以一键完成,自由度也非常高。

飞书多维表格现在在用另一种可视化加 AI 辅助的方式让“人人都嫩个成为开发者”,不需要高昂的预算,任何了解业务的人都可以搭建出符合自己要求的数字系统,如果自己的公司或者业务有这种管理系统的需求可以试试。

另外在飞书大会上Way to AGI 的 AJ 也发布了一个超创计划,期望汇聚全球的顶尖 AI 人才库,同时帮助人才和企业建立链接相互转化。
昨天跟乔木和 indigo 等朋友在 AGI Bar 见面聊了聊,朋友们很多发言都很有价值。
我主要聊了一下关于 AI 对于内容创作的影响以及如何培养流量嗅觉。

这里整理一下发出来:#ai创造营#

AI时代内容创作的变革

自从有了AI,在广告投放中不再需要设计师制作素材,大大节省了成本并提高了效率。虽然AIGC在影视行业的技术尚未完全成熟,但用于制作简单的营销内容已完全可行,并鼓励同行广泛应用AI。

AI Agent理论上可以处理大量的内容输出,而他目前的工作重心已转向判断内容质量、审查AI生成内容以及提出核心创意点(甚至创意本身也可以通过AI辅助发散)。

在自媒体时代,传统的“一辈子作品”概念已经消失,取而代之的是创作者需要不断地“整活”(即制造热点和内容),通过持续输出抽象化、个性化的内容来维持影响力。越抽象、越能引发共鸣的“梗”,越容易爆火,并且这些热点与AI的关联度越来越高。

未来会有越来越多的IP采用共创模式,用户将自发地利用AI工具生产与IP相关的内容,进一步扩大其影响力。

流量获取与“嗅觉”培养

“流量”是目前内容创作中最难培养的部分,AI也很难直接评估或控制,因为它受到平台算法和外部环境等诸多不可控因素的影响。

平台算法具有特定的倾向性,并且用户的审美和内容消费形态也在持续变化,这要求创作者保持敏锐的洞察力。

培养“流量嗅觉”的方法:
1️⃣“多看”:需要经常刷抖音、小红书等用户基数最大的平台,以便了解最新最火的内容和热点趋势。
2️⃣“多收集”:积极收集热门内容和创意。
3️⃣善用AI:AI能够帮助创作者更高级地“蹭热点”,并深入挖掘热点背后的核心要素。

虽然“整活”(制造爆点或创意)是一种天生的能力,但AI可以显著提升其上限,帮助创作者将想法落地。

对AI技术了解得越深入,创作者就越能充分发掘其潜力与上限。
Claude Code 自定义斜杠命令升级了#ai创造营#

现在可以把提示词存在本地的 Markdown 文件里面,还可以通过“/”文件名调用

通过这次更新,你现在可以:
- 从斜杠命令执行 bash 命令
- 使用 @ 提及文件以获取上下文
- 在命令中使用关键词以启用扩展思考

还能将命令存放在项目的 .claude/commands/ 目录中,共享最佳实践、代码模板和工作流
我去 FLUX Kontext 完全开源了朋友们!#ai创造营##ai画图#
这是现在商品一致性最简单效果最好的方案,有需求的可以冲了。

模型下载及工作流:docs.comfy.org/tutorials/flux/flux-1-kontext-dev

FLUX.1 Kontext [dev]专注于编辑任务。该模型支持迭代编辑,擅长在多样化场景和环境中保持角色一致性,并允许进行精确的局部和全局修改。

与英伟达合作,专门针对全新 NVIDIA Blackwell 架构构建了优化版 TensorRT 权重,在保持高质量图像编辑性能的同时,大幅提升推理速度并降低内存占用。
 
 
Back to Top