AI Agents大爆发:软件2.0雏形初现,OpenAI的下一步
AI Agents大爆发:软件2.0雏形初现,OpenAI的下一步
2025/03/17
1.Agent System 是什么 在以 LLM 为驱动的 AI Agents 系统中,LLM 是代理系统的“大脑”,并需要其他几个关键组件的辅助: 1. 规划(Planning) • 子目标和分解:AI Agents ...
Speak:用LLM重塑语言学习,再造一个Duolingo?
Speak:用LLM重塑语言学习,再造一个Duolingo?
【日积月累】 1.什么是 AI Tutor? 在线教育的创新本质上都在解决“如何规模化优质供给”的问题:Coursera  用录像的方式实现全球 Top 级大学经典课程这一稀缺教育资源的规模化,国内市场中,Vipkid 的创新在于用差异化...
2025/03/17
LangChain:Model as a Service粘合剂,被ChatGPT插件干掉了吗?
LangChain:Model as a Service粘合剂,被ChatGPT插件干掉了吗?
【日积月累】 1. 构建 AI 应用远不只是调用模型 API 一旦在 LLM 领域花了足够多的时间,在兴奋之余你会意识到当前模型本身的两点局限: 1. 它只有“脑子”没有“手臂”,无法在外部世界行动,不论是搜索网页、调用 API 还是查找数...
2025/03/17
C-Eval: 构造中文大模型的知识评估基准
C-Eval: 构造中文大模型的知识评估基准
【日积月累】 1.模型强弱的核心指标 首先,把一个模型调成一个对话机器人这件事情并不难,开源界已经有了类似于 Alpaca, Vicuna, RWKV 这样的对话机器人,跟它们随便聊聊感觉都还不错;但要真正希望这些模型成为生产力,随便聊聊是不够的。...
2025/03/17
DeepSeek发布开源数学定理证明模型
DeepSeek发布开源数学定理证明模型
【AI驱动】 DeepSeek发布了开源数学定理证明模型Prover-V1.5,通过将数学问题转换为Lean编程语言,引入强化学习系统,实现了自我迭代和Lean证明器监督。该模型在高中和大学数学定理证明测试中取得了63.5%和25.3%的成功率,超越了多款开源模型。DeepSeek-Coder-V2结合Lean证明器标注中间状态信息,提高了模型的形式化证明能力。模型训练采用GRPO算法进行强化学习训练,并引入RMaxTS算法解决证明搜索中的奖励稀疏问题。DeepSeek-Prover-V1.5在miniF2F和ProofNet基准测试中取得了新的SOTA。
2025/03/17
AI Coding 最全图谱:Agent 将如何颠覆软件
AI Coding 最全图谱:Agent 将如何颠覆软件
【日积月累】 01.Investment Thesis Coding 领域的投资主要面临着两个大变化,底层推理引擎的持续进步和市场空间的变化: 1)Coding 能力是 LLM + RL 范式下能力进化最快的方向,会是从 copilot 渐进...
2025/03/16
Agent 最全 Playbook:场景、记忆和交互创新
Agent 最全 Playbook:场景、记忆和交互创新
【日积月累】 01.State of AI Agent Agent 使用趋势: 每个公司都在计划部署 Agent Agent 领域的竞争正在变激烈。在过去一年中,许多 Agent 框架变得普及:例如使用 ReAct 结合 LLM 进行推...
2025/03/16
拾象 2025 AI Best Ideas:20大关键预测
拾象 2025 AI Best Ideas:20大关键预测
【日积月累】 Idea 01 微软转投 Anthropic,模型和云的格局彻底改变 微软和 OpenAI 的关系紧张已不是秘密,也许是 OpenAI 的公司架构,以及和微软的结盟方式太不同寻常,让多方利益制衡而紧绷的弦终会有断的一天...
2025/03/16
86 条 DeepSeek 的关键思考 |Best Ideas 开源
86 条 DeepSeek 的关键思考 |Best Ideas 开源
【日积月累】 01.神秘的DeepSeek “DeepSeek 最重要的事是 push 智能” 1. 创始人兼CEO梁文锋是 DeepSeek 最核心的人,和 Sam Altman 不是一类人,他是很懂技术的。 2. ...
2025/03/16
10 万卡集群:通往 AGI 的新门票
10 万卡集群:通往 AGI 的新门票
【日积月累】 GPT-4 发布之后,一直存在一种声音认为 AI 发展低于预期,模型能力没有明显跃升,主要原因就是目前还没任何一家 AI Lab 能够大幅增加在单一模型上投入的计算量。目前市面上已发布的模型在训练计算量上基本都是 GPT-4 水平(~2e2...
2025/03/16
RL 是 LLM 的新范式
RL 是 LLM 的新范式
【日积月累】 1.强化学习及语言模型技术回顾 强化学习的核心是 exploration and exploitation 强化学习的前置内容是机器学习(Machine Learning)。上一波的 AI 浪潮主要讨论的是 ML,它是通过人标注...
2025/03/16
Vercel:用生成式UI重塑前端开发
Vercel:用生成式UI重塑前端开发
【日积月累】 1.前端开发与 Next.js 的发展 为什么关注前端市场 AGI 很可能在开发领域率先实现,因为代码比自然语言更清晰明确、是经过形式逻辑优化的语言,而且开发场景的 feedback loop 是可以由机器自己验证并迭代的,因为...
2025/03/16
LLM的范式转移:RL带来新的 Scaling Law
LLM的范式转移:RL带来新的 Scaling Law
【日积月累】 1.为什么我们期待 RL 改变 LLM 范式? 1.1 LLM 利用现有数据,RL 探索长距离推理 2018 年,Lex Fridman 邀请 Ilya 来 MIT 客座讲一节课,Ilya 选择的主题是 RL 和 self-pl...
2025/03/16
Anthropic 创始人最看好的领域,AI for Science 深度解读
Anthropic 创始人最看好的领域,AI for Science 深度解读
【日积月累】 1.研究方法 导言 生命科学公司致力于将科学发现转化为药物、诊断工具和技术,显著改善人们的生活质量。在过去 15 年,该领域取得了巨大进展:多种影响深远的药物获得批准,如新冠疫苗、检查点抑制剂(checkpoint inhibi...
2025/03/16
为什么 AGI 应用还没有大爆发
为什么 AGI 应用还没有大爆发
【日积月累】 1.搜索是 LLM 初期最大的 Killer App 张小珺:你今年依然在美国花的时间非常的多,整个上半年最大的感受是什么? Guangmi Li:GPT-4 出来一年多了但 AI 应用还没大爆发,从结果上看是比较无聊的。抛开 ...
2025/03/16
Voice Agent:AI 时代的交互界面,下一代 SaaS 入口
Voice Agent:AI 时代的交互界面,下一代 SaaS 入口
【日积月累】 1.Voice Agent 全景图  为了快速框定出端到端模型出现后什么领域会有剧烈变化、什么领域不会,我们搭建了以下框架来分析声音领域的不同场景需求。 象限分类标准:1)纵轴是该场景是否对实时性敏感,上方的需要实时在线的回答,...
2025/03/16
1 24 25 26 27 28 439