146: Gemini 3翻盘背后、Agent需要什么大模型、RL创业机会，与前 Google 创业者、硅谷投资人聊湾区动向

https://is1-ssl.mzstatic.com/image/thumb/Podcasts211/v4/79/f3/66/79f366d3-dfb2-4c6e-ade6-e95e18261c4f/mza_6811336372335437524.jpg/600x600bb.jpg

晚点聊 LateTalk

晚点 LatePost

147 episodes

20 hours ago

《晚点聊 LateTalk》由《晚点 LatePost》出品。最一手的科技访谈，最真实的从业者思考。

All content for 晚点聊 LateTalk is the property of 晚点 LatePost and is served directly from their servers with no modification, redirects, or rehosting. The podcast is not affiliated with or endorsed by Podjoint in any way.

《晚点聊 LateTalk》由《晚点 LatePost》出品。最一手的科技访谈，最真实的从业者思考。

Business

Technology,

News

https://media24.fireside.fm/file/fireside-images-2024/podcasts/images/1/19a49f52-28ee-4e25-b8e9-4f0ee70917e0/cover.jpg?v=7

146: Gemini 3翻盘背后、Agent需要什么大模型、RL创业机会，与前 Google 创业者、硅谷投资人聊湾区动向

晚点聊 LateTalk

1 hour 40 minutes 58 seconds

2 weeks ago

146: Gemini 3翻盘背后、Agent需要什么大模型、RL创业机会，与前 Google 创业者、硅谷投资人聊湾区动向

「一线开发者看到的前排变化。」

本期是 137 期 Agentic 工具链节目的嘉宾返场，Henry 和 Naomi，他们近期刚刚和普林斯顿 AI 加速创新中心联席主任，王梦迪教授，一起成立了一家新的早期 VC，MoE capital。

这次一起的也有两位之前在 Google DeepMind 和谷歌云 Vertex AI 平台工作 7 年，刚刚创业，成立 Agent 工具层公司 Precur 的戴涵俊和 Bethany。

我请他们分享了，岁末年初，在硅谷观察到的 AI 水温，OpenAI、Google 等一系列新模型进展背后的故事，和围绕当今 Agent 与 RL 生态的创业机会。

这是我们本年关于 Agent 的第 8 期节目。

本期嘉宾：
Bethany Wang，Precur 联创
戴涵俊，Precur 联创
Henry Yin，MoE Capital 创始合伙人
Naomi Xia，MoE Capital 创始合伙人

本期主播：
程曼祺，晚点 LatePost 科技报道负责人

时间线：
-基础模型竞争和幕后故事：Google 在旧金山开 Gemini 3 Party 的同一天，OpenAI 发布 GPT-5.2
06:11 AI 进入实用工作：OpenAI 的 GDPval，Databricks 也发布了 Office QA
14:25 GDPval 在主流知识工作上表现优秀，但基础模型处理长尾问题的 gap 始终存在
19:09 Gemini 3 后，OpenAI、Anthropic、Google、各自的进展
22:15 NotebookLM 和 Nano Banana 策源地——Google Labs，不仅招工程师，也有主编、作家、创作者
24:54 DeemMind 研究员 Orio：Gemini 3 的秘密？预训练还有很多空间；TPU 对 Google 训练的加持

26:34 Google 的 3 层协同优化：从 TPU 到 Infra 到模型；模型和应用；数据和硬件 surface（终端）
30:18 Google TPU 已经更多对外，这对英伟达 GPU 优势的影响
38:02 回顾组织变化：DeepMind 和 Google Brain 的合并与磨合

-大厂竞争中，新公司的成长：围绕 RL 与 Agent 的创业机会
43:31 垂类的机会：弥补基础模型到具体问题的差距；水平的机会：调度层、数据层、工具层都有新公司涌现
50:17 技术新趋势——自我演化：RL、用 RAG 加长记忆有人尝试，但远不是成熟方案
53:32「可训练的工具层」背后的技术变化：code 驱动工具，如 Anthropic 的 PTC（Programmatic Tool Calling）
59:44 RL 创业方向：RL 环境，RL as a Service，RL 应用
01:08:47 Agent 开发者挑选模型的前置条件：用什么云（比如 Azure 客户用不了 Gemini），再看云厂商折扣
01:12:20 Anthropic 的 Claude Code 已成为 Agent 核心，刚发布的 Promatic to Call 探索新开发范式
01:17:13 开源模型使用体验：Qwen 很棒；驶往 NeurIPS 的飞机上，1/3 人在看 DeepSeek-V3.2 技术报告
01:22:04 选择模型时，关注什么 benchmark & 为什么？
01:29:34 模型优化方向预测：加入大量 agent trace 的开源模型，更强的多模态，长程任务优化

01:38:58 连点成线：往期节目推荐

《晚点聊》今年关于 Agent 的更多节目：
晚点聊 106 期：与真格戴雨森长聊 Agent：各行业都会遭遇“李世石时刻”，Attention is not all you need

晚点聊 110 期：《与明势夏令聊Agent竞争：通用入口之战就要来，创业要做垂、做专》

晚点聊 111 期：Pokee.ai 朱哲清的 Agent 造法：强化学习作后端，语言模型作前端

晚点聊 130 期：手机Agent大幕拉开！从刚上线的AutoGLM 2.0聊起，大模型如何改造手机

晚点聊 136 期：Sora新世界 & Lovart 4个月复盘 | 与陈冕聊怎么做垂类Agent|

晚点聊 137 期：Agent 是机会，造 Agent 的工具也是|从OpenAI开发者日聊起

晚点聊 138 期：从你用手机到它更懂你，OPPO的手机AI实践 |与小布负责人万玉龙聊端侧AI

附录：
本期中提到的一些 benchmark：
-GDPVal：OpenAI 今年 10 月发布的、用于评估大模型在复杂推理与决策场景中“价值对齐与结果质量”的验证型 benchmark，强调输出是否符合人类偏好而不只是“做对题”。
-ARC-AGI-2：ARC Prize 今年 3 月发布的、用于测试模型在少样本条件下的抽象、组合推理能力，被视为接近“通用智能门槛”的挑战集。
-OfficeQA：Databricks 今年 12 月发布的、围绕办公场景（文档、表格、邮件、日程等）的 benchmark，用来评估模型在真实工作流中的信息检索、理解与执行能力。

本期中提到的一些产品/服务、公司
-PTC（Programmatic Tool Calling）：Anthropic 今年 11 月底发布的一种新的工具调用方法
https://www.anthropic.com/engineering/advanced-tool-use
-Tinker：Thinking Machines Lab 今年 10 月发布的首个对外产品
https://thinkingmachines.ai/blog/announcing-tinker/
-Preference Model：一家旧金山初创企业，做强化学习环境

剪辑制作：甜食、Nick

小红书@曼祺_火柴Q即刻@曼祺_火柴Q

☆《晚点聊 LateTalk》建立「播客听友群」啦！☆

欢迎关注科技、商业大公司动态和创业创新的小伙伴进群交流，第一时间收听新节目。
这里有更多互动，更多话题讨论。欢迎贡献选题 & 推荐嘉宾。

请先添加「晚点」小助手的微信号，备注：“晚点聊”，我们邀请您入群。

关注公众号《晚点 LatePost》和《晚点对话》，阅读更多商业、科技文章：