AI 与外卖 2026-W19

整理日期：2026-05-08 信息窗口：2026-05-04 ~ 2026-05-08

本周值得关注的 AI 进展

1. 表格和 Office AI 正在进入商分最熟悉的工作界面

事实

ChatGPT 本周以插件形式进入 Excel 和 Google Sheets，AI HOT 摘要显示它可以在表格里帮助分析杂乱数据、编写公式、更新电子表格，并解释操作过程。Claude 也宣布面向 Excel、PowerPoint、Word 和 Outlook 的协同能力，摘要提到它可以在多个 Office 应用间保持连续对话上下文，企业管理员可统一部署并接入监控。

来源

X：ChatGPT，2026-05-05：https://x.com/ChatGPTapp/status/2051776032127238266
Claude Blog，2026-05-07：https://claude.com/blog/collaborate-with-claude-across-excel-powerpoint-word-and-outlook

观察分析

对外卖商分来说，这类能力的重要性不是“表格里多了一个聊天框”，而是 AI 终于进入了商分真实工作的主界面。GMV 下滑拆解、ROI 复盘、活动核销、城市对比、商家分层、履约异常排查，很多第一版分析都发生在 Excel、Sheets 或 Office 文档里。

如果表格 AI 能稳定读取字段、生成公式、解释变化、同步到 PPT 和复盘文档，商分工作会先从“手工整理材料”转向“定义问题、校验口径、判断归因”。但边界也很明确：外卖指标口径复杂，GMV、订单、补贴、ROI、超时率、取消率都不能只靠模型猜。没有数据来源追溯、口径版本、异常样本和贡献值校验，表格 AI 很容易把自然增长、活动增量和被补贴透支的需求混在一起。

入选理由

这条进入本周周报，是因为它对应商分知识库 MVP 里最容易落地的入口：指标问答、复盘草稿、看板解读和异常拆解。它不是最炫的模型新闻，但离商分日常最近。

2. 工作流 Skill 化让知识库从“能问答”转向“能跑 SOP”

事实

Warp 开源了内部使用的 15 个 Oz Skills，覆盖 Git/GitHub 协作、数据分析与标准化、Web 质量审计、基础设施规范和文档更新等流程。GitHub Blog 披露，运行在 PR 上的 agentic workflow 会累积较高 API 成本，团队通过监测生产工作流并构建专门智能体来降低 token 消耗。Amp Neo 的相关摘要显示，Coding Agent 正从陪伴式交互走向更长链路的远程控制、队列、插件和自动上下文压缩。

来源

X：邵猛，2026-05-06：https://x.com/shao__meng/status/2051865033425190994
GitHub Blog，2026-05-07：https://github.blog/ai-and-ml/github-copilot/improving-token-efficiency-in-github-agentic-workflows
X：邵猛，2026-05-07：https://x.com/shao__meng/status/2052212574306095337

观察分析

外卖业务认知库 V1.0 里最关键的判断是：知识库不能只是资料库，而要沉淀商分方法论和异常排查 SOP。Warp Oz Skills 这类实践说明，Agent 的价值正在从“回答你怎么做”走向“把一套流程封成可重复执行的技能”。

对应到外卖，GMV 下滑、ROI 下降、履约超时、商家在线率下降、支付转化下降，都是高频、高价值、可标准化的问题。真正有用的商分 AI 不是生成一段泛泛解释，而是按固定链路先检查数据延迟和口径变化，再拆 GMV = 订单量 × 客单价，继续拆流量、转化率、城市、品类、用户、商家、时段，最后用贡献值找主因。

这里的风险也来自同一个方向：长链路 Agent 一旦没有成本监控、步骤审计和中间结果校验，错误归因会被自动化放大。GitHub 对 token 成本和工作流效率的处理，对外卖商分 Agent 同样有参考意义：流程越常跑，成本、缓存、上下文压缩和失败回放越重要。

入选理由

这条值得写，是因为它直接对应“商分知识库到底应该沉淀什么”。文档问答只能回答“指标是什么”，Skill 化 SOP 才能回答“今天 GMV 为什么跌、下一步该看哪里”。

3. 实时语音模型更适合先做商家教育、BD 训练和客服分流

事实

OpenAI 发布新的语音模型 API，AI HOT 摘要显示这些模型支持实时语音交互、推理、翻译和语音转录。OpenAI Developers 同时发布 GPT-Realtime-2 提示指南，覆盖推理强度、工具行为、不清晰音频、实体捕获和长会话状态保持。xAI 的摘要称 Grok Voice Think Fast 1.0 面向现实世界语音助手，强调复杂工作流、嘈杂环境和高频工具调用。

来源

OpenAI 官网，2026-05-07：https://openai.com/index/advancing-voice-intelligence-with-new-models-in-the-api
X：OpenAI Developers，2026-05-07：https://x.com/OpenAIDevs/status/2052530378184032560
X：xAI，2026-05-07：https://x.com/xai/status/2052529102280880234

观察分析

语音 AI 和外卖业务的关系，短期更像“降低沟通和训练成本”，不应直接跳到大规模自动外呼或自动承诺。外卖里适合语音先试的对象包括商家教育、BD 话术训练、客服分流和运营规则解释：这些场景高频、重复、上下文可控，且可以保留人工确认。

例如商家侧，AI 可以帮助解释活动规则、出餐要求、菜单优化建议、配送半径影响；BD 侧，AI 可以做拜访前演练和话术质检；客服侧，AI 可以先做催单、退款、投诉类型的初步分流。但一旦进入赔付、责任判定、活动承诺、商家处罚，语音模型就需要更严格的工具权限、话术边界和日志留存。

这条信息对外卖的启发是：语音模型的产品价值不只在“像真人”，而在能不能稳定捕获实体、调用工具、保持状态，并把对话落回订单、商家、骑手、活动或客服工单这些业务对象。

入选理由

这条进入周报，是因为语音能力和外卖一线场景天然贴近，但它也是容易误判的方向。短期价值在训练、解释和分流，风险在错误承诺和责任边界。

4. Agent 生产底座的核心问题转向成本、权限、审计和回滚

事实

GitHub Blog 讨论了 agentic workflow 的 token 使用效率，重点是生产工作流持续运行后会形成真实 API 成本。Grok Web 推出 Connectors，摘要显示它可以连接 SharePoint、Outlook、OneDrive、Google Workspace、Notion、GitHub、Linear，并支持自带 MCP。OpenAI 的官方命令行工具 openai-cli 开源，摘要显示它可在终端调用 Responses API、网页搜索、代码解释器、图像生成编辑、语音转录，并支持结构化输出和管道处理。Claude Code v2.1.133 也在本周发布。

来源

GitHub Blog，2026-05-07：https://github.blog/ai-and-ml/github-copilot/improving-token-efficiency-in-github-agentic-workflows
xAI News，2026-05-06：https://x.ai/news/grok-connectors
X：宝玉，2026-05-07：https://x.com/dotey/status/2052512560264380737
Claude Code GitHub Releases，2026-05-07：https://github.com/anthropics/claude-code/releases/tag/v2.1.133

观察分析

这组信息共同指向一个变化：Agent 不再只是聊天窗口里的能力，而是在接入企业应用、命令行、MCP、GitHub、Office、Notion 等真实工作系统。对外卖而言，这意味着落地速度差异不会只取决于模型，而取决于内部系统是否可被安全调用。

商分 Agent、运营 Agent、商家诊断 Agent、履约异常 Agent 如果要进入生产环境，必须回答四个问题：能访问哪些数据，能调用哪些工具，谁为结果负责，出错后怎么审计和回滚。否则，Agent 可能在补贴配置、商家处罚、客服赔付、活动规则解释上放大风险。

成本也是同一级别的问题。GMV 异常排查、日报、周报、客服分流、商家诊断都是高频任务，如果每次都把大量上下文塞给模型，长期成本会从“试点预算”变成“生产成本”。这也是为什么 token 效率、上下文压缩、权限分层和日志回放需要从一开始就进入设计，而不是试点成功后再补。

入选理由

这条值得进入本周周报，是因为它提醒外卖 AI 落地的真实瓶颈正在后移：从“有没有模型”变成“有没有可审计、可授权、可回滚、成本可控的业务工具底座”。

5. 多模态和空间理解适合先进入商家与履约现场能力储备

事实

Apple Machine Learning Research 发布 SFI-Bench，AI HOT 摘要显示该基准用第一人称室内扫描视频评估多模态大模型从位置感知到功能意图理解的空间推理能力。HuggingFace Daily Papers 收录的 OpenSearch-VL 摘要显示，研究团队构建了开源多模态深度搜索智能体方案，结合文本搜索、图像搜索、OCR 和图像处理工具，并在多个基准上提升表现。

来源

Apple Machine Learning Research，2026-05-06：https://machinelearning.apple.com/research/spatial
HuggingFace Daily Papers，2026-05-06：https://arxiv.org/abs/2605.05185

观察分析

多模态能力对外卖的中长期价值很清楚：菜品图片质量、门店环境、用户评价图片、骑手现场照片、客服截图、商家菜单、食品安全材料，都是文本以外的重要经营信号。空间功能理解和多模态搜索进一步说明，模型不只是“看见图片”，而是开始理解物体、环境、用途和检索路径。

但这条不应被包装成短期 P0。外卖场景里的图片和现场材料涉及隐私、合规、商家信任、食品安全责任和证据链。没有标准化采集、授权、标注、质检和复核流程，多模态模型只能做辅助观察，不能直接做处罚、赔付或商家评级。

更合理的定位是能力储备：先用于菜品图质检、菜单结构识别、商家页素材诊断、客服投诉图片分类、骑手现场证据整理等低风险环节，并用人工复核校验模型判断。等数据治理和流程闭环成熟后，再考虑进入更强的经营诊断。

入选理由

这条进入周报，是因为外卖业务有大量非结构化现场信息，多模态会长期重要；同时它也提醒不要把论文和基准直接外推成业务自动化。

来源与评分

来自 X：ChatGPT：ChatGPT 进入 Excel 和 Google Sheets，可在表格内分析数据和生成公式发布时间：2026-05-05 21:28:20 采用理由：直接对应商分表格分析、指标解释和复盘材料生产。评分：AI 重要性 2 / 外卖相关性 5 / 新鲜度 3 / 可应用性 4 / 业务总分 3.55
来自 Claude Blog：Claude 扩展到 Excel、PowerPoint、Word 和 Outlook 的跨应用协同发布时间：2026-05-07 18:41:18 采用理由：补充 Office 工作流连续上下文和企业部署视角。评分：AI 重要性 3 / 外卖相关性 3 / 新鲜度 2 / 可应用性 4 / 业务总分 3.10
来自 X：邵猛：Warp 开源 15 个内部 Oz Skills 工作流工具发布时间：2026-05-06 03:22:00 采用理由：对应商分 SOP Skill 化和知识库从文档到可执行流程的方向。评分：AI 重要性 2 / 外卖相关性 5 / 新鲜度 2 / 可应用性 5 / 业务总分 3.65
来自 GitHub Blog：GitHub 优化 agentic workflow 的 token 使用效率发布时间：2026-05-07 23:00:00 采用理由：提示高频 Agent 进入生产后必须管理成本和流程效率。评分：AI 重要性 5 / 外卖相关性 3 / 新鲜度 1 / 可应用性 4 / 业务总分 3.55
来自 X：邵猛：Amp Neo 把 Coding Agent 推向长链路、插件和自动上下文管理发布时间：2026-05-07 02:23:00 采用理由：补充长链路 Agent 的产品形态变化和权限风险。评分：AI 重要性 4 / 外卖相关性 2 / 新鲜度 3 / 可应用性 4 / 业务总分 3.25
来自 OpenAI 官网：OpenAI API 发布新的实时语音模型发布时间：2026-05-07 10:00:00 采用理由：对应商家教育、BD 训练、客服分流等语音场景。评分：AI 重要性 5 / 外卖相关性 2 / 新鲜度 2 / 可应用性 4 / 业务总分 3.40
来自 X：OpenAI Developers：GPT-Realtime-2 发布实时模型提示指南发布时间：2026-05-07 23:25:50 采用理由：说明语音 Agent 落地需要处理实体捕获、工具行为和长会话状态。评分：AI 重要性 5 / 外卖相关性 2 / 新鲜度 2 / 可应用性 5 / 业务总分 3.65
来自 X：xAI：Grok Voice 强调复杂工作流和嘈杂环境下的语音助手能力发布时间：2026-05-07 23:20:46 采用理由：补充客服和一线语音场景里的环境复杂度。评分：AI 重要性 5 / 外卖相关性 3 / 新鲜度 1 / 可应用性 4 / 业务总分 3.55
来自 X：宝玉：OpenAI 开源官方 openai-cli，支持终端直接调用 API 和工具发布时间：2026-05-07 22:15:02 采用理由：对应内部自动化、脚本化和 Agent 工具底座。评分：AI 重要性 4 / 外卖相关性 2 / 新鲜度 2 / 可应用性 5 / 业务总分 3.35
来自 xAI News：Grok Web 推出 Connectors，连接办公、代码和任务系统发布时间：2026-05-06 00:00:00 采用理由：说明 Agent 正在接入企业真实系统，权限和审计会成为关键。评分：AI 重要性 3 / 外卖相关性 1 / 新鲜度 5 / 可应用性 5 / 业务总分 3.20
来自 Claude Code GitHub Releases：Claude Code v2.1.133 发布发布时间：2026-05-07 23:49:04 采用理由：作为开发者 Agent 工具体系持续迭代的补充证据。评分：AI 重要性 2 / 外卖相关性 1 / 新鲜度 4 / 可应用性 4 / 业务总分 2.50
来自 Apple Machine Learning Research：SFI-Bench 评估多模态模型的空间功能智能发布时间：2026-05-06 00:00:00 采用理由：对应门店、菜品、现场材料的中长期多模态理解能力。评分：AI 重要性 5 / 外卖相关性 3 / 新鲜度 4 / 可应用性 1 / 业务总分 3.25
来自 HuggingFace Daily Papers：OpenSearch-VL 提出开源多模态深度搜索智能体发布时间：2026-05-06 00:00:00 采用理由：补充 OCR、图像搜索和多轮工具调用在非结构化材料处理上的潜力。评分：AI 重要性 5 / 外卖相关性 2 / 新鲜度 3 / 可应用性 2 / 业务总分 3.05

AI 与外卖 2026-W19

本周值得关注的 AI 进展

1. 表格和 Office AI 正在进入商分最熟悉的工作界面

2. 工作流 Skill 化让知识库从“能问答”转向“能跑 SOP”

3. 实时语音模型更适合先做商家教育、BD 训练和客服分流

4. Agent 生产底座的核心问题转向成本、权限、审计和回滚

5. 多模态和空间理解适合先进入商家与履约现场能力储备

来源与评分

评论