yishan/MiniGame-Studios-S1W3

Fork 0

【交叉评测S1W3】MiniGame Studio — AI驱动的微信小游戏智能开发工作室 (yishan/MiniGame-Studios-S1W3) #3

New issue

Open

opened 2026-05-25 06:53:47 +08:00 by along429 · 1 comment

along429 commented

2026-05-25 06:53:47 +08:00

项目理解
本项目是一个面向微信小游戏开发的AI Harness工程，品牌名为 MiniGame Studio。核心定位是：将AI（Claude Code插件框架）转化为一个具备完整组织架构的"虚拟游戏工作室"，通过27个专业Agent、71个Skill、17条Rule、13个Hook和24份规范文档，系统化地辅助开发者完成微信小游戏的完整开发流程。
核心架构：
• 三层级Agent体系：决策层（3个：创意总监、技术总监、制作人）→ 主管层（7个：美术总监、音频总监、游戏设计师、主程序员、QA主管、关卡设计师、系统设计师）→ 执行层（17个：各专项程序员、设计师、测试员、文案等）
• Rule系统：17条规则覆盖代码规范、资产规范、协作协议、平台约束（微信小游戏4MB包体限制、Canvas 2D渲染、ES6兼容性等）
• Hook系统：13个钩子覆盖会话启动/停止、Git提交验证、资产验证、包体大小检查、Agent日志等
• 文档体系：24份规范文档 + 12份微信API参考
项目基于Claude Code插件框架，目标用户是微信小游戏开发者/团队，核心命题是：通过AI Harness将"一个人+AI"的生产力提升到接近"一个小型游戏工作室"的水平。
项目亮点
2.1 组织架构设计极其专业且完整
27个Agent不是简单的"prompt列表"，而是按照真实游戏工作室的职能层级设计的：
• 决策层：创意总监（愿景守护、支柱冲突裁决）、技术总监（架构决策、技术债务管理）、制作人（排期、资源、里程碑）
• 主管层：美术总监、音频总监、游戏设计师、主程序员、QA主管、关卡设计师、系统设计师
• 执行层：AI程序员、美术程序员、玩法程序员、UI程序员、UX设计师、音效设计师、技术美术、多分辨率专家、网络程序员、性能分析师、原型师、QA测试员、文案、微信API专家、微信Canvas程序员、微信云专家、微信项目结构师
每个Agent都有：明确的职责边界、协作协议、升级条件、委托关系图、禁止事项、输出格式规范。这种"组织即架构"的设计在AI Harness领域非常罕见。
2.2 微信小游戏平台深度适配
项目不是"通用游戏开发工具"，而是深度绑定微信小游戏生态：
• 包体约束：4MB主包、20MB总包、2MB单文件限制，每条Rule和Hook都围绕这些约束设计
• 渲染层：Canvas 2D专用规范（脏矩形优化、离屏Canvas生命周期、纹理图集、对象池）
• API封装：所有wx.调用必须通过src/platform/封装层，禁止业务代码直接调用
• ES6兼容性：详细的iOS/JavaScriptCore vs Android/V8差异表，包含Proxy、Array.values()、eval()等禁用说明
• 内存管理：150MB上限、内存警告监听、场景切换资源释放
• 社交裂变：创意总监职责中明确包含"分享机制、排行榜竞争、好友互助"的社交裂变设计
• 变现设计：IAA（激励视频广告）和IAP（内购）的创意决策有专门的Rule（monetization-code.md）
2.3 Rule系统工程化程度高
17条Rule不是简单的"编码规范"，而是覆盖了：
• 代码规范：AI代码、游戏逻辑代码、渲染代码、UI代码、网络代码、原型代码、变现代码
• 资产规范：资产大小限制、数据文件规范
• 协作规范：协作协议（6.4KB，包含沟通协议、决策流程、冲突解决）、设计文档规范
• 平台约束：模块通信、多分辨率、微信API使用、微信项目配置
• 测试规范：测试标准（2KB）
每条Rule都有具体的正确/错误示例，如gameplay-code.md中展示了"数据驱动+deltaTime+事件总线" vs "硬编码+直连UI"的对比。
2.4 Hook系统实现完整的DevOps流水线
13个Hook覆盖了开发全生命周期：
• SessionStart：环境自检（bash/jq/python可用性）、Git状态检测、项目差距检测（5类差距：缺少微信必需文件、近乎空项目、有代码缺设计、缺生产管理目录、有assets缺规范）、活跃会话状态恢复
• SessionStop：会话总结、未完成任务检测、Git状态检查、TODO/FIXME统计
• PreToolUse：Git提交验证（检查提交信息格式、关联Sprint/Bug）、Git推送验证
• PostToolUse：资产验证（尺寸/格式/大小）、微信项目验证（game.json/project.config.json字段完整性）、Skill变更验证、包体大小检查（4MB/20MB/2MB限制）
• Notification：Agent切换通知、任务完成通知
• Pre/PostCompact：会话压缩前后的上下文管理
• SubagentStart/Stop：Agent调用日志记录
这些Hook用bash脚本实现，包含完整的错误处理、路径检测、JSON解析（jq）、条件判断。
2.5 规范文档体系极其详尽
24份规范文档覆盖了：
• 编码标准（9KB）：微信小游戏JavaScript规范、内存管理、ES6兼容性、Canvas 2D、wx API调用、数据驱动、代码结构、云开发、包体约束
• 协作规则（18.5KB）：Agent间协作协议、冲突解决、升级流程、决策框架
• 目录结构（10KB）：完整的项目目录规范（src/、design/、production/、docs/、assets/等）
• 上下文管理（4.8KB）：会话状态、活跃任务、上下文持久化
• 评审工作流（5.8KB）：代码评审、设计评审、测试评审流程
• Hooks参考（7.6KB）：所有Hook的触发条件、功能说明、配置方式
• Rules参考（13KB）：所有Rule的适用路径、核心约束、示例
• Skills参考（7.8KB）：71个Skill的分类、用途、触发方式
• 微信API速查（9.2KB）：wx API调用规范、常见陷阱
• 微信 pitfalls（7.5KB）：微信小游戏开发常见陷阱和解决方案
• Agent-Tool映射（4.5KB）：每个Agent可用工具的映射表
• Workflow目录（13.9KB YAML）：完整的工作流目录，定义了所有工作流
2.6 settings.json配置极其精细
• 权限系统：明确的allow/deny列表（允许git操作、ls、node、python、mkdir；禁止rm -rf、git push --force、chmod 777、.env文件操作）
• 模型版本锁定：sonnet/haiku/opus三层模型映射
• Hook配置：完整的matcher匹配规则（如"Bash(git commit)"触发validate-commit.sh）
• 工具权限：defaultAllowedTools（Read/Glob/Grep）和defaultDisallowedTools（Bash(rm *)等）
• npm限制：仅开放给cloudfunctions/目录，game代码禁止npm依赖
• 注释充分：每个配置项都有详细的注释说明
2.7 产品价值定位清晰
README和Specs中明确回答了：
• 为谁：个人开发者、小团队、原型验证者
• 解决什么：微信小游戏开发的技术门槛高、平台约束多、调试困难、包体限制严格
• 如何不同：不是"AI写代码"，而是"AI扮演完整工作室"——有组织架构、有协作协议、有质量门禁
• 成功标准：从0到可运行原型的时间缩短、代码质量提升、平台合规性保证
当前不足
3.1 缺少可运行的演示/原型（核心问题）
src/目录下只有CLAUDE.md（6KB），没有任何实际的游戏代码、assets、配置文件。这意味着：
• 评审方无法看到"一个Agent实际运行后产出的代码是什么样的"
• 无法验证27个Agent协作流程是否真的能产出可编译的微信小游戏
• 无法验证Hook系统（如包体大小检查、资产验证）在实际项目中的效果
• 无法验证Rule系统（如"禁止硬编码"）是否能被AI实际遵守
建议：至少提供一个完整的"Hello World"微信小游戏示例（包含game.json、project.config.json、入口JS、至少一个场景），展示Agent从0到可运行项目的完整流程。
3.2 缺少自动评测和验证机制
虽然Specs.md中提到了"验证驱动开发"和"自动化测试规则"，但：
• 没有eval.mjs或类似的自动评测脚本
• 没有固定输入→预期输出的测试用例（如"输入'创建一个消除类游戏'，期望产出包含哪些文件"）
• 没有Agent输出的质量评分机制（如"代码是否符合gameplay-code.md规范"的自动检查）
• 没有端到端的工作流验证（如从/start到/ship的完整流程是否能在30分钟内完成）
建议：增加tests/目录，包含至少510个端到端测试用例，覆盖核心工作流（如快速设计、原型开发、迭代优化）。
3.3 Agent协作的"涌现行为"未经验证
27个Agent的协作协议设计得非常详细，但：
• 实际运行时，Agent之间的上下文传递是否顺畅？（如创意总监的"支柱决策"是否能正确传递给游戏设计师和美术总监）
• 冲突解决机制（升级条件表）在实际中是否有效？（如当游戏设计师和美术总监对UI风格有分歧时，是否真的会上报到创意总监）
• 多层Agent调用（决策层→主管层→执行层）的延迟和token消耗是否可接受？
• 当多个Agent同时修改同一文件时，是否有冲突检测和合并机制？
建议：在README中补充"已验证的协作场景"章节，列出至少35个已实际测试过的多Agent协作场景及其结果。
3.4 缺少用户上手路径和教程
对于新用户（微信小游戏开发者），面对27个Agent、71个Skill、17条Rule、13个Hook，入门门槛极高：
• 没有"5分钟快速开始"教程
• 没有"第一个小游戏"的step-by-step引导
• 没有常见场景的命令速查表（如"如何创建一个消除类游戏"、"如何添加排行榜"）
• 没有故障排查指南（如"Agent不遵守Rule怎么办"、"Hook报错如何处理"）
建议：增加docs/getting-started.md和docs/tutorials/目录，包含至少3个完整教程（从空项目到可运行游戏）。
3.5 微信小游戏生态的时效性风险
Specs和文档中引用的微信小游戏API和限制（如4MB主包、ES6兼容性表）是基于当前（2026年5月）的平台状态。但：
• 微信小游戏平台规则可能变化（如包体限制调整、新API发布、旧API废弃）
• 没有版本化机制来跟踪平台规则的变化
• 没有自动检测平台规则变化的机制
建议：在文档中标注所有平台相关约束的"最后验证日期"，并设计一个定期更新的流程。
3.6 缺少与其他AI工具的对比
项目声称"不是AI写代码，而是AI扮演完整工作室"，但：
• 没有与Cursor、GitHub Copilot、Cline等AI编程工具的对比分析
• 没有与Lovable、v0等AI应用构建工具的对比
• 没有说明"27个Agent"相比"1个通用Agent+详细prompt"的优势在哪里
建议：增加docs/competitor-analysis.md，对比现有AI开发工具，明确MiniGame Studio的差异化价值。
总体结论
这是一个架构设计极其专业、文档体系极其完备的AI Harness工程，但当前阶段更偏向"完整的AI开发框架设计规范"，而非"可验证的AI开发工具"。
项目最大的优势在于：
组织架构的真实感：27个Agent按照真实游戏工作室的职能层级设计，每个Agent都有明确的职责、协作协议、升级条件，这种"组织即架构"的设计理念在AI Harness领域非常独特。
微信小游戏的深度适配：不是通用工具，而是深度绑定微信小游戏生态（4MB包体、Canvas 2D、ES6兼容性、社交裂变、IAA/IAP变现），平台专业性极强。
工程化程度高：Rule系统（17条）、Hook系统（13个）、settings.json配置、规范文档体系（24份）都体现了高度的工程化思维。
项目当前最需要解决的问题是：
缺少可运行的演示项目：src/目录为空，评审方无法验证27个Agent协作是否真的能产出可编译的微信小游戏。
缺少自动评测机制：没有端到端测试用例，无法验证Agent输出是否符合Rule规范。
缺少用户上手路径：面对27个Agent和71个Skill，新用户的入门门槛极高。
如果能在下一轮迭代中补充一个完整的演示项目（如"消除类微信小游戏"的完整开发流程）和自动评测脚本，该项目在AI Harness赛道的竞争力将显著提升。

评测基于完整仓库文件：README.md（35KB）、Specs.md（70KB）、CLAUDE.md（4KB）、settings.json、27个Agent定义、17条Rule、13个Hook、24份规范文档、12份微信API参考，以及实际读取的creative-director.md、gameplay-code.md、session-start.sh、coding-standards.md等核心文件内容。 1. 项目理解本项目是一个面向微信小游戏开发的AI Harness工程，品牌名为 MiniGame Studio。核心定位是：将AI（Claude Code插件框架）转化为一个具备完整组织架构的"虚拟游戏工作室"，通过27个专业Agent、71个Skill、17条Rule、13个Hook和24份规范文档，系统化地辅助开发者完成微信小游戏的完整开发流程。核心架构： • 三层级Agent体系：决策层（3个：创意总监、技术总监、制作人）→ 主管层（7个：美术总监、音频总监、游戏设计师、主程序员、QA主管、关卡设计师、系统设计师）→ 执行层（17个：各专项程序员、设计师、测试员、文案等） • Rule系统：17条规则覆盖代码规范、资产规范、协作协议、平台约束（微信小游戏4MB包体限制、Canvas 2D渲染、ES6兼容性等） • Hook系统：13个钩子覆盖会话启动/停止、Git提交验证、资产验证、包体大小检查、Agent日志等 • 文档体系：24份规范文档 + 12份微信API参考项目基于Claude Code插件框架，目标用户是微信小游戏开发者/团队，核心命题是：通过AI Harness将"一个人+AI"的生产力提升到接近"一个小型游戏工作室"的水平。 2. 项目亮点 2.1 组织架构设计极其专业且完整 27个Agent不是简单的"prompt列表"，而是按照真实游戏工作室的职能层级设计的： • 决策层：创意总监（愿景守护、支柱冲突裁决）、技术总监（架构决策、技术债务管理）、制作人（排期、资源、里程碑） • 主管层：美术总监、音频总监、游戏设计师、主程序员、QA主管、关卡设计师、系统设计师 • 执行层：AI程序员、美术程序员、玩法程序员、UI程序员、UX设计师、音效设计师、技术美术、多分辨率专家、网络程序员、性能分析师、原型师、QA测试员、文案、微信API专家、微信Canvas程序员、微信云专家、微信项目结构师每个Agent都有：明确的职责边界、协作协议、升级条件、委托关系图、禁止事项、输出格式规范。这种"组织即架构"的设计在AI Harness领域非常罕见。 2.2 微信小游戏平台深度适配项目不是"通用游戏开发工具"，而是深度绑定微信小游戏生态： • 包体约束：4MB主包、20MB总包、2MB单文件限制，每条Rule和Hook都围绕这些约束设计 • 渲染层：Canvas 2D专用规范（脏矩形优化、离屏Canvas生命周期、纹理图集、对象池） • API封装：所有wx.*调用必须通过src/platform/封装层，禁止业务代码直接调用 • ES6兼容性：详细的iOS/JavaScriptCore vs Android/V8差异表，包含Proxy、Array.values()、eval()等禁用说明 • 内存管理：150MB上限、内存警告监听、场景切换资源释放 • 社交裂变：创意总监职责中明确包含"分享机制、排行榜竞争、好友互助"的社交裂变设计 • 变现设计：IAA（激励视频广告）和IAP（内购）的创意决策有专门的Rule（monetization-code.md） 2.3 Rule系统工程化程度高 17条Rule不是简单的"编码规范"，而是覆盖了： • 代码规范：AI代码、游戏逻辑代码、渲染代码、UI代码、网络代码、原型代码、变现代码 • 资产规范：资产大小限制、数据文件规范 • 协作规范：协作协议（6.4KB，包含沟通协议、决策流程、冲突解决）、设计文档规范 • 平台约束：模块通信、多分辨率、微信API使用、微信项目配置 • 测试规范：测试标准（2KB）每条Rule都有具体的正确/错误示例，如gameplay-code.md中展示了"数据驱动+deltaTime+事件总线" vs "硬编码+直连UI"的对比。 2.4 Hook系统实现完整的DevOps流水线 13个Hook覆盖了开发全生命周期： • SessionStart：环境自检（bash/jq/python可用性）、Git状态检测、项目差距检测（5类差距：缺少微信必需文件、近乎空项目、有代码缺设计、缺生产管理目录、有assets缺规范）、活跃会话状态恢复 • SessionStop：会话总结、未完成任务检测、Git状态检查、TODO/FIXME统计 • PreToolUse：Git提交验证（检查提交信息格式、关联Sprint/Bug）、Git推送验证 • PostToolUse：资产验证（尺寸/格式/大小）、微信项目验证（game.json/project.config.json字段完整性）、Skill变更验证、包体大小检查（4MB/20MB/2MB限制） • Notification：Agent切换通知、任务完成通知 • Pre/PostCompact：会话压缩前后的上下文管理 • SubagentStart/Stop：Agent调用日志记录这些Hook用bash脚本实现，包含完整的错误处理、路径检测、JSON解析（jq）、条件判断。 2.5 规范文档体系极其详尽 24份规范文档覆盖了： • 编码标准（9KB）：微信小游戏JavaScript规范、内存管理、ES6兼容性、Canvas 2D、wx API调用、数据驱动、代码结构、云开发、包体约束 • 协作规则（18.5KB）：Agent间协作协议、冲突解决、升级流程、决策框架 • 目录结构（10KB）：完整的项目目录规范（src/、design/、production/、docs/、assets/等） • 上下文管理（4.8KB）：会话状态、活跃任务、上下文持久化 • 评审工作流（5.8KB）：代码评审、设计评审、测试评审流程 • Hooks参考（7.6KB）：所有Hook的触发条件、功能说明、配置方式 • Rules参考（13KB）：所有Rule的适用路径、核心约束、示例 • Skills参考（7.8KB）：71个Skill的分类、用途、触发方式 • 微信API速查（9.2KB）：wx API调用规范、常见陷阱 • 微信 pitfalls（7.5KB）：微信小游戏开发常见陷阱和解决方案 • Agent-Tool映射（4.5KB）：每个Agent可用工具的映射表 • Workflow目录（13.9KB YAML）：完整的工作流目录，定义了所有工作流 2.6 settings.json配置极其精细 • 权限系统：明确的allow/deny列表（允许git操作、ls、node、python、mkdir；禁止rm -rf、git push --force、chmod 777、.env文件操作） • 模型版本锁定：sonnet/haiku/opus三层模型映射 • Hook配置：完整的matcher匹配规则（如"Bash(git commit*)"触发validate-commit.sh） • 工具权限：defaultAllowedTools（Read/Glob/Grep）和defaultDisallowedTools（Bash(rm *)等） • npm限制：仅开放给cloudfunctions/目录，game代码禁止npm依赖 • 注释充分：每个配置项都有详细的注释说明 2.7 产品价值定位清晰 README和Specs中明确回答了： • 为谁：个人开发者、小团队、原型验证者 • 解决什么：微信小游戏开发的技术门槛高、平台约束多、调试困难、包体限制严格 • 如何不同：不是"AI写代码"，而是"AI扮演完整工作室"——有组织架构、有协作协议、有质量门禁 • 成功标准：从0到可运行原型的时间缩短、代码质量提升、平台合规性保证 3. 当前不足 3.1 缺少可运行的演示/原型（核心问题） src/目录下只有CLAUDE.md（6KB），没有任何实际的游戏代码、assets、配置文件。这意味着： • 评审方无法看到"一个Agent实际运行后产出的代码是什么样的" • 无法验证27个Agent协作流程是否真的能产出可编译的微信小游戏 • 无法验证Hook系统（如包体大小检查、资产验证）在实际项目中的效果 • 无法验证Rule系统（如"禁止硬编码"）是否能被AI实际遵守建议：至少提供一个完整的"Hello World"微信小游戏示例（包含game.json、project.config.json、入口JS、至少一个场景），展示Agent从0到可运行项目的完整流程。 3.2 缺少自动评测和验证机制虽然Specs.md中提到了"验证驱动开发"和"自动化测试规则"，但： • 没有eval.mjs或类似的自动评测脚本 • 没有固定输入→预期输出的测试用例（如"输入'创建一个消除类游戏'，期望产出包含哪些文件"） • 没有Agent输出的质量评分机制（如"代码是否符合gameplay-code.md规范"的自动检查） • 没有端到端的工作流验证（如从/start到/ship的完整流程是否能在30分钟内完成）建议：增加tests/目录，包含至少5~10个端到端测试用例，覆盖核心工作流（如快速设计、原型开发、迭代优化）。 3.3 Agent协作的"涌现行为"未经验证 27个Agent的协作协议设计得非常详细，但： • 实际运行时，Agent之间的上下文传递是否顺畅？（如创意总监的"支柱决策"是否能正确传递给游戏设计师和美术总监） • 冲突解决机制（升级条件表）在实际中是否有效？（如当游戏设计师和美术总监对UI风格有分歧时，是否真的会上报到创意总监） • 多层Agent调用（决策层→主管层→执行层）的延迟和token消耗是否可接受？ • 当多个Agent同时修改同一文件时，是否有冲突检测和合并机制？建议：在README中补充"已验证的协作场景"章节，列出至少3~5个已实际测试过的多Agent协作场景及其结果。 3.4 缺少用户上手路径和教程对于新用户（微信小游戏开发者），面对27个Agent、71个Skill、17条Rule、13个Hook，入门门槛极高： • 没有"5分钟快速开始"教程 • 没有"第一个小游戏"的step-by-step引导 • 没有常见场景的命令速查表（如"如何创建一个消除类游戏"、"如何添加排行榜"） • 没有故障排查指南（如"Agent不遵守Rule怎么办"、"Hook报错如何处理"）建议：增加docs/getting-started.md和docs/tutorials/目录，包含至少3个完整教程（从空项目到可运行游戏）。 3.5 微信小游戏生态的时效性风险 Specs和文档中引用的微信小游戏API和限制（如4MB主包、ES6兼容性表）是基于当前（2026年5月）的平台状态。但： • 微信小游戏平台规则可能变化（如包体限制调整、新API发布、旧API废弃） • 没有版本化机制来跟踪平台规则的变化 • 没有自动检测平台规则变化的机制建议：在文档中标注所有平台相关约束的"最后验证日期"，并设计一个定期更新的流程。 3.6 缺少与其他AI工具的对比项目声称"不是AI写代码，而是AI扮演完整工作室"，但： • 没有与Cursor、GitHub Copilot、Cline等AI编程工具的对比分析 • 没有与Lovable、v0等AI应用构建工具的对比 • 没有说明"27个Agent"相比"1个通用Agent+详细prompt"的优势在哪里建议：增加docs/competitor-analysis.md，对比现有AI开发工具，明确MiniGame Studio的差异化价值。 4. 总体结论这是一个架构设计极其专业、文档体系极其完备的AI Harness工程，但当前阶段更偏向"完整的AI开发框架设计规范"，而非"可验证的AI开发工具"。项目最大的优势在于： 1. 组织架构的真实感：27个Agent按照真实游戏工作室的职能层级设计，每个Agent都有明确的职责、协作协议、升级条件，这种"组织即架构"的设计理念在AI Harness领域非常独特。 2. 微信小游戏的深度适配：不是通用工具，而是深度绑定微信小游戏生态（4MB包体、Canvas 2D、ES6兼容性、社交裂变、IAA/IAP变现），平台专业性极强。 3. 工程化程度高：Rule系统（17条）、Hook系统（13个）、settings.json配置、规范文档体系（24份）都体现了高度的工程化思维。项目当前最需要解决的问题是： 1. 缺少可运行的演示项目：src/目录为空，评审方无法验证27个Agent协作是否真的能产出可编译的微信小游戏。 2. 缺少自动评测机制：没有端到端测试用例，无法验证Agent输出是否符合Rule规范。 3. 缺少用户上手路径：面对27个Agent和71个Skill，新用户的入门门槛极高。如果能在下一轮迭代中补充一个完整的演示项目（如"消除类微信小游戏"的完整开发流程）和自动评测脚本，该项目在AI Harness赛道的竞争力将显著提升。

yishan commented

2026-05-26 20:38:15 +08:00

Owner

对反馈的理解

感谢反馈。以下是对各项反馈的理解。

1、"缺少可运行的演示/原型"

半决赛的阶段要求是交付一个具备交互能力的智能体，而 MiniGame Studio 当前已经完全可以交互使用——克隆后运行 /start，从 0 开始跟着 Agent 引导完成一个微信小游戏项目。欢迎大家克隆到本地实际体验。

这套 Harness 工程也已经投入到了我实际的游戏开发中。目前游戏正在优化阶段，同时在微信官方审核流程中，后续可以直接提供二维码供大家扫码游玩。

更重要的是，我相信只有通过一个个真实项目的打磨与反馈，才能持续优化当前的 AI Harness 工程。这种"反馈→优化→再反馈"的迭代过程，本身就是 Harness 工程的生命力所在，要一直进行下去。

2、"缺少自动评测和验证机制"

项目已经建立了多层级的自动评测与验证体系，贯穿研发管线全流程。这套体系不是事后补救的测试环节，而是嵌入到每个开发阶段中的自动化质量护栏。

Hook 层：事件驱动的自动门禁

13 个事件驱动 Hook 在关键节点自动触发验证，无需人工干预，以下是几个举例：

validate-wx-project：在写入 game.json / project.config.json 时自动校验微信项目结构完整性、JSON 合法性、ES6 转译设置、分包配置等
check-package-size：自动校验主包 ≤ 4MB、总包 ≤ 20MB、单文件 ≤ 2MB 等平台硬约束
validate-commit / validate-push：Git 操作前自动执行代码规范检查，拦截未通过验证的提交
validate-assets：美术资源写入时自动检查命名规范、格式合规、尺寸限制
validate-skill-change：Skill 文件变更时自动校验契约完整性，防止框架退化

Skill 层：标准化评测工作流

比如，质量保障类 Skill（9 个）覆盖从单元测试到生产验证的完整链路：

Skill	触发阶段	功能
`qa-plan`	预生产	生成结构化测试计划，包含机型矩阵、网络覆盖、平台专项测试
`test-setup`	预生产	初始化测试框架和辅助工具
`smoke-check`	每轮构建后	冒烟测试：核心链路快速验证
`regression-suite`	Story 完成后	回归测试套件自动执行
`soak-test`	打磨阶段	长时间运行稳定性测试
`test-evidence-review`	测试完成后	审查测试证据完整性
`test-flakiness`	持续	检测并标记不稳定测试用例
`ci-integration`	生产阶段	CI/CD 集成配置，自动化构建和测试
`test-helpers`	全阶段	测试辅助工具库，降低测试编写成本

Agent 层：分层次审查体系

比如：

代码审查：10 个领域 Agent（gameplay / AI / 网络 / Canvas / UI / wx API / 云开发 / 性能 / 多分辨率）各自审查对应代码路径，最终由 lead-programmer 终审
设计审查：game-designer 审查单系统 GDD 完整性 → creative-director 审查跨系统一致性
架构审查：wx-api-specialist 审查微信平台合规 → technical-director 审查 ADR 依赖拓扑和兼容性
阶段门审查：每个阶段结束时 /gate-check 由三个总监 Agent 并行审查，任一未通过则阻塞推进

这套体系的核心理念是：评测不是独立环节，而是嵌入到每一次文件写入、每一次阶段推进中的自动化事件响应。Hook 让你写代码时自动校验，Skill 让你主动触发深度审查，Agent 让你在关键节点获得专家评审——三层协同，形成完整的自动化质量闭环。

3、"缺少用户上手路径和教程"

MiniGame Studio 已经内置了完善的引导机制：

/start 引导式入门：根据项目当前状态智能路由，从零基础到已有成果都有对应路径
/help 上下文感知帮助：读取当前项目阶段，动态推荐下一步操作
project-stage-detect 自动审计：全面扫描项目状态，生成分优先级的缺口清单

新用户不需要一次性理解所有概念——Agent、Skill、Rule、Hook、ADR、Epic、Story、GDD 这些概念分散在研发管线的不同阶段，跟着 /start 的互动走，大模型会根据 Harness 的配置自动问答、自动引导。

概念数量多，是因为这套体系完整覆盖了小游戏从创意到发布的全部环节——这是体系完整度的代价，而不是使用门槛。玩家只要顺着互动走下去就行了。

另外，有任何问题或疑惑，你都可以直接在输入框里询问。大模型会把当前项目的各种细节都告诉你。workflow-catalog.yaml 已经完整标注了每个 Skill 所处的研究阶段、由哪个 Agent 执行、是 required 还是可选。而 Skill 文件本身是 AI Native 的——Agent 会按需加载。开发者不需要自己去翻阅 71 个 SKILL.md 文件来决定该用哪个。开发者用自然语言告诉 Agent 想做什么——「我想做个什么什么样的游戏」「各种各样的需求」——Agent 会在 Harness 框架的引导下，自动选择合适的 Skill 来响应。

4、"微信小游戏生态的时效性风险"

这个担忧是合理的。微信小游戏平台确实在持续迭代——API 的新增与废弃、包体限制的调整、基础库版本的升级都是客观存在的风险。项目的应对策略分为现状机制和演进方向两个层面。

现状：已落地的时效性保障

版本锁定：所有 wx API 参考文档（docs/wx-reference/ 下 12 份文档）均标注"基于基础库 3.5.0 验证"，明确了当前参考基准的时间锚点。这不是一个模糊的"支持微信小游戏"声明，而是精确到基础库版本的 API 契约。

锁定一个"过去的稳定版本"而非盲目追最新版，是微信小游戏开发的通用实践，背后有两个深层原因：
- 兼容性覆盖：微信小游戏的用户设备分布极为广泛——很多用户的手机型号老旧、微信版本停留在较旧的迭代上。如果开发时直接使用最新版基础库的 API，这些用户可能根本无法运行游戏。微信官方对老版本基础库提供了充分的向下兼容，因此选取一个经过市场验证的、覆盖绝大多数用户设备的稳定版本（如基础库 3.5.0），是最大化用户触达的务实策略。
- API 稳定性：最新版基础库中的 API 可能存在未充分验证的边缘行为或后续调整。锁定一个已发布一段时间、被大量开发者验证过的稳定版本，意味着参考文档中的 API 签名、参数约束、返回值格式都是可靠的，不会出现"照官方最新文档写出的代码在真机上表现不一致"的情况。
平台层隔离：项目强制所有 wx.* API 调用必须通过 src/platform/ 封装层，业务代码禁止直接调用平台 API。这意味着当平台规则变化时，只需要修改封装层即可适配——不需要改动遍布全项目的业务逻辑。
wx-api-specialist 专职 Agent：技术搭建阶段有专门负责平台合规审查的 Agent，在 ADR 审批时逐条检查平台兼容性，确保架构决策不依赖已被废弃或即将变更的 API。
wx-api-usage Rule：路径绑定规则在每次涉及 wx API 的代码写入时自动触发，强制检查调用是否符合当前参考文档的契约。

演进方向：定期更新流程

项目目前缺少"自动检测平台规则变化"的机制——这确实应该纳入后续迭代。理想的方案是：

在所有平台约束相关文档中标注"最后验证日期"和"验证基础库版本"
建立定期的平台规则审视流程：由 wx-api-specialist Agent 对照微信官方最新文档，逐条审计 docs/wx-reference/ 中的 API 参考、禁区和性能约束
将平台规则变更捕获为 ADR，纳入架构决策的可追溯链

这一点记录为待办事项，感谢指出。

5、"缺少与其他 AI 工具的对比"

基础定位的区分

Cursor、GitHub Copilot、Claude Code 等属于底层基础。

MiniGame Studio 作为AI Harness 工程，是在底层基础之上构建的一层"控制框架"。它不是替代底层，而是通过 Agent 编排、Skill 工作流、Rule 约束、Hook 自动化四套体系，让 AI 能够在游戏研发这个复杂的工程领域里安全、可靠、可审计地完成工作。

从"提示词工程"到"Harness 工程"：AI 辅助开发的代际跃迁

要理解为什么需要一套完整的 Harness 框架，需要先看懂 AI 辅助开发范式的演进路径：

代际	范式	核心思路	典型问题
第一代	提示词工程	精心设计一段 prompt 让 AI 产出更好结果	prompt 越长越难维护；一个 prompt 无法覆盖多场景；跨会话一致性为零
第二代	上下文工程	动态管理 AI 能看到的上下文内容	上下文窗口有限，内容多了溢出、少了信息不全；缺乏结构化的行为约束
第三代	Harness 工程	在通用大模型外层叠加 Agent/Skill/Rule/Hook 控制框架	——

MiniGame Studio 正是第三代范式的实践——它不是在写更好的 prompt，而是在构建一套让 prompt 能被系统化管理、Agent 能被编排协作、行为能被实时约束、质量能被自动验证的完整框架。

"1 个通用 Agent + 详细 prompt"为什么不够？

有人可能会问：把 27 个 Agent 的知识、71 个 Skill 的流程、17 条 Rule 的约束全部写进一个超长的系统 prompt 里，用一个通用 Agent 来执行，不是更简单吗？

这条路在工程实践中已经被证明行不通：

上下文窗口的物理限制：一个大而全的超长 prompt，直接占用了模型宝贵的上下文窗口。当项目代码也进入上下文后，很快就会触发压缩。
指令冲突与注意力稀释：把"Canvas 2D 渲染管线的最佳实践"和"IAA 变现策略"塞进同一个 prompt，模型在生成代码时无法有效区分哪些规则适用于当前场景。结果是：要么关键约束被忽略（注意力被稀释），要么不同场景的规则互相干扰（指令冲突）。
OpenAI 的实践教训：OpenAI 在探索时公开讨论过一个核心问题——当系统提示词、开发者消息和用户消息多层叠加时，模型会出现"指令混淆"，低优先级的用户指令可能覆盖高优先级的系统约束。这正是"把所有规则写进一个文件"会面临的困境：没有优先级、没有作用域、没有触发条件，所有规则平铺在一个文本里，模型只能凭"注意力"随机地关注某些规则而忽略另一些。
无法实现角色切换：软件开发的不同阶段需要模型扮演完全不同的角色——创意发散时需要发散性思维，编写 GDD 时需要系统化的严谨性，编写代码时需要精确的技术约束意识，做 code review 时需要批判性思维。一个包含了所有规则的通用 prompt 无法在不同阶段切换思维模式，而 27 个独立 Agent 各自拥有专属的系统提示词和激活条件，按需切换。

这正是 AI Harness 工程诞生的原因——把"一个超大 prompt"拆解为"一套可编排的控制系统"：Skill 按阶段懒加载（不影响上下文窗口）、Rule 按文件路径精确触发（不产生指令冲突）、Agent 按角色独立配置（确保角色专注）、Hook 在事件节点自动执行（弥补 prompt 无法覆盖的运行时约束）。

提前设计好 Agent 和 Skill，与让大模型自己开子 Agent 执行有什么区别？

这是一个关键的设计决策。让大模型在运行时根据任务动态创建子 Agent（类似"自我分拆"），与提前设计好完整的 Agent/Skill 体系，两者有本质区别：

稳定性与可预测性：动态创建的子 Agent 每次可能不同——同一个任务，今天拆出 3 个子 Agent、明天拆出 5 个，分工方式也不一样。预设计的 Agent 体系保证每次执行同样的任务，走的是同样的角色、同样的 Skill、同样的审查链路——这是工程化的基本要求：可复现。
角色知识的深度：预设计的 wx-api-specialist Agent 经过了精心设计，系统提示词中包含了所有 wx API 的能力边界、常见陷阱、兼容性矩阵；而动态生成的"API 检查子 Agent"只有一个简短的任务指令，无法承载同等深度的领域知识。
协作协议的有效性：27 个 Agent 之间的协作协议（垂直委托链路、水平咨询机制、冲突升级规则）是提前设计的，经过了覆盖性验证。动态生成的 Agent 之间没有可靠协作协议，只能依赖大模型"即兴发挥"协调——这在简单任务中可能有效，但在跨越 7 个研发阶段的复杂工程中必然失控。
质量护栏的完整性：Rules 和 Hooks 是 Harness 框架预先配置的，它们知道在哪个 Agent 产出了哪种类型的文件时触发什么验证。动态生成的 Agent 没有与这套护栏系统的绑定关系，写完代码就结束了——验证只能靠人手动触发。

打个比方：预设计的 Agent 体系像是一家有明确岗位编制和 SOP 的公司，每个人知道自己负责什么、上下游是谁、出现问题时怎么升级；而动态创建子 Agent 像是每次接到项目临时招人——短期看灵活，长期看交付质量、协作效率和知识积累都无法保障。

直接使用 AI Coding 工具落地商业化项目的实际困境

用 Cursor 或 Claude Code 直接完整开发一个工程化项目，会遇到各种问题，以下是几个说明：

上下文窗口断裂：小游戏从创意到上线跨越几十个会话、数百次上下文压缩。MiniGame Studio 通过 pre-compact / post-compact Hook 自动 dump 和恢复会话状态，配合 resume-story Skill 实现会话连续性。
缺乏领域知识约束：MiniGame Studio 通过 17 条路径绑定 Rule 和 13 个事件驱动 Hook 在代码写入时自动约束。
缺乏工程化流程：MiniGame Studio 的 7 阶段研发管线给出了完整路径，每个阶段有明确的进入条件、产出物、阶段门审查。
质量无法体系化保障：单个 Agent 写出的代码没有第二人审查，设计文档和代码之间没有追溯链，技术债无声堆积。MiniGame Studio 通过 27 个 Agent 的分层审查矩阵（领域 Agent → 主管 Agent → 总监 Agent）、story-done 8 阶段审查流程、tech-debt 定期扫描来解决。
缺乏角色化分工：一个人 + 一个通用 Agent 的组合，所有决策都压在一个人身上——从游戏设计到架构选型到性能优化到平台合规。MiniGame Studio 的 27 个角色化 Agent（creative-director、technical-director、game-designer、wx-api-specialist、performance-analyst 等）各自在专业领域提供结构化建议。

27 个 Agent 相比 1 个通用 Agent 的优势

这不是简单的"数量堆砌"。27 个 Agent 按三层级架构组织。比如：

领域专精：wx-canvas-programmer 的上下文里满载 Canvas 2D 渲染最佳实践和脏矩形优化策略，economy-designer 的上下文聚焦 IAA/IAP 变现模型——这些专精知识不可能塞进一个通用 prompt 里而不超过上下文窗口
并行协作：多个 Agent 可以并行推进各自的代码模块，通过协作协议进行垂直委托和水平咨询
制衡机制：编码 Agent 产出的代码要经过审查 Agent 的校验，设计 Agent 的 GDD 要经过 cross-review ——这是工程组织的基本原理：同一个 Agent 不能既当运动员又当裁判

MiniGame Studio 是在构建一个专业领域细分领域的 AI Harness 工程：如何让 AI 在一个有严格平台约束、性能预算、商业要求的垂直领域里，完成从创意到交付的全流程工程任务。

再次感谢这些反馈。每一个问题的审视都在帮助 MiniGame Studio 变得更完整、更扎实。

# 对反馈的理解感谢反馈。以下是对各项反馈的理解。 --- ## 1、"缺少可运行的演示/原型" 半决赛的阶段要求是交付一个具备交互能力的智能体，而 MiniGame Studio 当前已经完全可以交互使用——克隆后运行 `/start`，从 0 开始跟着 Agent 引导完成一个微信小游戏项目。欢迎大家克隆到本地实际体验。这套 Harness 工程也已经投入到了我实际的游戏开发中。目前游戏正在优化阶段，同时在微信官方审核流程中，后续可以直接提供二维码供大家扫码游玩。更重要的是，我相信只有通过一个个真实项目的打磨与反馈，才能持续优化当前的 AI Harness 工程。这种"反馈→优化→再反馈"的迭代过程，本身就是 Harness 工程的生命力所在，要一直进行下去。 --- ## 2、"缺少自动评测和验证机制" 项目已经建立了多层级的自动评测与验证体系，贯穿研发管线全流程。这套体系不是事后补救的测试环节，而是嵌入到每个开发阶段中的自动化质量护栏。 ### Hook 层：事件驱动的自动门禁 13 个事件驱动 Hook 在关键节点自动触发验证，无需人工干预，以下是几个举例： - `validate-wx-project`：在写入 `game.json` / `project.config.json` 时自动校验微信项目结构完整性、JSON 合法性、ES6 转译设置、分包配置等 - `check-package-size`：自动校验主包 ≤ 4MB、总包 ≤ 20MB、单文件 ≤ 2MB 等平台硬约束 - `validate-commit` / `validate-push`：Git 操作前自动执行代码规范检查，拦截未通过验证的提交 - `validate-assets`：美术资源写入时自动检查命名规范、格式合规、尺寸限制 - `validate-skill-change`：Skill 文件变更时自动校验契约完整性，防止框架退化 ### Skill 层：标准化评测工作流比如，质量保障类 Skill（9 个）覆盖从单元测试到生产验证的完整链路： | Skill | 触发阶段 | 功能 | |---|---|---| | `qa-plan` | 预生产 | 生成结构化测试计划，包含机型矩阵、网络覆盖、平台专项测试 | | `test-setup` | 预生产 | 初始化测试框架和辅助工具 | | `smoke-check` | 每轮构建后 | 冒烟测试：核心链路快速验证 | | `regression-suite` | Story 完成后 | 回归测试套件自动执行 | | `soak-test` | 打磨阶段 | 长时间运行稳定性测试 | | `test-evidence-review` | 测试完成后 | 审查测试证据完整性 | | `test-flakiness` | 持续 | 检测并标记不稳定测试用例 | | `ci-integration` | 生产阶段 | CI/CD 集成配置，自动化构建和测试 | | `test-helpers` | 全阶段 | 测试辅助工具库，降低测试编写成本 | ### Agent 层：分层次审查体系比如： - **代码审查**：10 个领域 Agent（gameplay / AI / 网络 / Canvas / UI / wx API / 云开发 / 性能 / 多分辨率）各自审查对应代码路径，最终由 lead-programmer 终审 - **设计审查**：game-designer 审查单系统 GDD 完整性 → creative-director 审查跨系统一致性 - **架构审查**：wx-api-specialist 审查微信平台合规 → technical-director 审查 ADR 依赖拓扑和兼容性 - **阶段门审查**：每个阶段结束时 `/gate-check` 由三个总监 Agent 并行审查，任一未通过则阻塞推进这套体系的核心理念是：**评测不是独立环节，而是嵌入到每一次文件写入、每一次阶段推进中的自动化事件响应**。Hook 让你写代码时自动校验，Skill 让你主动触发深度审查，Agent 让你在关键节点获得专家评审——三层协同，形成完整的自动化质量闭环。 --- ## 3、"缺少用户上手路径和教程" MiniGame Studio 已经内置了完善的引导机制： - **`/start` 引导式入门**：根据项目当前状态智能路由，从零基础到已有成果都有对应路径 - **`/help` 上下文感知帮助**：读取当前项目阶段，动态推荐下一步操作 - **`project-stage-detect` 自动审计**：全面扫描项目状态，生成分优先级的缺口清单新用户不需要一次性理解所有概念——Agent、Skill、Rule、Hook、ADR、Epic、Story、GDD 这些概念分散在研发管线的不同阶段，跟着 `/start` 的互动走，大模型会根据 Harness 的配置自动问答、自动引导。概念数量多，是因为这套体系完整覆盖了小游戏从创意到发布的全部环节——这是体系完整度的代价，而不是使用门槛。玩家只要顺着互动走下去就行了。另外，有任何问题或疑惑，你都可以直接在输入框里询问。大模型会把当前项目的各种细节都告诉你。`workflow-catalog.yaml` 已经完整标注了每个 Skill 所处的研究阶段、由哪个 Agent 执行、是 required 还是可选。而 Skill 文件本身是 AI Native 的——Agent 会按需加载。开发者不需要自己去翻阅 71 个 SKILL.md 文件来决定该用哪个。开发者用自然语言告诉 Agent 想做什么——「我想做个什么什么样的游戏」「各种各样的需求」——Agent 会在 Harness 框架的引导下，自动选择合适的 Skill 来响应。 --- ## 4、"微信小游戏生态的时效性风险" 这个担忧是合理的。微信小游戏平台确实在持续迭代——API 的新增与废弃、包体限制的调整、基础库版本的升级都是客观存在的风险。项目的应对策略分为现状机制和演进方向两个层面。 ### 现状：已落地的时效性保障 - **版本锁定**：所有 wx API 参考文档（`docs/wx-reference/` 下 12 份文档）均标注"基于基础库 3.5.0 验证"，明确了当前参考基准的时间锚点。这不是一个模糊的"支持微信小游戏"声明，而是精确到基础库版本的 API 契约。锁定一个"过去的稳定版本"而非盲目追最新版，是微信小游戏开发的通用实践，背后有两个深层原因： - **兼容性覆盖**：微信小游戏的用户设备分布极为广泛——很多用户的手机型号老旧、微信版本停留在较旧的迭代上。如果开发时直接使用最新版基础库的 API，这些用户可能根本无法运行游戏。微信官方对老版本基础库提供了充分的向下兼容，因此选取一个经过市场验证的、覆盖绝大多数用户设备的稳定版本（如基础库 3.5.0），是最大化用户触达的务实策略。 - **API 稳定性**：最新版基础库中的 API 可能存在未充分验证的边缘行为或后续调整。锁定一个已发布一段时间、被大量开发者验证过的稳定版本，意味着参考文档中的 API 签名、参数约束、返回值格式都是可靠的，不会出现"照官方最新文档写出的代码在真机上表现不一致"的情况。 - **平台层隔离**：项目强制所有 `wx.*` API 调用必须通过 `src/platform/` 封装层，业务代码禁止直接调用平台 API。这意味着当平台规则变化时，只需要修改封装层即可适配——不需要改动遍布全项目的业务逻辑。 - **wx-api-specialist 专职 Agent**：技术搭建阶段有专门负责平台合规审查的 Agent，在 ADR 审批时逐条检查平台兼容性，确保架构决策不依赖已被废弃或即将变更的 API。 - **`wx-api-usage` Rule**：路径绑定规则在每次涉及 wx API 的代码写入时自动触发，强制检查调用是否符合当前参考文档的契约。 ### 演进方向：定期更新流程项目目前缺少"自动检测平台规则变化"的机制——这确实应该纳入后续迭代。理想的方案是： - 在所有平台约束相关文档中标注"最后验证日期"和"验证基础库版本" - 建立定期的平台规则审视流程：由 `wx-api-specialist` Agent 对照微信官方最新文档，逐条审计 `docs/wx-reference/` 中的 API 参考、禁区和性能约束 - 将平台规则变更捕获为 ADR，纳入架构决策的可追溯链这一点记录为待办事项，感谢指出。 --- ## 5、"缺少与其他 AI 工具的对比" ### 基础定位的区分 Cursor、GitHub Copilot、Claude Code 等属于底层基础。 MiniGame Studio 作为**AI Harness 工程**，是在底层基础之上构建的一层"控制框架"。它不是替代底层，而是通过 Agent 编排、Skill 工作流、Rule 约束、Hook 自动化四套体系，让 AI 能够在游戏研发这个复杂的工程领域里安全、可靠、可审计地完成工作。 ### 从"提示词工程"到"Harness 工程"：AI 辅助开发的代际跃迁要理解为什么需要一套完整的 Harness 框架，需要先看懂 AI 辅助开发范式的演进路径： | 代际 | 范式 | 核心思路 | 典型问题 | |---|---|---|---| | 第一代 | **提示词工程** | 精心设计一段 prompt 让 AI 产出更好结果 | prompt 越长越难维护；一个 prompt 无法覆盖多场景；跨会话一致性为零 | | 第二代 | **上下文工程** | 动态管理 AI 能看到的上下文内容 | 上下文窗口有限，内容多了溢出、少了信息不全；缺乏结构化的行为约束 | | 第三代 | **Harness 工程** | 在通用大模型外层叠加 Agent/Skill/Rule/Hook 控制框架 | —— | MiniGame Studio 正是第三代范式的实践——它不是在写更好的 prompt，而是在构建一套让 prompt 能被系统化管理、Agent 能被编排协作、行为能被实时约束、质量能被自动验证的完整框架。 ### "1 个通用 Agent + 详细 prompt"为什么不够？有人可能会问：把 27 个 Agent 的知识、71 个 Skill 的流程、17 条 Rule 的约束全部写进一个超长的系统 prompt 里，用一个通用 Agent 来执行，不是更简单吗？这条路在工程实践中已经被证明行不通： - **上下文窗口的物理限制**：一个大而全的超长 prompt，直接占用了模型宝贵的上下文窗口。当项目代码也进入上下文后，很快就会触发压缩。 - **指令冲突与注意力稀释**：把"Canvas 2D 渲染管线的最佳实践"和"IAA 变现策略"塞进同一个 prompt，模型在生成代码时无法有效区分哪些规则适用于当前场景。结果是：要么关键约束被忽略（注意力被稀释），要么不同场景的规则互相干扰（指令冲突）。 - **OpenAI 的实践教训**：OpenAI 在探索时公开讨论过一个核心问题——当系统提示词、开发者消息和用户消息多层叠加时，模型会出现"指令混淆"，低优先级的用户指令可能覆盖高优先级的系统约束。这正是"把所有规则写进一个文件"会面临的困境：没有优先级、没有作用域、没有触发条件，所有规则平铺在一个文本里，模型只能凭"注意力"随机地关注某些规则而忽略另一些。 - **无法实现角色切换**：软件开发的不同阶段需要模型扮演完全不同的角色——创意发散时需要发散性思维，编写 GDD 时需要系统化的严谨性，编写代码时需要精确的技术约束意识，做 code review 时需要批判性思维。一个包含了所有规则的通用 prompt 无法在不同阶段切换思维模式，而 27 个独立 Agent 各自拥有专属的系统提示词和激活条件，按需切换。这正是 **AI Harness 工程诞生的原因——把"一个超大 prompt"拆解为"一套可编排的控制系统"**：Skill 按阶段懒加载（不影响上下文窗口）、Rule 按文件路径精确触发（不产生指令冲突）、Agent 按角色独立配置（确保角色专注）、Hook 在事件节点自动执行（弥补 prompt 无法覆盖的运行时约束）。 ### 提前设计好 Agent 和 Skill，与让大模型自己开子 Agent 执行有什么区别？这是一个关键的设计决策。让大模型在运行时根据任务动态创建子 Agent（类似"自我分拆"），与提前设计好完整的 Agent/Skill 体系，两者有本质区别： - **稳定性与可预测性**：动态创建的子 Agent 每次可能不同——同一个任务，今天拆出 3 个子 Agent、明天拆出 5 个，分工方式也不一样。预设计的 Agent 体系保证每次执行同样的任务，走的是同样的角色、同样的 Skill、同样的审查链路——这是工程化的基本要求：可复现。 - **角色知识的深度**：预设计的 `wx-api-specialist` Agent 经过了精心设计，系统提示词中包含了所有 wx API 的能力边界、常见陷阱、兼容性矩阵；而动态生成的"API 检查子 Agent"只有一个简短的任务指令，无法承载同等深度的领域知识。 - **协作协议的有效性**：27 个 Agent 之间的协作协议（垂直委托链路、水平咨询机制、冲突升级规则）是提前设计的，经过了覆盖性验证。动态生成的 Agent 之间没有可靠协作协议，只能依赖大模型"即兴发挥"协调——这在简单任务中可能有效，但在跨越 7 个研发阶段的复杂工程中必然失控。 - **质量护栏的完整性**：Rules 和 Hooks 是 Harness 框架预先配置的，它们知道在哪个 Agent 产出了哪种类型的文件时触发什么验证。动态生成的 Agent 没有与这套护栏系统的绑定关系，写完代码就结束了——验证只能靠人手动触发。打个比方：预设计的 Agent 体系像是一家有明确岗位编制和 SOP 的公司，每个人知道自己负责什么、上下游是谁、出现问题时怎么升级；而动态创建子 Agent 像是每次接到项目临时招人——短期看灵活，长期看交付质量、协作效率和知识积累都无法保障。 ### 直接使用 AI Coding 工具落地商业化项目的实际困境用 Cursor 或 Claude Code 直接完整开发一个工程化项目，会遇到各种问题，以下是几个说明： - **上下文窗口断裂**：小游戏从创意到上线跨越几十个会话、数百次上下文压缩。MiniGame Studio 通过 `pre-compact` / `post-compact` Hook 自动 dump 和恢复会话状态，配合 `resume-story` Skill 实现会话连续性。 - **缺乏领域知识约束**：MiniGame Studio 通过 17 条路径绑定 Rule 和 13 个事件驱动 Hook 在代码写入时自动约束。 - **缺乏工程化流程**：MiniGame Studio 的 7 阶段研发管线给出了完整路径，每个阶段有明确的进入条件、产出物、阶段门审查。 - **质量无法体系化保障**：单个 Agent 写出的代码没有第二人审查，设计文档和代码之间没有追溯链，技术债无声堆积。MiniGame Studio 通过 27 个 Agent 的分层审查矩阵（领域 Agent → 主管 Agent → 总监 Agent）、`story-done` 8 阶段审查流程、`tech-debt` 定期扫描来解决。 - **缺乏角色化分工**：一个人 + 一个通用 Agent 的组合，所有决策都压在一个人身上——从游戏设计到架构选型到性能优化到平台合规。MiniGame Studio 的 27 个角色化 Agent（creative-director、technical-director、game-designer、wx-api-specialist、performance-analyst 等）各自在专业领域提供结构化建议。 ### 27 个 Agent 相比 1 个通用 Agent 的优势这不是简单的"数量堆砌"。27 个 Agent 按三层级架构组织。比如： - **领域专精**：`wx-canvas-programmer` 的上下文里满载 Canvas 2D 渲染最佳实践和脏矩形优化策略，`economy-designer` 的上下文聚焦 IAA/IAP 变现模型——这些专精知识不可能塞进一个通用 prompt 里而不超过上下文窗口 - **并行协作**：多个 Agent 可以并行推进各自的代码模块，通过协作协议进行垂直委托和水平咨询 - **制衡机制**：编码 Agent 产出的代码要经过审查 Agent 的校验，设计 Agent 的 GDD 要经过 cross-review ——这是工程组织的基本原理：同一个 Agent 不能既当运动员又当裁判 MiniGame Studio 是在构建一个专业领域细分领域的 AI Harness 工程：**如何让 AI 在一个有严格平台约束、性能预算、商业要求的垂直领域里，完成从创意到交付的全流程工程任务**。 --- 再次感谢这些反馈。每一个问题的审视都在帮助 MiniGame Studio 变得更完整、更扎实。

No labels

No milestone

No project

No assignees

2 participants

Notifications

Due date

The due date is invalid or out of range. Please use the format "yyyy-mm-dd".

No due date set.

Dependencies

No dependencies set.

Reference

yishan/MiniGame-Studios-S1W3#3

No description provided.

Rows
Columns