【交叉评测S1W3】MiniGame Studio — AI驱动的微信小游戏智能开发工作室 (yishan/MiniGame-Studios-S1W3) #3

Open
opened 2026-05-25 06:53:47 +08:00 by along429 · 1 comment

评测基于完整仓库文件:README.md(35KB)、Specs.md(70KB)、CLAUDE.md(4KB)、settings.json、27个Agent定义、17条Rule、13个Hook、24份规范文档、12份微信API参考,以及实际读取的creative-director.md、gameplay-code.md、session-start.sh、coding-standards.md等核心文件内容。

  1. 项目理解
    本项目是一个面向微信小游戏开发的AI Harness工程,品牌名为 MiniGame Studio。核心定位是:将AI(Claude Code插件框架)转化为一个具备完整组织架构的"虚拟游戏工作室",通过27个专业Agent、71个Skill、17条Rule、13个Hook和24份规范文档,系统化地辅助开发者完成微信小游戏的完整开发流程。
    核心架构:
    • 三层级Agent体系:决策层(3个:创意总监、技术总监、制作人)→ 主管层(7个:美术总监、音频总监、游戏设计师、主程序员、QA主管、关卡设计师、系统设计师)→ 执行层(17个:各专项程序员、设计师、测试员、文案等)
    • Rule系统:17条规则覆盖代码规范、资产规范、协作协议、平台约束(微信小游戏4MB包体限制、Canvas 2D渲染、ES6兼容性等)
    • Hook系统:13个钩子覆盖会话启动/停止、Git提交验证、资产验证、包体大小检查、Agent日志等
    • 文档体系:24份规范文档 + 12份微信API参考
    项目基于Claude Code插件框架,目标用户是微信小游戏开发者/团队,核心命题是:通过AI Harness将"一个人+AI"的生产力提升到接近"一个小型游戏工作室"的水平。

  2. 项目亮点
    2.1 组织架构设计极其专业且完整
    27个Agent不是简单的"prompt列表",而是按照真实游戏工作室的职能层级设计的:
    • 决策层:创意总监(愿景守护、支柱冲突裁决)、技术总监(架构决策、技术债务管理)、制作人(排期、资源、里程碑)
    • 主管层:美术总监、音频总监、游戏设计师、主程序员、QA主管、关卡设计师、系统设计师
    • 执行层:AI程序员、美术程序员、玩法程序员、UI程序员、UX设计师、音效设计师、技术美术、多分辨率专家、网络程序员、性能分析师、原型师、QA测试员、文案、微信API专家、微信Canvas程序员、微信云专家、微信项目结构师
    每个Agent都有:明确的职责边界、协作协议、升级条件、委托关系图、禁止事项、输出格式规范。这种"组织即架构"的设计在AI Harness领域非常罕见。
    2.2 微信小游戏平台深度适配
    项目不是"通用游戏开发工具",而是深度绑定微信小游戏生态:
    • 包体约束:4MB主包、20MB总包、2MB单文件限制,每条Rule和Hook都围绕这些约束设计
    • 渲染层:Canvas 2D专用规范(脏矩形优化、离屏Canvas生命周期、纹理图集、对象池)
    • API封装:所有wx.调用必须通过src/platform/封装层,禁止业务代码直接调用
    • ES6兼容性:详细的iOS/JavaScriptCore vs Android/V8差异表,包含Proxy、Array.values()、eval()等禁用说明
    • 内存管理:150MB上限、内存警告监听、场景切换资源释放
    • 社交裂变:创意总监职责中明确包含"分享机制、排行榜竞争、好友互助"的社交裂变设计
    • 变现设计:IAA(激励视频广告)和IAP(内购)的创意决策有专门的Rule(monetization-code.md)
    2.3 Rule系统工程化程度高
    17条Rule不是简单的"编码规范",而是覆盖了:
    • 代码规范:AI代码、游戏逻辑代码、渲染代码、UI代码、网络代码、原型代码、变现代码
    • 资产规范:资产大小限制、数据文件规范
    • 协作规范:协作协议(6.4KB,包含沟通协议、决策流程、冲突解决)、设计文档规范
    • 平台约束:模块通信、多分辨率、微信API使用、微信项目配置
    • 测试规范:测试标准(2KB)
    每条Rule都有具体的正确/错误示例,如gameplay-code.md中展示了"数据驱动+deltaTime+事件总线" vs "硬编码+直连UI"的对比。
    2.4 Hook系统实现完整的DevOps流水线
    13个Hook覆盖了开发全生命周期:
    • SessionStart:环境自检(bash/jq/python可用性)、Git状态检测、项目差距检测(5类差距:缺少微信必需文件、近乎空项目、有代码缺设计、缺生产管理目录、有assets缺规范)、活跃会话状态恢复
    • SessionStop:会话总结、未完成任务检测、Git状态检查、TODO/FIXME统计
    • PreToolUse:Git提交验证(检查提交信息格式、关联Sprint/Bug)、Git推送验证
    • PostToolUse:资产验证(尺寸/格式/大小)、微信项目验证(game.json/project.config.json字段完整性)、Skill变更验证、包体大小检查(4MB/20MB/2MB限制)
    • Notification:Agent切换通知、任务完成通知
    • Pre/PostCompact:会话压缩前后的上下文管理
    • SubagentStart/Stop:Agent调用日志记录
    这些Hook用bash脚本实现,包含完整的错误处理、路径检测、JSON解析(jq)、条件判断。
    2.5 规范文档体系极其详尽
    24份规范文档覆盖了:
    • 编码标准(9KB):微信小游戏JavaScript规范、内存管理、ES6兼容性、Canvas 2D、wx API调用、数据驱动、代码结构、云开发、包体约束
    • 协作规则(18.5KB):Agent间协作协议、冲突解决、升级流程、决策框架
    • 目录结构(10KB):完整的项目目录规范(src/、design/、production/、docs/、assets/等)
    • 上下文管理(4.8KB):会话状态、活跃任务、上下文持久化
    • 评审工作流(5.8KB):代码评审、设计评审、测试评审流程
    • Hooks参考(7.6KB):所有Hook的触发条件、功能说明、配置方式
    • Rules参考(13KB):所有Rule的适用路径、核心约束、示例
    • Skills参考(7.8KB):71个Skill的分类、用途、触发方式
    • 微信API速查(9.2KB):wx API调用规范、常见陷阱
    • 微信 pitfalls(7.5KB):微信小游戏开发常见陷阱和解决方案
    • Agent-Tool映射(4.5KB):每个Agent可用工具的映射表
    • Workflow目录(13.9KB YAML):完整的工作流目录,定义了所有工作流
    2.6 settings.json配置极其精细
    • 权限系统:明确的allow/deny列表(允许git操作、ls、node、python、mkdir;禁止rm -rf、git push --force、chmod 777、.env文件操作)
    • 模型版本锁定:sonnet/haiku/opus三层模型映射
    • Hook配置:完整的matcher匹配规则(如"Bash(git commit
    )"触发validate-commit.sh)
    • 工具权限:defaultAllowedTools(Read/Glob/Grep)和defaultDisallowedTools(Bash(rm *)等)
    • npm限制:仅开放给cloudfunctions/目录,game代码禁止npm依赖
    • 注释充分:每个配置项都有详细的注释说明
    2.7 产品价值定位清晰
    README和Specs中明确回答了:
    • 为谁:个人开发者、小团队、原型验证者
    • 解决什么:微信小游戏开发的技术门槛高、平台约束多、调试困难、包体限制严格
    • 如何不同:不是"AI写代码",而是"AI扮演完整工作室"——有组织架构、有协作协议、有质量门禁
    • 成功标准:从0到可运行原型的时间缩短、代码质量提升、平台合规性保证

  3. 当前不足
    3.1 缺少可运行的演示/原型(核心问题)
    src/目录下只有CLAUDE.md(6KB),没有任何实际的游戏代码、assets、配置文件。这意味着:
    • 评审方无法看到"一个Agent实际运行后产出的代码是什么样的"
    • 无法验证27个Agent协作流程是否真的能产出可编译的微信小游戏
    • 无法验证Hook系统(如包体大小检查、资产验证)在实际项目中的效果
    • 无法验证Rule系统(如"禁止硬编码")是否能被AI实际遵守
    建议:至少提供一个完整的"Hello World"微信小游戏示例(包含game.json、project.config.json、入口JS、至少一个场景),展示Agent从0到可运行项目的完整流程。
    3.2 缺少自动评测和验证机制
    虽然Specs.md中提到了"验证驱动开发"和"自动化测试规则",但:
    • 没有eval.mjs或类似的自动评测脚本
    • 没有固定输入→预期输出的测试用例(如"输入'创建一个消除类游戏',期望产出包含哪些文件")
    • 没有Agent输出的质量评分机制(如"代码是否符合gameplay-code.md规范"的自动检查)
    • 没有端到端的工作流验证(如从/start到/ship的完整流程是否能在30分钟内完成)
    建议:增加tests/目录,包含至少510个端到端测试用例,覆盖核心工作流(如快速设计、原型开发、迭代优化)。
    3.3 Agent协作的"涌现行为"未经验证
    27个Agent的协作协议设计得非常详细,但:
    • 实际运行时,Agent之间的上下文传递是否顺畅?(如创意总监的"支柱决策"是否能正确传递给游戏设计师和美术总监)
    • 冲突解决机制(升级条件表)在实际中是否有效?(如当游戏设计师和美术总监对UI风格有分歧时,是否真的会上报到创意总监)
    • 多层Agent调用(决策层→主管层→执行层)的延迟和token消耗是否可接受?
    • 当多个Agent同时修改同一文件时,是否有冲突检测和合并机制?
    建议:在README中补充"已验证的协作场景"章节,列出至少3
    5个已实际测试过的多Agent协作场景及其结果。
    3.4 缺少用户上手路径和教程
    对于新用户(微信小游戏开发者),面对27个Agent、71个Skill、17条Rule、13个Hook,入门门槛极高:
    • 没有"5分钟快速开始"教程
    • 没有"第一个小游戏"的step-by-step引导
    • 没有常见场景的命令速查表(如"如何创建一个消除类游戏"、"如何添加排行榜")
    • 没有故障排查指南(如"Agent不遵守Rule怎么办"、"Hook报错如何处理")
    建议:增加docs/getting-started.md和docs/tutorials/目录,包含至少3个完整教程(从空项目到可运行游戏)。
    3.5 微信小游戏生态的时效性风险
    Specs和文档中引用的微信小游戏API和限制(如4MB主包、ES6兼容性表)是基于当前(2026年5月)的平台状态。但:
    • 微信小游戏平台规则可能变化(如包体限制调整、新API发布、旧API废弃)
    • 没有版本化机制来跟踪平台规则的变化
    • 没有自动检测平台规则变化的机制
    建议:在文档中标注所有平台相关约束的"最后验证日期",并设计一个定期更新的流程。
    3.6 缺少与其他AI工具的对比
    项目声称"不是AI写代码,而是AI扮演完整工作室",但:
    • 没有与Cursor、GitHub Copilot、Cline等AI编程工具的对比分析
    • 没有与Lovable、v0等AI应用构建工具的对比
    • 没有说明"27个Agent"相比"1个通用Agent+详细prompt"的优势在哪里
    建议:增加docs/competitor-analysis.md,对比现有AI开发工具,明确MiniGame Studio的差异化价值。

  4. 总体结论
    这是一个架构设计极其专业、文档体系极其完备的AI Harness工程,但当前阶段更偏向"完整的AI开发框架设计规范",而非"可验证的AI开发工具"。
    项目最大的优势在于:

  5. 组织架构的真实感:27个Agent按照真实游戏工作室的职能层级设计,每个Agent都有明确的职责、协作协议、升级条件,这种"组织即架构"的设计理念在AI Harness领域非常独特。

  6. 微信小游戏的深度适配:不是通用工具,而是深度绑定微信小游戏生态(4MB包体、Canvas 2D、ES6兼容性、社交裂变、IAA/IAP变现),平台专业性极强。

  7. 工程化程度高:Rule系统(17条)、Hook系统(13个)、settings.json配置、规范文档体系(24份)都体现了高度的工程化思维。
    项目当前最需要解决的问题是:

  8. 缺少可运行的演示项目:src/目录为空,评审方无法验证27个Agent协作是否真的能产出可编译的微信小游戏。

  9. 缺少自动评测机制:没有端到端测试用例,无法验证Agent输出是否符合Rule规范。

  10. 缺少用户上手路径:面对27个Agent和71个Skill,新用户的入门门槛极高。
    如果能在下一轮迭代中补充一个完整的演示项目(如"消除类微信小游戏"的完整开发流程)和自动评测脚本,该项目在AI Harness赛道的竞争力将显著提升。

评测基于完整仓库文件:README.md(35KB)、Specs.md(70KB)、CLAUDE.md(4KB)、settings.json、27个Agent定义、17条Rule、13个Hook、24份规范文档、12份微信API参考,以及实际读取的creative-director.md、gameplay-code.md、session-start.sh、coding-standards.md等核心文件内容。 1. 项目理解 本项目是一个面向微信小游戏开发的AI Harness工程,品牌名为 MiniGame Studio。核心定位是:将AI(Claude Code插件框架)转化为一个具备完整组织架构的"虚拟游戏工作室",通过27个专业Agent、71个Skill、17条Rule、13个Hook和24份规范文档,系统化地辅助开发者完成微信小游戏的完整开发流程。 核心架构: • 三层级Agent体系:决策层(3个:创意总监、技术总监、制作人)→ 主管层(7个:美术总监、音频总监、游戏设计师、主程序员、QA主管、关卡设计师、系统设计师)→ 执行层(17个:各专项程序员、设计师、测试员、文案等) • Rule系统:17条规则覆盖代码规范、资产规范、协作协议、平台约束(微信小游戏4MB包体限制、Canvas 2D渲染、ES6兼容性等) • Hook系统:13个钩子覆盖会话启动/停止、Git提交验证、资产验证、包体大小检查、Agent日志等 • 文档体系:24份规范文档 + 12份微信API参考 项目基于Claude Code插件框架,目标用户是微信小游戏开发者/团队,核心命题是:通过AI Harness将"一个人+AI"的生产力提升到接近"一个小型游戏工作室"的水平。 2. 项目亮点 2.1 组织架构设计极其专业且完整 27个Agent不是简单的"prompt列表",而是按照真实游戏工作室的职能层级设计的: • 决策层:创意总监(愿景守护、支柱冲突裁决)、技术总监(架构决策、技术债务管理)、制作人(排期、资源、里程碑) • 主管层:美术总监、音频总监、游戏设计师、主程序员、QA主管、关卡设计师、系统设计师 • 执行层:AI程序员、美术程序员、玩法程序员、UI程序员、UX设计师、音效设计师、技术美术、多分辨率专家、网络程序员、性能分析师、原型师、QA测试员、文案、微信API专家、微信Canvas程序员、微信云专家、微信项目结构师 每个Agent都有:明确的职责边界、协作协议、升级条件、委托关系图、禁止事项、输出格式规范。这种"组织即架构"的设计在AI Harness领域非常罕见。 2.2 微信小游戏平台深度适配 项目不是"通用游戏开发工具",而是深度绑定微信小游戏生态: • 包体约束:4MB主包、20MB总包、2MB单文件限制,每条Rule和Hook都围绕这些约束设计 • 渲染层:Canvas 2D专用规范(脏矩形优化、离屏Canvas生命周期、纹理图集、对象池) • API封装:所有wx.*调用必须通过src/platform/封装层,禁止业务代码直接调用 • ES6兼容性:详细的iOS/JavaScriptCore vs Android/V8差异表,包含Proxy、Array.values()、eval()等禁用说明 • 内存管理:150MB上限、内存警告监听、场景切换资源释放 • 社交裂变:创意总监职责中明确包含"分享机制、排行榜竞争、好友互助"的社交裂变设计 • 变现设计:IAA(激励视频广告)和IAP(内购)的创意决策有专门的Rule(monetization-code.md) 2.3 Rule系统工程化程度高 17条Rule不是简单的"编码规范",而是覆盖了: • 代码规范:AI代码、游戏逻辑代码、渲染代码、UI代码、网络代码、原型代码、变现代码 • 资产规范:资产大小限制、数据文件规范 • 协作规范:协作协议(6.4KB,包含沟通协议、决策流程、冲突解决)、设计文档规范 • 平台约束:模块通信、多分辨率、微信API使用、微信项目配置 • 测试规范:测试标准(2KB) 每条Rule都有具体的正确/错误示例,如gameplay-code.md中展示了"数据驱动+deltaTime+事件总线" vs "硬编码+直连UI"的对比。 2.4 Hook系统实现完整的DevOps流水线 13个Hook覆盖了开发全生命周期: • SessionStart:环境自检(bash/jq/python可用性)、Git状态检测、项目差距检测(5类差距:缺少微信必需文件、近乎空项目、有代码缺设计、缺生产管理目录、有assets缺规范)、活跃会话状态恢复 • SessionStop:会话总结、未完成任务检测、Git状态检查、TODO/FIXME统计 • PreToolUse:Git提交验证(检查提交信息格式、关联Sprint/Bug)、Git推送验证 • PostToolUse:资产验证(尺寸/格式/大小)、微信项目验证(game.json/project.config.json字段完整性)、Skill变更验证、包体大小检查(4MB/20MB/2MB限制) • Notification:Agent切换通知、任务完成通知 • Pre/PostCompact:会话压缩前后的上下文管理 • SubagentStart/Stop:Agent调用日志记录 这些Hook用bash脚本实现,包含完整的错误处理、路径检测、JSON解析(jq)、条件判断。 2.5 规范文档体系极其详尽 24份规范文档覆盖了: • 编码标准(9KB):微信小游戏JavaScript规范、内存管理、ES6兼容性、Canvas 2D、wx API调用、数据驱动、代码结构、云开发、包体约束 • 协作规则(18.5KB):Agent间协作协议、冲突解决、升级流程、决策框架 • 目录结构(10KB):完整的项目目录规范(src/、design/、production/、docs/、assets/等) • 上下文管理(4.8KB):会话状态、活跃任务、上下文持久化 • 评审工作流(5.8KB):代码评审、设计评审、测试评审流程 • Hooks参考(7.6KB):所有Hook的触发条件、功能说明、配置方式 • Rules参考(13KB):所有Rule的适用路径、核心约束、示例 • Skills参考(7.8KB):71个Skill的分类、用途、触发方式 • 微信API速查(9.2KB):wx API调用规范、常见陷阱 • 微信 pitfalls(7.5KB):微信小游戏开发常见陷阱和解决方案 • Agent-Tool映射(4.5KB):每个Agent可用工具的映射表 • Workflow目录(13.9KB YAML):完整的工作流目录,定义了所有工作流 2.6 settings.json配置极其精细 • 权限系统:明确的allow/deny列表(允许git操作、ls、node、python、mkdir;禁止rm -rf、git push --force、chmod 777、.env文件操作) • 模型版本锁定:sonnet/haiku/opus三层模型映射 • Hook配置:完整的matcher匹配规则(如"Bash(git commit*)"触发validate-commit.sh) • 工具权限:defaultAllowedTools(Read/Glob/Grep)和defaultDisallowedTools(Bash(rm *)等) • npm限制:仅开放给cloudfunctions/目录,game代码禁止npm依赖 • 注释充分:每个配置项都有详细的注释说明 2.7 产品价值定位清晰 README和Specs中明确回答了: • 为谁:个人开发者、小团队、原型验证者 • 解决什么:微信小游戏开发的技术门槛高、平台约束多、调试困难、包体限制严格 • 如何不同:不是"AI写代码",而是"AI扮演完整工作室"——有组织架构、有协作协议、有质量门禁 • 成功标准:从0到可运行原型的时间缩短、代码质量提升、平台合规性保证 3. 当前不足 3.1 缺少可运行的演示/原型(核心问题) src/目录下只有CLAUDE.md(6KB),没有任何实际的游戏代码、assets、配置文件。这意味着: • 评审方无法看到"一个Agent实际运行后产出的代码是什么样的" • 无法验证27个Agent协作流程是否真的能产出可编译的微信小游戏 • 无法验证Hook系统(如包体大小检查、资产验证)在实际项目中的效果 • 无法验证Rule系统(如"禁止硬编码")是否能被AI实际遵守 建议:至少提供一个完整的"Hello World"微信小游戏示例(包含game.json、project.config.json、入口JS、至少一个场景),展示Agent从0到可运行项目的完整流程。 3.2 缺少自动评测和验证机制 虽然Specs.md中提到了"验证驱动开发"和"自动化测试规则",但: • 没有eval.mjs或类似的自动评测脚本 • 没有固定输入→预期输出的测试用例(如"输入'创建一个消除类游戏',期望产出包含哪些文件") • 没有Agent输出的质量评分机制(如"代码是否符合gameplay-code.md规范"的自动检查) • 没有端到端的工作流验证(如从/start到/ship的完整流程是否能在30分钟内完成) 建议:增加tests/目录,包含至少5~10个端到端测试用例,覆盖核心工作流(如快速设计、原型开发、迭代优化)。 3.3 Agent协作的"涌现行为"未经验证 27个Agent的协作协议设计得非常详细,但: • 实际运行时,Agent之间的上下文传递是否顺畅?(如创意总监的"支柱决策"是否能正确传递给游戏设计师和美术总监) • 冲突解决机制(升级条件表)在实际中是否有效?(如当游戏设计师和美术总监对UI风格有分歧时,是否真的会上报到创意总监) • 多层Agent调用(决策层→主管层→执行层)的延迟和token消耗是否可接受? • 当多个Agent同时修改同一文件时,是否有冲突检测和合并机制? 建议:在README中补充"已验证的协作场景"章节,列出至少3~5个已实际测试过的多Agent协作场景及其结果。 3.4 缺少用户上手路径和教程 对于新用户(微信小游戏开发者),面对27个Agent、71个Skill、17条Rule、13个Hook,入门门槛极高: • 没有"5分钟快速开始"教程 • 没有"第一个小游戏"的step-by-step引导 • 没有常见场景的命令速查表(如"如何创建一个消除类游戏"、"如何添加排行榜") • 没有故障排查指南(如"Agent不遵守Rule怎么办"、"Hook报错如何处理") 建议:增加docs/getting-started.md和docs/tutorials/目录,包含至少3个完整教程(从空项目到可运行游戏)。 3.5 微信小游戏生态的时效性风险 Specs和文档中引用的微信小游戏API和限制(如4MB主包、ES6兼容性表)是基于当前(2026年5月)的平台状态。但: • 微信小游戏平台规则可能变化(如包体限制调整、新API发布、旧API废弃) • 没有版本化机制来跟踪平台规则的变化 • 没有自动检测平台规则变化的机制 建议:在文档中标注所有平台相关约束的"最后验证日期",并设计一个定期更新的流程。 3.6 缺少与其他AI工具的对比 项目声称"不是AI写代码,而是AI扮演完整工作室",但: • 没有与Cursor、GitHub Copilot、Cline等AI编程工具的对比分析 • 没有与Lovable、v0等AI应用构建工具的对比 • 没有说明"27个Agent"相比"1个通用Agent+详细prompt"的优势在哪里 建议:增加docs/competitor-analysis.md,对比现有AI开发工具,明确MiniGame Studio的差异化价值。 4. 总体结论 这是一个架构设计极其专业、文档体系极其完备的AI Harness工程,但当前阶段更偏向"完整的AI开发框架设计规范",而非"可验证的AI开发工具"。 项目最大的优势在于: 1. 组织架构的真实感:27个Agent按照真实游戏工作室的职能层级设计,每个Agent都有明确的职责、协作协议、升级条件,这种"组织即架构"的设计理念在AI Harness领域非常独特。 2. 微信小游戏的深度适配:不是通用工具,而是深度绑定微信小游戏生态(4MB包体、Canvas 2D、ES6兼容性、社交裂变、IAA/IAP变现),平台专业性极强。 3. 工程化程度高:Rule系统(17条)、Hook系统(13个)、settings.json配置、规范文档体系(24份)都体现了高度的工程化思维。 项目当前最需要解决的问题是: 1. 缺少可运行的演示项目:src/目录为空,评审方无法验证27个Agent协作是否真的能产出可编译的微信小游戏。 2. 缺少自动评测机制:没有端到端测试用例,无法验证Agent输出是否符合Rule规范。 3. 缺少用户上手路径:面对27个Agent和71个Skill,新用户的入门门槛极高。 如果能在下一轮迭代中补充一个完整的演示项目(如"消除类微信小游戏"的完整开发流程)和自动评测脚本,该项目在AI Harness赛道的竞争力将显著提升。
Owner

对反馈的理解

感谢反馈。以下是对各项反馈的理解。


1、"缺少可运行的演示/原型"

半决赛的阶段要求是交付一个具备交互能力的智能体,而 MiniGame Studio 当前已经完全可以交互使用——克隆后运行 /start,从 0 开始跟着 Agent 引导完成一个微信小游戏项目。欢迎大家克隆到本地实际体验。

这套 Harness 工程也已经投入到了我实际的游戏开发中。目前游戏正在优化阶段,同时在微信官方审核流程中,后续可以直接提供二维码供大家扫码游玩。

更重要的是,我相信只有通过一个个真实项目的打磨与反馈,才能持续优化当前的 AI Harness 工程。这种"反馈→优化→再反馈"的迭代过程,本身就是 Harness 工程的生命力所在,要一直进行下去。


2、"缺少自动评测和验证机制"

项目已经建立了多层级的自动评测与验证体系,贯穿研发管线全流程。这套体系不是事后补救的测试环节,而是嵌入到每个开发阶段中的自动化质量护栏。

Hook 层:事件驱动的自动门禁

13 个事件驱动 Hook 在关键节点自动触发验证,无需人工干预,以下是几个举例:

  • validate-wx-project:在写入 game.json / project.config.json 时自动校验微信项目结构完整性、JSON 合法性、ES6 转译设置、分包配置等
  • check-package-size:自动校验主包 ≤ 4MB、总包 ≤ 20MB、单文件 ≤ 2MB 等平台硬约束
  • validate-commit / validate-push:Git 操作前自动执行代码规范检查,拦截未通过验证的提交
  • validate-assets:美术资源写入时自动检查命名规范、格式合规、尺寸限制
  • validate-skill-change:Skill 文件变更时自动校验契约完整性,防止框架退化

Skill 层:标准化评测工作流

比如,质量保障类 Skill(9 个)覆盖从单元测试到生产验证的完整链路:

Skill 触发阶段 功能
qa-plan 预生产 生成结构化测试计划,包含机型矩阵、网络覆盖、平台专项测试
test-setup 预生产 初始化测试框架和辅助工具
smoke-check 每轮构建后 冒烟测试:核心链路快速验证
regression-suite Story 完成后 回归测试套件自动执行
soak-test 打磨阶段 长时间运行稳定性测试
test-evidence-review 测试完成后 审查测试证据完整性
test-flakiness 持续 检测并标记不稳定测试用例
ci-integration 生产阶段 CI/CD 集成配置,自动化构建和测试
test-helpers 全阶段 测试辅助工具库,降低测试编写成本

Agent 层:分层次审查体系

比如:

  • 代码审查:10 个领域 Agent(gameplay / AI / 网络 / Canvas / UI / wx API / 云开发 / 性能 / 多分辨率)各自审查对应代码路径,最终由 lead-programmer 终审
  • 设计审查:game-designer 审查单系统 GDD 完整性 → creative-director 审查跨系统一致性
  • 架构审查:wx-api-specialist 审查微信平台合规 → technical-director 审查 ADR 依赖拓扑和兼容性
  • 阶段门审查:每个阶段结束时 /gate-check 由三个总监 Agent 并行审查,任一未通过则阻塞推进

这套体系的核心理念是:评测不是独立环节,而是嵌入到每一次文件写入、每一次阶段推进中的自动化事件响应。Hook 让你写代码时自动校验,Skill 让你主动触发深度审查,Agent 让你在关键节点获得专家评审——三层协同,形成完整的自动化质量闭环。


3、"缺少用户上手路径和教程"

MiniGame Studio 已经内置了完善的引导机制:

  • /start 引导式入门:根据项目当前状态智能路由,从零基础到已有成果都有对应路径
  • /help 上下文感知帮助:读取当前项目阶段,动态推荐下一步操作
  • project-stage-detect 自动审计:全面扫描项目状态,生成分优先级的缺口清单

新用户不需要一次性理解所有概念——Agent、Skill、Rule、Hook、ADR、Epic、Story、GDD 这些概念分散在研发管线的不同阶段,跟着 /start 的互动走,大模型会根据 Harness 的配置自动问答、自动引导。

概念数量多,是因为这套体系完整覆盖了小游戏从创意到发布的全部环节——这是体系完整度的代价,而不是使用门槛。玩家只要顺着互动走下去就行了。

另外,有任何问题或疑惑,你都可以直接在输入框里询问。大模型会把当前项目的各种细节都告诉你。workflow-catalog.yaml 已经完整标注了每个 Skill 所处的研究阶段、由哪个 Agent 执行、是 required 还是可选。而 Skill 文件本身是 AI Native 的——Agent 会按需加载。开发者不需要自己去翻阅 71 个 SKILL.md 文件来决定该用哪个。开发者用自然语言告诉 Agent 想做什么——「我想做个什么什么样的游戏」「各种各样的需求」——Agent 会在 Harness 框架的引导下,自动选择合适的 Skill 来响应。


4、"微信小游戏生态的时效性风险"

这个担忧是合理的。微信小游戏平台确实在持续迭代——API 的新增与废弃、包体限制的调整、基础库版本的升级都是客观存在的风险。项目的应对策略分为现状机制和演进方向两个层面。

现状:已落地的时效性保障

  • 版本锁定:所有 wx API 参考文档(docs/wx-reference/ 下 12 份文档)均标注"基于基础库 3.5.0 验证",明确了当前参考基准的时间锚点。这不是一个模糊的"支持微信小游戏"声明,而是精确到基础库版本的 API 契约。

    锁定一个"过去的稳定版本"而非盲目追最新版,是微信小游戏开发的通用实践,背后有两个深层原因:

    • 兼容性覆盖:微信小游戏的用户设备分布极为广泛——很多用户的手机型号老旧、微信版本停留在较旧的迭代上。如果开发时直接使用最新版基础库的 API,这些用户可能根本无法运行游戏。微信官方对老版本基础库提供了充分的向下兼容,因此选取一个经过市场验证的、覆盖绝大多数用户设备的稳定版本(如基础库 3.5.0),是最大化用户触达的务实策略。

    • API 稳定性:最新版基础库中的 API 可能存在未充分验证的边缘行为或后续调整。锁定一个已发布一段时间、被大量开发者验证过的稳定版本,意味着参考文档中的 API 签名、参数约束、返回值格式都是可靠的,不会出现"照官方最新文档写出的代码在真机上表现不一致"的情况。

  • 平台层隔离:项目强制所有 wx.* API 调用必须通过 src/platform/ 封装层,业务代码禁止直接调用平台 API。这意味着当平台规则变化时,只需要修改封装层即可适配——不需要改动遍布全项目的业务逻辑。

  • wx-api-specialist 专职 Agent:技术搭建阶段有专门负责平台合规审查的 Agent,在 ADR 审批时逐条检查平台兼容性,确保架构决策不依赖已被废弃或即将变更的 API。

  • wx-api-usage Rule:路径绑定规则在每次涉及 wx API 的代码写入时自动触发,强制检查调用是否符合当前参考文档的契约。

演进方向:定期更新流程

项目目前缺少"自动检测平台规则变化"的机制——这确实应该纳入后续迭代。理想的方案是:

  • 在所有平台约束相关文档中标注"最后验证日期"和"验证基础库版本"
  • 建立定期的平台规则审视流程:由 wx-api-specialist Agent 对照微信官方最新文档,逐条审计 docs/wx-reference/ 中的 API 参考、禁区和性能约束
  • 将平台规则变更捕获为 ADR,纳入架构决策的可追溯链

这一点记录为待办事项,感谢指出。


5、"缺少与其他 AI 工具的对比"

基础定位的区分

Cursor、GitHub Copilot、Claude Code 等属于底层基础。

MiniGame Studio 作为AI Harness 工程,是在底层基础之上构建的一层"控制框架"。它不是替代底层,而是通过 Agent 编排、Skill 工作流、Rule 约束、Hook 自动化四套体系,让 AI 能够在游戏研发这个复杂的工程领域里安全、可靠、可审计地完成工作。

从"提示词工程"到"Harness 工程":AI 辅助开发的代际跃迁

要理解为什么需要一套完整的 Harness 框架,需要先看懂 AI 辅助开发范式的演进路径:

代际 范式 核心思路 典型问题
第一代 提示词工程 精心设计一段 prompt 让 AI 产出更好结果 prompt 越长越难维护;一个 prompt 无法覆盖多场景;跨会话一致性为零
第二代 上下文工程 动态管理 AI 能看到的上下文内容 上下文窗口有限,内容多了溢出、少了信息不全;缺乏结构化的行为约束
第三代 Harness 工程 在通用大模型外层叠加 Agent/Skill/Rule/Hook 控制框架 ——

MiniGame Studio 正是第三代范式的实践——它不是在写更好的 prompt,而是在构建一套让 prompt 能被系统化管理、Agent 能被编排协作、行为能被实时约束、质量能被自动验证的完整框架。

"1 个通用 Agent + 详细 prompt"为什么不够?

有人可能会问:把 27 个 Agent 的知识、71 个 Skill 的流程、17 条 Rule 的约束全部写进一个超长的系统 prompt 里,用一个通用 Agent 来执行,不是更简单吗?

这条路在工程实践中已经被证明行不通:

  • 上下文窗口的物理限制:一个大而全的超长 prompt,直接占用了模型宝贵的上下文窗口。当项目代码也进入上下文后,很快就会触发压缩。
  • 指令冲突与注意力稀释:把"Canvas 2D 渲染管线的最佳实践"和"IAA 变现策略"塞进同一个 prompt,模型在生成代码时无法有效区分哪些规则适用于当前场景。结果是:要么关键约束被忽略(注意力被稀释),要么不同场景的规则互相干扰(指令冲突)。
  • OpenAI 的实践教训:OpenAI 在探索时公开讨论过一个核心问题——当系统提示词、开发者消息和用户消息多层叠加时,模型会出现"指令混淆",低优先级的用户指令可能覆盖高优先级的系统约束。这正是"把所有规则写进一个文件"会面临的困境:没有优先级、没有作用域、没有触发条件,所有规则平铺在一个文本里,模型只能凭"注意力"随机地关注某些规则而忽略另一些。
  • 无法实现角色切换:软件开发的不同阶段需要模型扮演完全不同的角色——创意发散时需要发散性思维,编写 GDD 时需要系统化的严谨性,编写代码时需要精确的技术约束意识,做 code review 时需要批判性思维。一个包含了所有规则的通用 prompt 无法在不同阶段切换思维模式,而 27 个独立 Agent 各自拥有专属的系统提示词和激活条件,按需切换。

这正是 AI Harness 工程诞生的原因——把"一个超大 prompt"拆解为"一套可编排的控制系统":Skill 按阶段懒加载(不影响上下文窗口)、Rule 按文件路径精确触发(不产生指令冲突)、Agent 按角色独立配置(确保角色专注)、Hook 在事件节点自动执行(弥补 prompt 无法覆盖的运行时约束)。

提前设计好 Agent 和 Skill,与让大模型自己开子 Agent 执行有什么区别?

这是一个关键的设计决策。让大模型在运行时根据任务动态创建子 Agent(类似"自我分拆"),与提前设计好完整的 Agent/Skill 体系,两者有本质区别:

  • 稳定性与可预测性:动态创建的子 Agent 每次可能不同——同一个任务,今天拆出 3 个子 Agent、明天拆出 5 个,分工方式也不一样。预设计的 Agent 体系保证每次执行同样的任务,走的是同样的角色、同样的 Skill、同样的审查链路——这是工程化的基本要求:可复现。
  • 角色知识的深度:预设计的 wx-api-specialist Agent 经过了精心设计,系统提示词中包含了所有 wx API 的能力边界、常见陷阱、兼容性矩阵;而动态生成的"API 检查子 Agent"只有一个简短的任务指令,无法承载同等深度的领域知识。
  • 协作协议的有效性:27 个 Agent 之间的协作协议(垂直委托链路、水平咨询机制、冲突升级规则)是提前设计的,经过了覆盖性验证。动态生成的 Agent 之间没有可靠协作协议,只能依赖大模型"即兴发挥"协调——这在简单任务中可能有效,但在跨越 7 个研发阶段的复杂工程中必然失控。
  • 质量护栏的完整性:Rules 和 Hooks 是 Harness 框架预先配置的,它们知道在哪个 Agent 产出了哪种类型的文件时触发什么验证。动态生成的 Agent 没有与这套护栏系统的绑定关系,写完代码就结束了——验证只能靠人手动触发。

打个比方:预设计的 Agent 体系像是一家有明确岗位编制和 SOP 的公司,每个人知道自己负责什么、上下游是谁、出现问题时怎么升级;而动态创建子 Agent 像是每次接到项目临时招人——短期看灵活,长期看交付质量、协作效率和知识积累都无法保障。

直接使用 AI Coding 工具落地商业化项目的实际困境

用 Cursor 或 Claude Code 直接完整开发一个工程化项目,会遇到各种问题,以下是几个说明:

  • 上下文窗口断裂:小游戏从创意到上线跨越几十个会话、数百次上下文压缩。MiniGame Studio 通过 pre-compact / post-compact Hook 自动 dump 和恢复会话状态,配合 resume-story Skill 实现会话连续性。
  • 缺乏领域知识约束:MiniGame Studio 通过 17 条路径绑定 Rule 和 13 个事件驱动 Hook 在代码写入时自动约束。
  • 缺乏工程化流程:MiniGame Studio 的 7 阶段研发管线给出了完整路径,每个阶段有明确的进入条件、产出物、阶段门审查。
  • 质量无法体系化保障:单个 Agent 写出的代码没有第二人审查,设计文档和代码之间没有追溯链,技术债无声堆积。MiniGame Studio 通过 27 个 Agent 的分层审查矩阵(领域 Agent → 主管 Agent → 总监 Agent)、story-done 8 阶段审查流程、tech-debt 定期扫描来解决。
  • 缺乏角色化分工:一个人 + 一个通用 Agent 的组合,所有决策都压在一个人身上——从游戏设计到架构选型到性能优化到平台合规。MiniGame Studio 的 27 个角色化 Agent(creative-director、technical-director、game-designer、wx-api-specialist、performance-analyst 等)各自在专业领域提供结构化建议。

27 个 Agent 相比 1 个通用 Agent 的优势

这不是简单的"数量堆砌"。27 个 Agent 按三层级架构组织。比如:

  • 领域专精wx-canvas-programmer 的上下文里满载 Canvas 2D 渲染最佳实践和脏矩形优化策略,economy-designer 的上下文聚焦 IAA/IAP 变现模型——这些专精知识不可能塞进一个通用 prompt 里而不超过上下文窗口
  • 并行协作:多个 Agent 可以并行推进各自的代码模块,通过协作协议进行垂直委托和水平咨询
  • 制衡机制:编码 Agent 产出的代码要经过审查 Agent 的校验,设计 Agent 的 GDD 要经过 cross-review ——这是工程组织的基本原理:同一个 Agent 不能既当运动员又当裁判

MiniGame Studio 是在构建一个专业领域细分领域的 AI Harness 工程:如何让 AI 在一个有严格平台约束、性能预算、商业要求的垂直领域里,完成从创意到交付的全流程工程任务


再次感谢这些反馈。每一个问题的审视都在帮助 MiniGame Studio 变得更完整、更扎实。

# 对反馈的理解 感谢反馈。以下是对各项反馈的理解。 --- ## 1、"缺少可运行的演示/原型" 半决赛的阶段要求是交付一个具备交互能力的智能体,而 MiniGame Studio 当前已经完全可以交互使用——克隆后运行 `/start`,从 0 开始跟着 Agent 引导完成一个微信小游戏项目。欢迎大家克隆到本地实际体验。 这套 Harness 工程也已经投入到了我实际的游戏开发中。目前游戏正在优化阶段,同时在微信官方审核流程中,后续可以直接提供二维码供大家扫码游玩。 更重要的是,我相信只有通过一个个真实项目的打磨与反馈,才能持续优化当前的 AI Harness 工程。这种"反馈→优化→再反馈"的迭代过程,本身就是 Harness 工程的生命力所在,要一直进行下去。 --- ## 2、"缺少自动评测和验证机制" 项目已经建立了多层级的自动评测与验证体系,贯穿研发管线全流程。这套体系不是事后补救的测试环节,而是嵌入到每个开发阶段中的自动化质量护栏。 ### Hook 层:事件驱动的自动门禁 13 个事件驱动 Hook 在关键节点自动触发验证,无需人工干预,以下是几个举例: - `validate-wx-project`:在写入 `game.json` / `project.config.json` 时自动校验微信项目结构完整性、JSON 合法性、ES6 转译设置、分包配置等 - `check-package-size`:自动校验主包 ≤ 4MB、总包 ≤ 20MB、单文件 ≤ 2MB 等平台硬约束 - `validate-commit` / `validate-push`:Git 操作前自动执行代码规范检查,拦截未通过验证的提交 - `validate-assets`:美术资源写入时自动检查命名规范、格式合规、尺寸限制 - `validate-skill-change`:Skill 文件变更时自动校验契约完整性,防止框架退化 ### Skill 层:标准化评测工作流 比如,质量保障类 Skill(9 个)覆盖从单元测试到生产验证的完整链路: | Skill | 触发阶段 | 功能 | |---|---|---| | `qa-plan` | 预生产 | 生成结构化测试计划,包含机型矩阵、网络覆盖、平台专项测试 | | `test-setup` | 预生产 | 初始化测试框架和辅助工具 | | `smoke-check` | 每轮构建后 | 冒烟测试:核心链路快速验证 | | `regression-suite` | Story 完成后 | 回归测试套件自动执行 | | `soak-test` | 打磨阶段 | 长时间运行稳定性测试 | | `test-evidence-review` | 测试完成后 | 审查测试证据完整性 | | `test-flakiness` | 持续 | 检测并标记不稳定测试用例 | | `ci-integration` | 生产阶段 | CI/CD 集成配置,自动化构建和测试 | | `test-helpers` | 全阶段 | 测试辅助工具库,降低测试编写成本 | ### Agent 层:分层次审查体系 比如: - **代码审查**:10 个领域 Agent(gameplay / AI / 网络 / Canvas / UI / wx API / 云开发 / 性能 / 多分辨率)各自审查对应代码路径,最终由 lead-programmer 终审 - **设计审查**:game-designer 审查单系统 GDD 完整性 → creative-director 审查跨系统一致性 - **架构审查**:wx-api-specialist 审查微信平台合规 → technical-director 审查 ADR 依赖拓扑和兼容性 - **阶段门审查**:每个阶段结束时 `/gate-check` 由三个总监 Agent 并行审查,任一未通过则阻塞推进 这套体系的核心理念是:**评测不是独立环节,而是嵌入到每一次文件写入、每一次阶段推进中的自动化事件响应**。Hook 让你写代码时自动校验,Skill 让你主动触发深度审查,Agent 让你在关键节点获得专家评审——三层协同,形成完整的自动化质量闭环。 --- ## 3、"缺少用户上手路径和教程" MiniGame Studio 已经内置了完善的引导机制: - **`/start` 引导式入门**:根据项目当前状态智能路由,从零基础到已有成果都有对应路径 - **`/help` 上下文感知帮助**:读取当前项目阶段,动态推荐下一步操作 - **`project-stage-detect` 自动审计**:全面扫描项目状态,生成分优先级的缺口清单 新用户不需要一次性理解所有概念——Agent、Skill、Rule、Hook、ADR、Epic、Story、GDD 这些概念分散在研发管线的不同阶段,跟着 `/start` 的互动走,大模型会根据 Harness 的配置自动问答、自动引导。 概念数量多,是因为这套体系完整覆盖了小游戏从创意到发布的全部环节——这是体系完整度的代价,而不是使用门槛。玩家只要顺着互动走下去就行了。 另外,有任何问题或疑惑,你都可以直接在输入框里询问。大模型会把当前项目的各种细节都告诉你。`workflow-catalog.yaml` 已经完整标注了每个 Skill 所处的研究阶段、由哪个 Agent 执行、是 required 还是可选。而 Skill 文件本身是 AI Native 的——Agent 会按需加载。开发者不需要自己去翻阅 71 个 SKILL.md 文件来决定该用哪个。开发者用自然语言告诉 Agent 想做什么——「我想做个什么什么样的游戏」「各种各样的需求」——Agent 会在 Harness 框架的引导下,自动选择合适的 Skill 来响应。 --- ## 4、"微信小游戏生态的时效性风险" 这个担忧是合理的。微信小游戏平台确实在持续迭代——API 的新增与废弃、包体限制的调整、基础库版本的升级都是客观存在的风险。项目的应对策略分为现状机制和演进方向两个层面。 ### 现状:已落地的时效性保障 - **版本锁定**:所有 wx API 参考文档(`docs/wx-reference/` 下 12 份文档)均标注"基于基础库 3.5.0 验证",明确了当前参考基准的时间锚点。这不是一个模糊的"支持微信小游戏"声明,而是精确到基础库版本的 API 契约。 锁定一个"过去的稳定版本"而非盲目追最新版,是微信小游戏开发的通用实践,背后有两个深层原因: - **兼容性覆盖**:微信小游戏的用户设备分布极为广泛——很多用户的手机型号老旧、微信版本停留在较旧的迭代上。如果开发时直接使用最新版基础库的 API,这些用户可能根本无法运行游戏。微信官方对老版本基础库提供了充分的向下兼容,因此选取一个经过市场验证的、覆盖绝大多数用户设备的稳定版本(如基础库 3.5.0),是最大化用户触达的务实策略。 - **API 稳定性**:最新版基础库中的 API 可能存在未充分验证的边缘行为或后续调整。锁定一个已发布一段时间、被大量开发者验证过的稳定版本,意味着参考文档中的 API 签名、参数约束、返回值格式都是可靠的,不会出现"照官方最新文档写出的代码在真机上表现不一致"的情况。 - **平台层隔离**:项目强制所有 `wx.*` API 调用必须通过 `src/platform/` 封装层,业务代码禁止直接调用平台 API。这意味着当平台规则变化时,只需要修改封装层即可适配——不需要改动遍布全项目的业务逻辑。 - **wx-api-specialist 专职 Agent**:技术搭建阶段有专门负责平台合规审查的 Agent,在 ADR 审批时逐条检查平台兼容性,确保架构决策不依赖已被废弃或即将变更的 API。 - **`wx-api-usage` Rule**:路径绑定规则在每次涉及 wx API 的代码写入时自动触发,强制检查调用是否符合当前参考文档的契约。 ### 演进方向:定期更新流程 项目目前缺少"自动检测平台规则变化"的机制——这确实应该纳入后续迭代。理想的方案是: - 在所有平台约束相关文档中标注"最后验证日期"和"验证基础库版本" - 建立定期的平台规则审视流程:由 `wx-api-specialist` Agent 对照微信官方最新文档,逐条审计 `docs/wx-reference/` 中的 API 参考、禁区和性能约束 - 将平台规则变更捕获为 ADR,纳入架构决策的可追溯链 这一点记录为待办事项,感谢指出。 --- ## 5、"缺少与其他 AI 工具的对比" ### 基础定位的区分 Cursor、GitHub Copilot、Claude Code 等属于底层基础。 MiniGame Studio 作为**AI Harness 工程**,是在底层基础之上构建的一层"控制框架"。它不是替代底层,而是通过 Agent 编排、Skill 工作流、Rule 约束、Hook 自动化四套体系,让 AI 能够在游戏研发这个复杂的工程领域里安全、可靠、可审计地完成工作。 ### 从"提示词工程"到"Harness 工程":AI 辅助开发的代际跃迁 要理解为什么需要一套完整的 Harness 框架,需要先看懂 AI 辅助开发范式的演进路径: | 代际 | 范式 | 核心思路 | 典型问题 | |---|---|---|---| | 第一代 | **提示词工程** | 精心设计一段 prompt 让 AI 产出更好结果 | prompt 越长越难维护;一个 prompt 无法覆盖多场景;跨会话一致性为零 | | 第二代 | **上下文工程** | 动态管理 AI 能看到的上下文内容 | 上下文窗口有限,内容多了溢出、少了信息不全;缺乏结构化的行为约束 | | 第三代 | **Harness 工程** | 在通用大模型外层叠加 Agent/Skill/Rule/Hook 控制框架 | —— | MiniGame Studio 正是第三代范式的实践——它不是在写更好的 prompt,而是在构建一套让 prompt 能被系统化管理、Agent 能被编排协作、行为能被实时约束、质量能被自动验证的完整框架。 ### "1 个通用 Agent + 详细 prompt"为什么不够? 有人可能会问:把 27 个 Agent 的知识、71 个 Skill 的流程、17 条 Rule 的约束全部写进一个超长的系统 prompt 里,用一个通用 Agent 来执行,不是更简单吗? 这条路在工程实践中已经被证明行不通: - **上下文窗口的物理限制**:一个大而全的超长 prompt,直接占用了模型宝贵的上下文窗口。当项目代码也进入上下文后,很快就会触发压缩。 - **指令冲突与注意力稀释**:把"Canvas 2D 渲染管线的最佳实践"和"IAA 变现策略"塞进同一个 prompt,模型在生成代码时无法有效区分哪些规则适用于当前场景。结果是:要么关键约束被忽略(注意力被稀释),要么不同场景的规则互相干扰(指令冲突)。 - **OpenAI 的实践教训**:OpenAI 在探索时公开讨论过一个核心问题——当系统提示词、开发者消息和用户消息多层叠加时,模型会出现"指令混淆",低优先级的用户指令可能覆盖高优先级的系统约束。这正是"把所有规则写进一个文件"会面临的困境:没有优先级、没有作用域、没有触发条件,所有规则平铺在一个文本里,模型只能凭"注意力"随机地关注某些规则而忽略另一些。 - **无法实现角色切换**:软件开发的不同阶段需要模型扮演完全不同的角色——创意发散时需要发散性思维,编写 GDD 时需要系统化的严谨性,编写代码时需要精确的技术约束意识,做 code review 时需要批判性思维。一个包含了所有规则的通用 prompt 无法在不同阶段切换思维模式,而 27 个独立 Agent 各自拥有专属的系统提示词和激活条件,按需切换。 这正是 **AI Harness 工程诞生的原因——把"一个超大 prompt"拆解为"一套可编排的控制系统"**:Skill 按阶段懒加载(不影响上下文窗口)、Rule 按文件路径精确触发(不产生指令冲突)、Agent 按角色独立配置(确保角色专注)、Hook 在事件节点自动执行(弥补 prompt 无法覆盖的运行时约束)。 ### 提前设计好 Agent 和 Skill,与让大模型自己开子 Agent 执行有什么区别? 这是一个关键的设计决策。让大模型在运行时根据任务动态创建子 Agent(类似"自我分拆"),与提前设计好完整的 Agent/Skill 体系,两者有本质区别: - **稳定性与可预测性**:动态创建的子 Agent 每次可能不同——同一个任务,今天拆出 3 个子 Agent、明天拆出 5 个,分工方式也不一样。预设计的 Agent 体系保证每次执行同样的任务,走的是同样的角色、同样的 Skill、同样的审查链路——这是工程化的基本要求:可复现。 - **角色知识的深度**:预设计的 `wx-api-specialist` Agent 经过了精心设计,系统提示词中包含了所有 wx API 的能力边界、常见陷阱、兼容性矩阵;而动态生成的"API 检查子 Agent"只有一个简短的任务指令,无法承载同等深度的领域知识。 - **协作协议的有效性**:27 个 Agent 之间的协作协议(垂直委托链路、水平咨询机制、冲突升级规则)是提前设计的,经过了覆盖性验证。动态生成的 Agent 之间没有可靠协作协议,只能依赖大模型"即兴发挥"协调——这在简单任务中可能有效,但在跨越 7 个研发阶段的复杂工程中必然失控。 - **质量护栏的完整性**:Rules 和 Hooks 是 Harness 框架预先配置的,它们知道在哪个 Agent 产出了哪种类型的文件时触发什么验证。动态生成的 Agent 没有与这套护栏系统的绑定关系,写完代码就结束了——验证只能靠人手动触发。 打个比方:预设计的 Agent 体系像是一家有明确岗位编制和 SOP 的公司,每个人知道自己负责什么、上下游是谁、出现问题时怎么升级;而动态创建子 Agent 像是每次接到项目临时招人——短期看灵活,长期看交付质量、协作效率和知识积累都无法保障。 ### 直接使用 AI Coding 工具落地商业化项目的实际困境 用 Cursor 或 Claude Code 直接完整开发一个工程化项目,会遇到各种问题,以下是几个说明: - **上下文窗口断裂**:小游戏从创意到上线跨越几十个会话、数百次上下文压缩。MiniGame Studio 通过 `pre-compact` / `post-compact` Hook 自动 dump 和恢复会话状态,配合 `resume-story` Skill 实现会话连续性。 - **缺乏领域知识约束**:MiniGame Studio 通过 17 条路径绑定 Rule 和 13 个事件驱动 Hook 在代码写入时自动约束。 - **缺乏工程化流程**:MiniGame Studio 的 7 阶段研发管线给出了完整路径,每个阶段有明确的进入条件、产出物、阶段门审查。 - **质量无法体系化保障**:单个 Agent 写出的代码没有第二人审查,设计文档和代码之间没有追溯链,技术债无声堆积。MiniGame Studio 通过 27 个 Agent 的分层审查矩阵(领域 Agent → 主管 Agent → 总监 Agent)、`story-done` 8 阶段审查流程、`tech-debt` 定期扫描来解决。 - **缺乏角色化分工**:一个人 + 一个通用 Agent 的组合,所有决策都压在一个人身上——从游戏设计到架构选型到性能优化到平台合规。MiniGame Studio 的 27 个角色化 Agent(creative-director、technical-director、game-designer、wx-api-specialist、performance-analyst 等)各自在专业领域提供结构化建议。 ### 27 个 Agent 相比 1 个通用 Agent 的优势 这不是简单的"数量堆砌"。27 个 Agent 按三层级架构组织。比如: - **领域专精**:`wx-canvas-programmer` 的上下文里满载 Canvas 2D 渲染最佳实践和脏矩形优化策略,`economy-designer` 的上下文聚焦 IAA/IAP 变现模型——这些专精知识不可能塞进一个通用 prompt 里而不超过上下文窗口 - **并行协作**:多个 Agent 可以并行推进各自的代码模块,通过协作协议进行垂直委托和水平咨询 - **制衡机制**:编码 Agent 产出的代码要经过审查 Agent 的校验,设计 Agent 的 GDD 要经过 cross-review ——这是工程组织的基本原理:同一个 Agent 不能既当运动员又当裁判 MiniGame Studio 是在构建一个专业领域细分领域的 AI Harness 工程:**如何让 AI 在一个有严格平台约束、性能预算、商业要求的垂直领域里,完成从创意到交付的全流程工程任务**。 --- 再次感谢这些反馈。每一个问题的审视都在帮助 MiniGame Studio 变得更完整、更扎实。
Sign in to join this conversation.
No labels
No milestone
No project
No assignees
2 participants
Notifications
Due date
The due date is invalid or out of range. Please use the format "yyyy-mm-dd".

No due date set.

Dependencies

No dependencies set.

Reference
yishan/MiniGame-Studios-S1W3#3
No description provided.