【S1W3 交叉评测】拾城 CityPick — 项目评测意见与评分 #1
Loading…
Add table
Add a link
Reference in a new issue
No description provided.
Delete branch "%!s()"
Deleting a branch is permanent. Although the deleted branch may continue to exist for a short time before it actually gets removed, it CANNOT be undone in most cases. Continue?
交叉评测意见
1. 项目理解
我理解该项目为 "拾城 CityPick",是一个基于多 Agent 协同架构的城市文旅信息智能体平台。项目以临港新片区为首发验证场景,用户通过自然语言提问(如"这周末临港有什么活动?""帮我规划一天行程"),系统自动调度 7 个 AI Agent(搜索 → 提取 → 融合 → 推荐 → 行程 → 呈现 → 监控)完成从信息检索到行程规划的完整链路,一站式解决"去哪玩"的问题。
技术栈为 Python,前端提供 Gradio UI 和纯 HTML/JS 两种形态,后端核心逻辑加密存储在 backend_engine.dat(XOR+zlib),通过 backend_loader.py 解密加载。接入智谱 GLM-4 API 作为 LLM 引擎。
2. 项目优点
2.1 多 Agent 协同架构设计成熟
7 个 Agent 形成完整的流水线(Search→Extract→Fuse→Recommend→Itinerary→Present→Monitor),职责划分清晰,每个 Agent 有独立的 BaseAgent 基类和 think() 接口,耦合度低、可扩展性强。这在 S1W3 的所有项目中属于架构设计最完整的之一。
2.2 文档体系极为完善
项目附带了极其详尽的文档:SPECS.md(44KB)、SKILLS.md(27KB)、workflow_specs.yaml、evaluation_standards.yaml、application_scenarios.yaml。不仅说明了项目是什么,还完整定义了评估标准、应用场景、工作流规范。这种"交付即文档"的做法在比赛中非常少见且值得肯定。
2.3 自动化测试覆盖完整
8 项自动化测试涵盖数据完整性、Agent 流水线、Skills 完整性、后端引擎加载等核心链路,全部通过。这是目前评测过的项目中唯一一个自带完整测试套件的,体现了良好的工程素养。
2.4 双前端形态(Gradio + Web)
同时提供了 Gradio 应用和纯 HTML/JS HTTP 服务两种前端形态,分别面向快速体验和集成部署两种场景,设计考虑周全。
2.5 后端引擎加密保护
使用 XOR + zlib 对核心引擎进行加密,设置了有效期(2026-06-22)和运行期校验,体现了商业级交付的工程思维。
2.6 数据模型设计规范
18 条临港景点/活动数据采用统一字段模型(name/category/time/location/price/tags/description/source/keywords),字段完整,来源标注清晰,可与真实 API 平滑切换。
3. 当前不足
3.1 核心引擎闭源,可审查性受限
后端核心逻辑(28 个 Python 模块)被加密打包在 backend_engine.dat 中,评测人员无法审查代码质量和实现细节。这虽然是一种保护策略,但在比赛评测场景下,评审无法确认核心引擎的实现质量,可能影响评分可信度。
3.2 LLM 依赖外部 API,无有效 Key 时功能受限
接入智谱 GLM-4 API,但 .env.example 中仅提供占位符。若无有效 API Key,Agent 的 LLM 能力无法实际验证(虽然测试用例中使用 mock 数据可以绕过,但实际演示效果会打折扣)。
3.3 缺少线上 Demo 地址
项目未提供已部署的线上预览链接。评测人员需要本地搭建 Python 环境并安装依赖才能体验,增加了评测门槛。README 中也缺少项目截图或演示视频。
3.4 搜索层当前使用 Mock 数据
当前搜索层配置为 "provider: mock",所有数据来源于硬编码的 18 条临港数据。虽然设计中预留了切换真实 API 的能力,但当前阶段无法验证其在实际互联网搜索场景下的表现。
3.5 Agent 间通信机制偏简单
Agent 间的数据传递通过共享 context 字典实现,基于约定的 key 名称耦合(如 search_results/extracted/fused 等),缺少类型安全和接口契约校验,长流水线场景下容易因字段命名不一致导致断裂。
4. 建议
4.1 提供线上 Demo 地址
建议将项目部署到可公开访问的服务器并提供链接,配合 2-3 张核心页面截图(查询结果页、行程规划页、Agent 工作流可视化),大幅降低评测门槛。
4.2 考虑部分开源核心引擎或提供伪代码说明
不一定要完全公开后端代码,但建议在 README 或文档中提供核心匹配/推荐算法的伪代码或流程图,帮助评审理解引擎的工作原理,增强可审查性。
4.3 补充自然语言查询的边界用例演示
在 Demo-Guide 或 README 中补充几种典型查询示例和预期输出(如模糊查询、多条件组合查询、负面查询"不要门票的"等),展示 Agent 流水线在复杂场景下的处理能力。
4.4 增强搜索层的可验证性
即使当前使用 Mock 数据,建议在文档中说明 mock 数据覆盖了哪些类型的查询场景,以及切换到真实 API(如高德/百度地图)时的适配方案。
4.5 Agent 通信增加校验层
建议在每个 Agent 的 think() 方法入口增加输入参数的校验和类型检查,或在 Agent 之间引入轻量的消息契约(如 dataclass 定义传递对象),避免因 context key 拼写错误导致的流水线断裂。
5. 评分(基于 S1W3 官方评审标准)
维度 1:创新性与技术含量(权重 30%)
维度 2:AI+OPC 模式可行性(权重 30%)
维度 3:市场潜力与社会价值(权重 30%)
维度 4:落地临港可行性(权重 10%)
综合得分
最终评分:7.7 / 10 分
S1W3 阶段特别评估
6. 综合评价
从当前材料来看,该项目:方向清晰、架构设计成熟、工程化程度高,是本次评测中在架构设计和文档完整性方面最突出的项目之一。7 Agent 流水线、完善的测试体系、丰富的文档交付都体现了较高的工程素养。核心不足在于后端引擎闭源(影响审查可信度)和缺少线上 Demo,建议在后续迭代中考虑部分开源引擎逻辑,并补充线上部署地址。
感谢详细评测!根据两篇评测的反馈意见,v1.1 已完成以下 10 项改进:
v1.1 总分 88 分。再次感谢!