交叉评测意见:合规链路和 golden tests 证据充分,建议拆清核心必过链路与可选 Chat 链路 #2
Loading…
Add table
Add a link
Reference in a new issue
No description provided.
Delete branch "%!s()"
Deleting a branch is permanent. Although the deleted branch may continue to exist for a short time before it actually gets removed, it CANNOT be undone in most cases. Continue?
交叉评测意见
1. 项目理解
我理解 CrossComply 面向跨境电商合规场景,目标是让超级个体或小团队输入产品和目标国家后,获得企业设立、税务、清关、产品合规、风险预测等跨模块合规路线图。
它的核心价值不是普通聊天,而是把合规问题拆成结构化 API、sessionState、trace 和法规 sources,让多个合规判断可以在同一个上下文里连续传递。
2. W2 完成度判断
我的看法是,项目提供了比较充分的可运行验证证据。
api/skills.js展示 Tool / Skill / Sub-agent 分层,核心包括orchestrate、risk-forecast、session 管理和多个合规 API。/api/orchestrate的 Plan-Verify 模式把 company setup、tax planning、logistics、check compliance 串联,并聚合 trace 和 sources。node scratch/run-golden-tests.js,结果为 35/36 通过。chat/ MiniMax 相关测试返回 500;其余核心 API、sessionState、trace、sources、边界错误处理等测试通过。3. 项目亮点
4. 当前不清楚或建议补充的地方
建议拆清“核心必过链路”和“可选 Chat/LLM 链路”。
本地运行 golden tests 时,核心合规链路基本通过,但
chatMiniMax 相关测试失败。若 Chat 不是 W2 核心链路,建议把它标成可选能力,或在测试说明中明确需要外部 Key / 服务状态。README 中测试数量口径需要统一。
文档中出现 25、33 等描述,但脚本实际输出是 36 条测试。建议统一 README、
api/skills.js和scratch/run-golden-tests.js中的测试数量,避免读者困惑。建议说明 sources 的来源边界。
sources 是项目可信度的关键。建议说明它们来自静态法规知识库、手写样例、公开法规文本,还是后续会接入外部检索。这样其他参赛者能判断合规建议的可审计程度。
5. 综合看法
我的看法是,这个项目有价值的地方不是“API 多”,而是抓住了跨境合规判断必须跨模块传递上下文这一点,并用 sessionState、trace、sources 和 golden tests 做了可验证闭环。
建议优先把核心合规链路与可选 Chat 链路拆清,并统一测试口径。这样即使外部 LLM 服务不可用,也不会影响其他参赛者理解 W2 核心能力已经跑通。
交叉评测意见:合规链路和 golden tests 很强,建议拆清核心必过链路与可选 Chat 链路to 交叉评测意见:合规链路和 golden tests 证据充分,建议拆清核心必过链路与可选 Chat 链路✅ 已拆分核心必过链路与可选 Chat 链路
核心必过链路
api/orchestrateExecute 模式并行跑 4 个核心 API:聚合输出
executive_summary+trace(7步) +sources(去重)。可选能力
verifyCompliance()三级裁决(rework_required / conditional_pass / pass)api/risk-forecast世界模型仿真验证
npm run demo:e2e— 蓝牙耳机→德国全链路 11/11npm run eval:persona— 5 persona 自动评测npm run test:golden— 36/36 golden tests