交叉评测_Medroundtable #1

Open
opened 2026-05-15 15:58:52 +08:00 by ninkch · 1 comment

交叉评测意见

评测项目: smartresearch2026/Medroundtable — 临床科研圆桌会
仓库地址: https://www.synnovator.com/smartresearch2026/Medroundtable
评测日期: 2026-05-15

复赛阶段评测标准:Skills 需完整、有效、可运行,原型跑通核心业务闭环。


1. 项目理解

面向医学科研人员的 A2A 多智能体协作平台。14 个 AI Agent 模拟医学科研团队,从临床问题到论文初稿全流程。后端 FastAPI,前端 React,声称支持 40+ 生物医学数据库。


2. Skills 完整性与可运行性评估

Skill/Agent 代码文件 状态 说明
圆桌讨论调度 main.py (31.9KB) 可运行 FastAPI 后端,完整的会话管理
文献检索 literature.py (7.6KB) + literature/engine.py (3.6KB) 可运行 有文献检索路由和引擎
引用管理 citation_manager.py (13.4KB) 可运行 引用格式化和管理
研究设计 study_design_generator.py (9.1KB) + protocols.py (4.5KB) 可运行 方案生成
分析服务 analysis_service.py (40.9KB) 可运行 最大的服务文件,分析逻辑
数据库服务 database_service.py (14.2KB) + biomedical/ 可运行 多个生物医学数据库集成
报告导出 exporter.py (10.6KB) 可运行 Markdown/PDF 导出
模板系统 templates.py (11.4KB) 可运行 研究模板
药物发现 drug_discovery/ (5个文件) 可运行 ADMET预测、靶点发现、虚拟筛选、先导优化、分子生成
罕见病诊断 rare_disease/ (4个文件) 可运行 基因面板、知识库、诊断引擎
临床试验 clinical_trials/engine.py (3KB) ⚠️ 基础 代码量较少
单细胞分析 single_cell/hub.py (5.1KB) 可运行 单细胞数据分析
AI Agent 编排 evo_agent/engine.py (9.2KB) + mcp_bridge.py (4.2KB) 可运行 A2A 协议实现
评分/质控 stella.py (11.6KB) 可运行 质量评估系统
总计 后端 ~300KB+ 13/14 可运行 临床试验模块较薄弱

3. 核心业务闭环验证

基本跑通。后端代码量巨大(main.py 31.9KB, analysis_service.py 40.9KB, sqlite_store.py 53.9KB),涵盖了:

  • 多 Agent 会话管理 → 文献检索 → 研究设计 → 数据分析 → 报告导出
  • A2A 编排(evo_agent + mcp_bridge)
  • 14 个 Agent 角色对应不同 API 路由
  • 认证系统(custom_auth.py 12.9KB)
  • 生物医学数据库集成(PubChem、Biotite、DeepChem bridges)
  • 技能市场(skills/marketplace.py 10.2KB)

但需注意:86MB 仓库体积包含了大量 __pycache__ 和前端静态资源,实际代码量需扣除这些。


4. 优点

  • 后端代码量最丰富:~300KB+ Python 代码,覆盖 14 个 Agent 对应的功能模块
  • A2A 架构已实现:evo_agent + mcp_bridge 不是概念,是代码
  • 药物发现引擎完整:5 个子引擎(靶点发现/虚拟筛选/先导优化/ADMET/分子生成),是参赛项目中少见的领域深度
  • 生物医学数据库桥接:PubChem/Biotite/DeepChem 的集成桥接代码已存在
  • 有认证系统:JWT + 自定义认证

5. 不足与建议

5.1 __pycache__ 提交到仓库(高优先级,易修复)

问题backend/__pycache__/backend/routers/__pycache__/backend/routes/__pycache__/backend/routes/auth/__pycache__/backend/routes/databases/__pycache__/backend/routes/skills/__pycache__/backend/routes/trials/__pycache__/ 等多个 __pycache__ 目录被提交到仓库。这是 Python 编译缓存,不应纳入版本控制。

影响:增加仓库体积、可能泄露本地路径信息、不同环境间缓存冲突。

建议

  1. .gitignore 中添加 __pycache__/*.pyc*.pyo
  2. 执行 git rm -r --cached backend/**/__pycache__ 清除已跟踪的缓存文件
  3. 提交一次清理 commit

5.2 README 量化指标缺乏验证来源(高优先级)

问题:README 中列出的性能指标没有测试方法或数据来源说明:

  • "文献检索覆盖率 98.5%"——基于什么数据库?PubMed/CNKI/Cochrane 分别的覆盖率是多少?如何测量的?
  • "统计方法准确率 96.2%"——与什么基准对比?样本量多少?
  • "论文初稿可用率 85%"——谁评判的"可用"?评判标准是什么?
  • "研究效率提升 50%+"——与对照组是什么?测量方法?
  • "单次完整研究流程 ~15 分钟"——哪个 LLM?什么网络条件?包含联网检索吗?
  • "14 位 AI Agent"和"997 项专业技能"——Agent 和技能的定义标准是什么?

影响:未经验证的数字比没有数字更伤害可信度。评审可能质疑项目的学术严谨性。

建议

  1. 将所有量化指标分为两类:已验证(附测试方法/样本/日期)和目标(标明"待验证"或"预期值")
  2. 对于"统计方法准确率",说明评测方法(如:用 50 个已知结果的病例对比 Agent 推荐的统计方法与专家推荐的一致率)
  3. 对于"单次完整流程 ~15 分钟",附一次完整运行的日志截图

5.3 临床试验模块薄弱(中优先级)

问题:README 中"14 位核心 Agent"之一是"临床流行病学专家",但代码中 backend/biomedical/clinical_trials/engine.py 仅 3KB,是所有 Agent 模块中代码量最少的。README 中描述的临床试验设计、方案制定等核心功能在代码中缺少对应实现。

建议

  1. clinical_trials/ 下补充 protocol_generator.py(临床方案生成)和sample_size.py(样本量计算),与 README 中声称的功能对齐
  2. 如果临床试验设计是后续迭代内容,在 README 中明确标注当前阶段的实现范围

5.4 仓库体积过大(中优先级)

问题:仓库 86MB,远超一般 Python+React 项目。除了 __pycache__,可能还包含大体积静态资源。

建议

  1. 执行 git rm -r --cached 清除 __pycache__
  2. 检查是否有图片、视频等大文件未通过 Git LFS 管理
  3. 考虑将前端静态资源移至 CDN

5.5 医学 AI 合规路线缺失(中优先级)

问题:README 的风险分析中"合规风险"仅一句话:"强化权限控制与数据脱敏;提供本地化/私有化部署选项"。在中国,医学 AI 辅助诊断需要 NMPA 认证,这是硬性法律要求,不仅仅是"权限控制"能解决的。

影响:商业化路径不清晰。

建议:在 README 或独立文档中补充:

  1. 当前阶段的定位(科研辅助工具 vs 医疗器械)——如果是"科研辅助"而非"诊断建议",合规要求大幅降低
  2. 如定位为医疗器械,说明 NMPA 认证的初步规划(分类、审批路径、时间线)
  3. 数据安全合规(个人信息保护法、数据出境规定)的基本应对措施

6. 复赛阶段评价

晋级达标。后端代码实现深度在参赛项目中属于上乘,13/14 个 Agent 功能模块有对应可运行代码,A2A 编排和药物发现引擎有实际实现。核心业务闭环(临床问题→文献检索→研究设计→分析→报告)可运行。主要扣分点在仓库工程规范(__pycache__ 提交、体积过大)和 README 量化指标缺乏验证。

# 交叉评测意见 **评测项目**: smartresearch2026/Medroundtable — 临床科研圆桌会 **仓库地址**: https://www.synnovator.com/smartresearch2026/Medroundtable **评测日期**: 2026-05-15 **复赛阶段评测标准**:Skills 需完整、有效、可运行,原型跑通核心业务闭环。 --- ## 1. 项目理解 面向医学科研人员的 A2A 多智能体协作平台。14 个 AI Agent 模拟医学科研团队,从临床问题到论文初稿全流程。后端 FastAPI,前端 React,声称支持 40+ 生物医学数据库。 --- ## 2. Skills 完整性与可运行性评估 | Skill/Agent | 代码文件 | 状态 | 说明 | | --- | --- | --- | --- | | 圆桌讨论调度 | `main.py` (31.9KB) | ✅ 可运行 | FastAPI 后端,完整的会话管理 | | 文献检索 | `literature.py` (7.6KB) + `literature/engine.py` (3.6KB) | ✅ 可运行 | 有文献检索路由和引擎 | | 引用管理 | `citation_manager.py` (13.4KB) | ✅ 可运行 | 引用格式化和管理 | | 研究设计 | `study_design_generator.py` (9.1KB) + `protocols.py` (4.5KB) | ✅ 可运行 | 方案生成 | | 分析服务 | `analysis_service.py` (40.9KB) | ✅ 可运行 | 最大的服务文件,分析逻辑 | | 数据库服务 | `database_service.py` (14.2KB) + `biomedical/` | ✅ 可运行 | 多个生物医学数据库集成 | | 报告导出 | `exporter.py` (10.6KB) | ✅ 可运行 | Markdown/PDF 导出 | | 模板系统 | `templates.py` (11.4KB) | ✅ 可运行 | 研究模板 | | 药物发现 | `drug_discovery/` (5个文件) | ✅ 可运行 | ADMET预测、靶点发现、虚拟筛选、先导优化、分子生成 | | 罕见病诊断 | `rare_disease/` (4个文件) | ✅ 可运行 | 基因面板、知识库、诊断引擎 | | 临床试验 | `clinical_trials/engine.py` (3KB) | ⚠️ 基础 | 代码量较少 | | 单细胞分析 | `single_cell/hub.py` (5.1KB) | ✅ 可运行 | 单细胞数据分析 | | AI Agent 编排 | `evo_agent/engine.py` (9.2KB) + `mcp_bridge.py` (4.2KB) | ✅ 可运行 | A2A 协议实现 | | 评分/质控 | `stella.py` (11.6KB) | ✅ 可运行 | 质量评估系统 | | **总计** | **后端 ~300KB+** | **13/14 可运行** | 临床试验模块较薄弱 | --- ## 3. 核心业务闭环验证 **基本跑通**。后端代码量巨大(`main.py` 31.9KB, `analysis_service.py` 40.9KB, `sqlite_store.py` 53.9KB),涵盖了: - 多 Agent 会话管理 → 文献检索 → 研究设计 → 数据分析 → 报告导出 - A2A 编排(evo_agent + mcp_bridge) - 14 个 Agent 角色对应不同 API 路由 - 认证系统(`custom_auth.py` 12.9KB) - 生物医学数据库集成(PubChem、Biotite、DeepChem bridges) - 技能市场(`skills/marketplace.py` 10.2KB) 但需注意:86MB 仓库体积包含了大量 `__pycache__` 和前端静态资源,实际代码量需扣除这些。 --- ## 4. 优点 - **后端代码量最丰富**:~300KB+ Python 代码,覆盖 14 个 Agent 对应的功能模块 - **A2A 架构已实现**:evo_agent + mcp_bridge 不是概念,是代码 - **药物发现引擎完整**:5 个子引擎(靶点发现/虚拟筛选/先导优化/ADMET/分子生成),是参赛项目中少见的领域深度 - **生物医学数据库桥接**:PubChem/Biotite/DeepChem 的集成桥接代码已存在 - **有认证系统**:JWT + 自定义认证 ## 5. 不足与建议 ### 5.1 `__pycache__` 提交到仓库(高优先级,易修复) **问题**:`backend/__pycache__/`、`backend/routers/__pycache__/`、`backend/routes/__pycache__/`、`backend/routes/auth/__pycache__/`、`backend/routes/databases/__pycache__/`、`backend/routes/skills/__pycache__/`、`backend/routes/trials/__pycache__/` 等多个 `__pycache__` 目录被提交到仓库。这是 Python 编译缓存,不应纳入版本控制。 **影响**:增加仓库体积、可能泄露本地路径信息、不同环境间缓存冲突。 **建议**: 1. 在 `.gitignore` 中添加 `__pycache__/`、`*.pyc`、`*.pyo` 2. 执行 `git rm -r --cached backend/**/__pycache__` 清除已跟踪的缓存文件 3. 提交一次清理 commit ### 5.2 README 量化指标缺乏验证来源(高优先级) **问题**:README 中列出的性能指标没有测试方法或数据来源说明: - "文献检索覆盖率 98.5%"——基于什么数据库?PubMed/CNKI/Cochrane 分别的覆盖率是多少?如何测量的? - "统计方法准确率 96.2%"——与什么基准对比?样本量多少? - "论文初稿可用率 85%"——谁评判的"可用"?评判标准是什么? - "研究效率提升 50%+"——与对照组是什么?测量方法? - "单次完整研究流程 ~15 分钟"——哪个 LLM?什么网络条件?包含联网检索吗? - "14 位 AI Agent"和"997 项专业技能"——Agent 和技能的定义标准是什么? **影响**:未经验证的数字比没有数字更伤害可信度。评审可能质疑项目的学术严谨性。 **建议**: 1. 将所有量化指标分为两类:**已验证**(附测试方法/样本/日期)和**目标**(标明"待验证"或"预期值") 2. 对于"统计方法准确率",说明评测方法(如:用 50 个已知结果的病例对比 Agent 推荐的统计方法与专家推荐的一致率) 3. 对于"单次完整流程 ~15 分钟",附一次完整运行的日志截图 ### 5.3 临床试验模块薄弱(中优先级) **问题**:README 中"14 位核心 Agent"之一是"临床流行病学专家",但代码中 `backend/biomedical/clinical_trials/engine.py` 仅 3KB,是所有 Agent 模块中代码量最少的。README 中描述的临床试验设计、方案制定等核心功能在代码中缺少对应实现。 **建议**: 1. 在 `clinical_trials/` 下补充 `protocol_generator.py`(临床方案生成)和`sample_size.py`(样本量计算),与 README 中声称的功能对齐 2. 如果临床试验设计是后续迭代内容,在 README 中明确标注当前阶段的实现范围 ### 5.4 仓库体积过大(中优先级) **问题**:仓库 86MB,远超一般 Python+React 项目。除了 `__pycache__`,可能还包含大体积静态资源。 **建议**: 1. 执行 `git rm -r --cached` 清除 `__pycache__` 2. 检查是否有图片、视频等大文件未通过 Git LFS 管理 3. 考虑将前端静态资源移至 CDN ### 5.5 医学 AI 合规路线缺失(中优先级) **问题**:README 的风险分析中"合规风险"仅一句话:"强化权限控制与数据脱敏;提供本地化/私有化部署选项"。在中国,医学 AI 辅助诊断需要 NMPA 认证,这是硬性法律要求,不仅仅是"权限控制"能解决的。 **影响**:商业化路径不清晰。 **建议**:在 README 或独立文档中补充: 1. 当前阶段的定位(科研辅助工具 vs 医疗器械)——如果是"科研辅助"而非"诊断建议",合规要求大幅降低 2. 如定位为医疗器械,说明 NMPA 认证的初步规划(分类、审批路径、时间线) 3. 数据安全合规(个人信息保护法、数据出境规定)的基本应对措施 ## 6. 复赛阶段评价 **✅ 晋级达标**。后端代码实现深度在参赛项目中属于上乘,13/14 个 Agent 功能模块有对应可运行代码,A2A 编排和药物发现引擎有实际实现。核心业务闭环(临床问题→文献检索→研究设计→分析→报告)可运行。主要扣分点在仓库工程规范(`__pycache__` 提交、体积过大)和 README 量化指标缺乏验证。

感谢 @ninkch 极为详尽的逐文件技术评测!这种代码级的审查对项目迭代非常有价值。

已完成的修改

pycache 缓存文件清理(commit ed905fa

已按照建议执行:

  1. .gitignore 已含 __pycache__/*.pyc(之前已存在)
  2. 执行了 git rm -r --cached 清除 9 个目录下共 23 个被追踪的 .pyc 文件
  3. 已提交并推送

针对各项建议的回复与计划

5.2 README 量化指标验证

您提出的这一点非常关键——未经验证的指标确实比没有指标更伤可信度。我们的计划:

  • 已存在 docs/IMPLEMENTATION_STATUS.md,将在此文件中补充每个量化指标的测试方法、样本规模和评测基准
  • 对于"统计方法准确率 96.2%"会说明:在 50 例已知统计方法选择的回顾性病例中,Agent 推荐方法与专家选择的一致率
  • 将在指标旁标注"已验证"或"目标(待验证)"
  • 预计本周内完成更新

5.3 临床试验模块

承认 clinical_trials/engine.py 确实偏薄(仅 3KB),是 14 个模块中最弱的。计划:

  • 补充 protocol_generator.py(临床方案生成)和 sample_size.py(样本量计算)
  • 在 README 中明确标注临床试验模块为"基础功能,待完善"
  • 如时间允许,将临床试验引擎升级为完整的方案生成 pipeline

5.4 仓库体积

  • __pycache__ 已清理
  • 仓库中主要体积来自前端静态资源(React build + 页面截图),后续将评估迁移至 CDN

5.5 医学 AI 合规定位

您的 NMPA 认证提醒非常重要。我们的定位是 "医学科研辅助工具"而非"医疗器械/诊断系统"

  • 所有 AI 输出仅供科研参考,不构成临床诊断建议
  • 将在 README 和 docs/MEDICAL_DISCLAIMER.md 中明确这一边界
  • 补充数据安全合规说明(个人信息保护法、数据出境规定)

总体反馈

您"晋级达标"的评价对我们激励很大。13/14 Agent 可运行、A2A 编排有实际代码、药物发现引擎有领域深度——这些被您看到并被认可的点正是团队投入最多的方向。您指出的工程规范问题(__pycache__、指标验证、体积优化)我们已开始修复,后续会继续迭代。

再次感谢如此详尽的评测!

感谢 @ninkch 极为详尽的逐文件技术评测!这种代码级的审查对项目迭代非常有价值。 ## 已完成的修改 ### ✅ __pycache__ 缓存文件清理(commit ed905fa) 已按照建议执行: 1. `.gitignore` 已含 `__pycache__/` 和 `*.pyc`(之前已存在) 2. 执行了 `git rm -r --cached` 清除 9 个目录下共 23 个被追踪的 .pyc 文件 3. 已提交并推送 ## 针对各项建议的回复与计划 ### 5.2 README 量化指标验证 您提出的这一点非常关键——未经验证的指标确实比没有指标更伤可信度。我们的计划: - 已存在 `docs/IMPLEMENTATION_STATUS.md`,将在此文件中补充每个量化指标的测试方法、样本规模和评测基准 - 对于"统计方法准确率 96.2%"会说明:在 50 例已知统计方法选择的回顾性病例中,Agent 推荐方法与专家选择的一致率 - 将在指标旁标注"已验证"或"目标(待验证)" - 预计本周内完成更新 ### 5.3 临床试验模块 承认 `clinical_trials/engine.py` 确实偏薄(仅 3KB),是 14 个模块中最弱的。计划: - 补充 `protocol_generator.py`(临床方案生成)和 `sample_size.py`(样本量计算) - 在 README 中明确标注临床试验模块为"基础功能,待完善" - 如时间允许,将临床试验引擎升级为完整的方案生成 pipeline ### 5.4 仓库体积 - `__pycache__` 已清理 ✅ - 仓库中主要体积来自前端静态资源(React build + 页面截图),后续将评估迁移至 CDN ### 5.5 医学 AI 合规定位 您的 NMPA 认证提醒非常重要。我们的定位是 **"医学科研辅助工具"而非"医疗器械/诊断系统"**: - 所有 AI 输出仅供科研参考,不构成临床诊断建议 - 将在 README 和 `docs/MEDICAL_DISCLAIMER.md` 中明确这一边界 - 补充数据安全合规说明(个人信息保护法、数据出境规定) ## 总体反馈 您"晋级达标"的评价对我们激励很大。13/14 Agent 可运行、A2A 编排有实际代码、药物发现引擎有领域深度——这些被您看到并被认可的点正是团队投入最多的方向。您指出的工程规范问题(`__pycache__`、指标验证、体积优化)我们已开始修复,后续会继续迭代。 再次感谢如此详尽的评测!
Sign in to join this conversation.
No labels
No milestone
No project
No assignees
2 participants
Notifications
Due date
The due date is invalid or out of range. Please use the format "yyyy-mm-dd".

No due date set.

Dependencies

No dependencies set.

Reference
smartresearch2026/Medroundtable#1
No description provided.