W3评测:MedRoundTable-W3 — A2A多Agent医疗研究协作平台 #6

Open
opened 2026-05-24 19:23:44 +08:00 by ninkch · 0 comments

项目仓库: https://www.synnovator.com/smartresearch2026/Medroundtable-W3
技术栈: Python + FastAPI + AgentScope + DeepSeek V4 Pro / Moonshot Kimi
评测基准: 半决赛 Wave 3 Demo — Agents完整/有效/可运行,Skills整合,Demo具备交互能力
评测日期: 2026-05-24


一、项目理解

MedRoundTable是A2A(Agent-to-Agent)多Agent医疗研究协作平台。用户输入临床/研究问题,14个AI专科Agent在9-10个阶段进行结构化圆桌讨论,产出带质量评估的可执行报告。

讨论阶段:问题界定文献综述研究设计生物信息学方案统计方案交叉反驳CRF设计执行计划质量审查共识

核心价值:不是单个LLM回答问题,而是多Agent模拟真实的科研团队讨论,通过交叉反驳和质量门控确保产出质量。


二、Agent 落地性

14个Agent全部完整定义、可运行验证充分。

Agent矩阵

类别 Agent 数量
核心临床 临床主任、博士生、流行病学家、统计师、研究护士 5
生物信息学 药物基因组学专家、GWAS专家、单细胞分析师、Galaxy Bridge 4
研究支持 UX研究员、数据工程师、趋势研究员、实验追踪、QA专家 5

完整性证据

  • agents/prompts.py:14个Agent均有完整profile(名称、头像、角色、专长列表、性格、详细system_prompt,每个200+词)
  • backend/models.py:14个角色定义在AgentRole枚举中
  • agents/orchestrator.py_init_agents()遍历AGENT_PROFILES实例化全部14个Agent;所有角色均有fallback响应
  • agents/llm_client.py:真实LLM API集成(DeepSeek V4 Pro / Moonshot Kimi),OpenAI兼容客户端,含全面的Mock降级(角色特定、问题相关的Mock响应,约5000行Mock逻辑)
  • agents/quality_assessor.py:5维质量评分(参与度/多样性/证据/可执行性/讨论深度)

Agent可运行性:系统在有无LLM API Key两种情况下均可运行——有Key时调用真实LLM,无Key时Mock降级仍保持角色差异化。


三、Skill 落地性

4个Skill全部集成,通过统一入口路由。

Skill 文件 场景标识
临床试验设计 skills_wave2/skill_clinical_trial_design.py trial
药物重定位 skills_wave2/skill_drug_repurposing.py drug
罕见病诊断 skills_wave2/skill_rare_disease_diagnosis.py rare
论文合著 skills_wave2/skill_paper_coauthoring.py paper

集成机制

  • medroundtable_agent.py:统一入口,SKILL_MAP路由4个Skill
  • auto_detect_skill():自动根据用户问题检测应使用哪个Skill
  • 每个Skill导入并使用A2AOrchestratorQualityAssessor和14个Agent系统
  • demo.sh:一键脚本运行全部4个Skill
  • 每个Skill产出JSON + Markdown + 质量报告

四、Demo 交互能力

多模态交互入口,用户可干预Agent讨论。

CLI交互

  • medroundtable_agent.py:交互模式菜单选择(trial/drug/rare/paper/a/q
  • 自定义问题输入(--question
  • 自动路由(auto_detect_skill()

一键Demo

  • demo.sh:检查环境→安装依赖→运行全部4个场景
  • 无需配置即可体验Mock模式

Web前端

  • 29+个HTML页面(index、experts、skills-market、roundtables、immersive-roundtable、trial-designer等)
  • FastAPI后端 + Swagger文档(/docs
  • docker-compose.yml + start.sh 确认部署

用户干预机制

  • human_can_interrupt=True:圆桌讨论中用户可随时中断
  • _has_recent_user_message():每2秒检查用户输入
  • 用户可在自动讨论流中插入自己的观点或问题

证据溯源

  • citation_manager.py:PMID/DOI引用系统 + 证据等级(I-IV)
  • Demo输出自动包含"参考文献溯源"章节

五、不足与建议

1. Web前端深度不足

问题:29个HTML页面看似丰富,但前端是传统HTML/JS(非React/Vue等现代框架),交互能力有限。圆桌讨论的实时可视化不够直观——Agent发言以文本列表呈现,缺乏实时流式展示和角色差异化视觉效果。

影响:Demo演示的视觉冲击力不如后端Agent架构的实际能力。评委可能因前端体验平淡而低估Agent系统的讨论深度。

建议:增加实时讨论流式展示——类似ChatGPT的多轮对话可视化,Agent发言时高亮当前Agent头像和角色名称,不同Agent使用不同颜色标识。"交叉反驳"阶段特别需要视觉强化(如对抗式布局,左侧正方右侧反方)。可考虑使用WebSocket实现前端实时推送Agent讨论进度。

2. Mock模式下Agent行为同质化

问题llm_client.py的Mock降级逻辑虽然按角色区分响应,但14个Agent在Mock模式下的回答模式趋同——都是"我认为应该..."的模板变体,缺乏角色差异化的专业视角和语气。

影响:评委无API Key时体验到的"多Agent讨论"可能看起来像单人换皮——统计师和流行病学家说的差不多,研究护士和临床主任也差不多。

建议:为Mock模式增加更鲜明的角色差异化:

  • 统计师:用数字说话("根据我的计算,样本量需要xxx,置信区间xxx")
  • 流行病学家:用队列研究视角("建议采用回顾性队列设计,对照组选择应考虑xxx混杂因素")
  • 研究护士:关注实操可行性("从护理角度,这个方案在临床执行时有xxx困难")
  • 药物基因组学专家:用基因变异视角("CYP2D6慢代谢型患者需要调整剂量")

3. 缺少跨Skill知识迁移

问题:4个Skill通过SKILL_MAP路由,但Skill之间不共享上下文。用户在"药物重定位"Skill中产生的洞察(如某药物的靶点信息)无法自动迁移到"论文合著"Skill。

影响:跨Skill的工作流断裂。真实科研场景中,药物重定位的结果常是论文合著的起点,但用户需要手动复制/粘贴信息。

建议:增加Skill间上下文传递机制。例如:--scene drug --follow paper表示先完成药物重定位分析,再将结果作为素材传入论文合著。或在统一入口中增加"项目"概念,一个项目下的所有Skill共享上下文。

4. 前后端部署未完全集成

问题demo.sh运行的是CLI模式,Web前端需要单独启动(docker-compose.yml + start.sh)。README中CLI入口和Web入口的指引不够清晰。

影响:评委可能只体验CLI模式,错过Web前端的交互能力。CLI输出虽然内容丰富,但可读性和体验感不如Web前端。

建议:提供一键启动脚本(同时启动后端+前端),并在README中明确Web演示入口URL。或在demo.sh中增加--web选项自动启动Web服务。

5. 输出格式可操作性不足

问题:Skill输出包含JSON + Markdown + Quality Report,但格式偏向"研究报告"而非"可执行计划"。例如,临床试验设计Skill输出的CRF字段列表是文本描述,不是可导入到REDCap或其他CRF系统的结构化数据。

影响:用户拿到报告后仍需大量人工操作才能落地执行。

建议:增加可操作的输出格式——如CRF字段导出为CSV/Excel(可导入REDCap),统计方案导出为R/Python分析脚本模板,执行计划导出为甘特图或项目管理工具格式。


六、综合评价

MedRoundTable是8个评测项目中唯一在Agent+Skill+Demo三个维度全部达标的项目

14个Agent全部完整定义——从agents/prompts.py的profile到orchestrator的实例化到llm_client的真实LLM+Mock降级,Agent可运行验证充分。4个Skill全部集成——统一入口路由+自动检测+共享Orchestrator和QualityAssessor。Demo多模态交互——CLI交互+一键demo.sh+29页Web前端+用户中断机制。质量门控闭环——QualityAssessor 5维评分+阈值触发补充讨论。文献溯源系统增加医疗领域可信度。

主要短板在前端展示层(传统HTML/JS交互深度不足、Mock模式角色差异化不够、跨Skill上下文不共享)和输出可操作性(报告格式偏向研究而非执行),这些不影响Agent+Skill+闭环的核心标准达标,但限制了Demo的演示效果和用户的实际落地体验。

**项目仓库**: https://www.synnovator.com/smartresearch2026/Medroundtable-W3 **技术栈**: Python + FastAPI + AgentScope + DeepSeek V4 Pro / Moonshot Kimi **评测基准**: 半决赛 Wave 3 Demo — Agents完整/有效/可运行,Skills整合,Demo具备交互能力 **评测日期**: 2026-05-24 --- ## 一、项目理解 MedRoundTable是A2A(Agent-to-Agent)多Agent医疗研究协作平台。用户输入临床/研究问题,14个AI专科Agent在9-10个阶段进行结构化圆桌讨论,产出带质量评估的可执行报告。 讨论阶段:**问题界定** → **文献综述** → **研究设计** → **生物信息学方案** → **统计方案** → **交叉反驳** → **CRF设计** → **执行计划** → **质量审查** → **共识** 核心价值:不是单个LLM回答问题,而是多Agent模拟真实的科研团队讨论,通过交叉反驳和质量门控确保产出质量。 --- ## 二、Agent 落地性 **14个Agent全部完整定义、可运行验证充分。** ### Agent矩阵 | 类别 | Agent | 数量 | |------|-------|------| | 核心临床 | 临床主任、博士生、流行病学家、统计师、研究护士 | 5 | | 生物信息学 | 药物基因组学专家、GWAS专家、单细胞分析师、Galaxy Bridge | 4 | | 研究支持 | UX研究员、数据工程师、趋势研究员、实验追踪、QA专家 | 5 | ### 完整性证据 - `agents/prompts.py`:14个Agent均有完整profile(名称、头像、角色、专长列表、性格、详细system_prompt,每个200+词) - `backend/models.py`:14个角色定义在`AgentRole`枚举中 - `agents/orchestrator.py`:`_init_agents()`遍历`AGENT_PROFILES`实例化全部14个Agent;所有角色均有fallback响应 - `agents/llm_client.py`:真实LLM API集成(DeepSeek V4 Pro / Moonshot Kimi),OpenAI兼容客户端,含全面的Mock降级(角色特定、问题相关的Mock响应,约5000行Mock逻辑) - `agents/quality_assessor.py`:5维质量评分(参与度/多样性/证据/可执行性/讨论深度) **Agent可运行性**:系统在有无LLM API Key两种情况下均可运行——有Key时调用真实LLM,无Key时Mock降级仍保持角色差异化。 --- ## 三、Skill 落地性 **4个Skill全部集成,通过统一入口路由。** | Skill | 文件 | 场景标识 | |-------|------|---------| | 临床试验设计 | `skills_wave2/skill_clinical_trial_design.py` | `trial` | | 药物重定位 | `skills_wave2/skill_drug_repurposing.py` | `drug` | | 罕见病诊断 | `skills_wave2/skill_rare_disease_diagnosis.py` | `rare` | | 论文合著 | `skills_wave2/skill_paper_coauthoring.py` | `paper` | **集成机制**: - `medroundtable_agent.py`:统一入口,`SKILL_MAP`路由4个Skill - `auto_detect_skill()`:自动根据用户问题检测应使用哪个Skill - 每个Skill导入并使用`A2AOrchestrator`、`QualityAssessor`和14个Agent系统 - `demo.sh`:一键脚本运行全部4个Skill - 每个Skill产出JSON + Markdown + 质量报告 --- ## 四、Demo 交互能力 **多模态交互入口,用户可干预Agent讨论。** ### CLI交互 - `medroundtable_agent.py`:交互模式菜单选择(`trial/drug/rare/paper/a/q`) - 自定义问题输入(`--question`) - 自动路由(`auto_detect_skill()`) ### 一键Demo - `demo.sh`:检查环境→安装依赖→运行全部4个场景 - 无需配置即可体验Mock模式 ### Web前端 - 29+个HTML页面(index、experts、skills-market、roundtables、immersive-roundtable、trial-designer等) - FastAPI后端 + Swagger文档(`/docs`) - `docker-compose.yml` + `start.sh` 确认部署 ### 用户干预机制 - `human_can_interrupt=True`:圆桌讨论中用户可随时中断 - `_has_recent_user_message()`:每2秒检查用户输入 - 用户可在自动讨论流中插入自己的观点或问题 ### 证据溯源 - `citation_manager.py`:PMID/DOI引用系统 + 证据等级(I-IV) - Demo输出自动包含"参考文献溯源"章节 --- ## 五、不足与建议 ### 1. Web前端深度不足 **问题**:29个HTML页面看似丰富,但前端是传统HTML/JS(非React/Vue等现代框架),交互能力有限。圆桌讨论的实时可视化不够直观——Agent发言以文本列表呈现,缺乏实时流式展示和角色差异化视觉效果。 **影响**:Demo演示的视觉冲击力不如后端Agent架构的实际能力。评委可能因前端体验平淡而低估Agent系统的讨论深度。 **建议**:增加实时讨论流式展示——类似ChatGPT的多轮对话可视化,Agent发言时高亮当前Agent头像和角色名称,不同Agent使用不同颜色标识。"交叉反驳"阶段特别需要视觉强化(如对抗式布局,左侧正方右侧反方)。可考虑使用WebSocket实现前端实时推送Agent讨论进度。 ### 2. Mock模式下Agent行为同质化 **问题**:`llm_client.py`的Mock降级逻辑虽然按角色区分响应,但14个Agent在Mock模式下的回答模式趋同——都是"我认为应该..."的模板变体,缺乏角色差异化的专业视角和语气。 **影响**:评委无API Key时体验到的"多Agent讨论"可能看起来像单人换皮——统计师和流行病学家说的差不多,研究护士和临床主任也差不多。 **建议**:为Mock模式增加更鲜明的角色差异化: - 统计师:用数字说话("根据我的计算,样本量需要xxx,置信区间xxx") - 流行病学家:用队列研究视角("建议采用回顾性队列设计,对照组选择应考虑xxx混杂因素") - 研究护士:关注实操可行性("从护理角度,这个方案在临床执行时有xxx困难") - 药物基因组学专家:用基因变异视角("CYP2D6慢代谢型患者需要调整剂量") ### 3. 缺少跨Skill知识迁移 **问题**:4个Skill通过`SKILL_MAP`路由,但Skill之间不共享上下文。用户在"药物重定位"Skill中产生的洞察(如某药物的靶点信息)无法自动迁移到"论文合著"Skill。 **影响**:跨Skill的工作流断裂。真实科研场景中,药物重定位的结果常是论文合著的起点,但用户需要手动复制/粘贴信息。 **建议**:增加Skill间上下文传递机制。例如:`--scene drug --follow paper`表示先完成药物重定位分析,再将结果作为素材传入论文合著。或在统一入口中增加"项目"概念,一个项目下的所有Skill共享上下文。 ### 4. 前后端部署未完全集成 **问题**:`demo.sh`运行的是CLI模式,Web前端需要单独启动(`docker-compose.yml` + `start.sh`)。README中CLI入口和Web入口的指引不够清晰。 **影响**:评委可能只体验CLI模式,错过Web前端的交互能力。CLI输出虽然内容丰富,但可读性和体验感不如Web前端。 **建议**:提供一键启动脚本(同时启动后端+前端),并在README中明确Web演示入口URL。或在`demo.sh`中增加`--web`选项自动启动Web服务。 ### 5. 输出格式可操作性不足 **问题**:Skill输出包含JSON + Markdown + Quality Report,但格式偏向"研究报告"而非"可执行计划"。例如,临床试验设计Skill输出的CRF字段列表是文本描述,不是可导入到REDCap或其他CRF系统的结构化数据。 **影响**:用户拿到报告后仍需大量人工操作才能落地执行。 **建议**:增加可操作的输出格式——如CRF字段导出为CSV/Excel(可导入REDCap),统计方案导出为R/Python分析脚本模板,执行计划导出为甘特图或项目管理工具格式。 --- ## 六、综合评价 MedRoundTable是8个评测项目中**唯一在Agent+Skill+Demo三个维度全部达标的项目**。 14个Agent全部完整定义——从agents/prompts.py的profile到orchestrator的实例化到llm_client的真实LLM+Mock降级,Agent可运行验证充分。4个Skill全部集成——统一入口路由+自动检测+共享Orchestrator和QualityAssessor。Demo多模态交互——CLI交互+一键demo.sh+29页Web前端+用户中断机制。质量门控闭环——QualityAssessor 5维评分+阈值触发补充讨论。文献溯源系统增加医疗领域可信度。 主要短板在前端展示层(传统HTML/JS交互深度不足、Mock模式角色差异化不够、跨Skill上下文不共享)和输出可操作性(报告格式偏向研究而非执行),这些不影响Agent+Skill+闭环的核心标准达标,但限制了Demo的演示效果和用户的实际落地体验。
Sign in to join this conversation.
No labels
No milestone
No project
No assignees
1 participant
Notifications
Due date
The due date is invalid or out of range. Please use the format "yyyy-mm-dd".

No due date set.

Dependencies

No dependencies set.

Reference
smartresearch2026/Medroundtable-W3#6
No description provided.