smartresearch2026/Medroundtable-W3

Fork 0

W3评测：MedRoundTable-W3 — A2A多Agent医疗研究协作平台 #6

New issue

Open

opened 2026-05-24 19:23:44 +08:00 by ninkch · 0 comments

ninkch commented

2026-05-24 19:23:44 +08:00

项目仓库: https://www.synnovator.com/smartresearch2026/Medroundtable-W3
技术栈: Python + FastAPI + AgentScope + DeepSeek V4 Pro / Moonshot Kimi
评测基准: 半决赛 Wave 3 Demo — Agents完整/有效/可运行，Skills整合，Demo具备交互能力
评测日期: 2026-05-24

一、项目理解

MedRoundTable是A2A（Agent-to-Agent）多Agent医疗研究协作平台。用户输入临床/研究问题，14个AI专科Agent在9-10个阶段进行结构化圆桌讨论，产出带质量评估的可执行报告。

讨论阶段：问题界定 → 文献综述 → 研究设计 → 生物信息学方案 → 统计方案 → 交叉反驳 → CRF设计 → 执行计划 → 质量审查 → 共识

核心价值：不是单个LLM回答问题，而是多Agent模拟真实的科研团队讨论，通过交叉反驳和质量门控确保产出质量。

二、Agent 落地性

14个Agent全部完整定义、可运行验证充分。

Agent矩阵

类别	Agent	数量
核心临床	临床主任、博士生、流行病学家、统计师、研究护士	5
生物信息学	药物基因组学专家、GWAS专家、单细胞分析师、Galaxy Bridge	4
研究支持	UX研究员、数据工程师、趋势研究员、实验追踪、QA专家	5

完整性证据

agents/prompts.py：14个Agent均有完整profile（名称、头像、角色、专长列表、性格、详细system_prompt，每个200+词）
backend/models.py：14个角色定义在AgentRole枚举中
agents/orchestrator.py：_init_agents()遍历AGENT_PROFILES实例化全部14个Agent；所有角色均有fallback响应
agents/llm_client.py：真实LLM API集成（DeepSeek V4 Pro / Moonshot Kimi），OpenAI兼容客户端，含全面的Mock降级（角色特定、问题相关的Mock响应，约5000行Mock逻辑）
agents/quality_assessor.py：5维质量评分（参与度/多样性/证据/可执行性/讨论深度）

Agent可运行性：系统在有无LLM API Key两种情况下均可运行——有Key时调用真实LLM，无Key时Mock降级仍保持角色差异化。

三、Skill 落地性

4个Skill全部集成，通过统一入口路由。

Skill	文件	场景标识
临床试验设计	`skills_wave2/skill_clinical_trial_design.py`	`trial`
药物重定位	`skills_wave2/skill_drug_repurposing.py`	`drug`
罕见病诊断	`skills_wave2/skill_rare_disease_diagnosis.py`	`rare`
论文合著	`skills_wave2/skill_paper_coauthoring.py`	`paper`

集成机制：

medroundtable_agent.py：统一入口，SKILL_MAP路由4个Skill
auto_detect_skill()：自动根据用户问题检测应使用哪个Skill
每个Skill导入并使用A2AOrchestrator、QualityAssessor和14个Agent系统
demo.sh：一键脚本运行全部4个Skill
每个Skill产出JSON + Markdown + 质量报告

四、Demo 交互能力

多模态交互入口，用户可干预Agent讨论。

CLI交互

medroundtable_agent.py：交互模式菜单选择（trial/drug/rare/paper/a/q）
自定义问题输入（--question）
自动路由（auto_detect_skill()）

一键Demo

demo.sh：检查环境→安装依赖→运行全部4个场景
无需配置即可体验Mock模式

Web前端

29+个HTML页面（index、experts、skills-market、roundtables、immersive-roundtable、trial-designer等）
FastAPI后端 + Swagger文档（/docs）
docker-compose.yml + start.sh 确认部署

用户干预机制

human_can_interrupt=True：圆桌讨论中用户可随时中断
_has_recent_user_message()：每2秒检查用户输入
用户可在自动讨论流中插入自己的观点或问题

证据溯源

citation_manager.py：PMID/DOI引用系统 + 证据等级（I-IV）
Demo输出自动包含"参考文献溯源"章节

五、不足与建议

1. Web前端深度不足

问题：29个HTML页面看似丰富，但前端是传统HTML/JS（非React/Vue等现代框架），交互能力有限。圆桌讨论的实时可视化不够直观——Agent发言以文本列表呈现，缺乏实时流式展示和角色差异化视觉效果。

影响：Demo演示的视觉冲击力不如后端Agent架构的实际能力。评委可能因前端体验平淡而低估Agent系统的讨论深度。

建议：增加实时讨论流式展示——类似ChatGPT的多轮对话可视化，Agent发言时高亮当前Agent头像和角色名称，不同Agent使用不同颜色标识。"交叉反驳"阶段特别需要视觉强化（如对抗式布局，左侧正方右侧反方）。可考虑使用WebSocket实现前端实时推送Agent讨论进度。

2. Mock模式下Agent行为同质化

问题：llm_client.py的Mock降级逻辑虽然按角色区分响应，但14个Agent在Mock模式下的回答模式趋同——都是"我认为应该..."的模板变体，缺乏角色差异化的专业视角和语气。

影响：评委无API Key时体验到的"多Agent讨论"可能看起来像单人换皮——统计师和流行病学家说的差不多，研究护士和临床主任也差不多。

建议：为Mock模式增加更鲜明的角色差异化：

统计师：用数字说话（"根据我的计算，样本量需要xxx，置信区间xxx"）
流行病学家：用队列研究视角（"建议采用回顾性队列设计，对照组选择应考虑xxx混杂因素"）
研究护士：关注实操可行性（"从护理角度，这个方案在临床执行时有xxx困难"）
药物基因组学专家：用基因变异视角（"CYP2D6慢代谢型患者需要调整剂量"）

3. 缺少跨Skill知识迁移

问题：4个Skill通过SKILL_MAP路由，但Skill之间不共享上下文。用户在"药物重定位"Skill中产生的洞察（如某药物的靶点信息）无法自动迁移到"论文合著"Skill。

影响：跨Skill的工作流断裂。真实科研场景中，药物重定位的结果常是论文合著的起点，但用户需要手动复制/粘贴信息。

建议：增加Skill间上下文传递机制。例如：--scene drug --follow paper表示先完成药物重定位分析，再将结果作为素材传入论文合著。或在统一入口中增加"项目"概念，一个项目下的所有Skill共享上下文。

4. 前后端部署未完全集成

问题：demo.sh运行的是CLI模式，Web前端需要单独启动（docker-compose.yml + start.sh）。README中CLI入口和Web入口的指引不够清晰。

影响：评委可能只体验CLI模式，错过Web前端的交互能力。CLI输出虽然内容丰富，但可读性和体验感不如Web前端。

建议：提供一键启动脚本（同时启动后端+前端），并在README中明确Web演示入口URL。或在demo.sh中增加--web选项自动启动Web服务。

5. 输出格式可操作性不足

问题：Skill输出包含JSON + Markdown + Quality Report，但格式偏向"研究报告"而非"可执行计划"。例如，临床试验设计Skill输出的CRF字段列表是文本描述，不是可导入到REDCap或其他CRF系统的结构化数据。

影响：用户拿到报告后仍需大量人工操作才能落地执行。

建议：增加可操作的输出格式——如CRF字段导出为CSV/Excel（可导入REDCap），统计方案导出为R/Python分析脚本模板，执行计划导出为甘特图或项目管理工具格式。

六、综合评价

MedRoundTable是8个评测项目中唯一在Agent+Skill+Demo三个维度全部达标的项目。

14个Agent全部完整定义——从agents/prompts.py的profile到orchestrator的实例化到llm_client的真实LLM+Mock降级，Agent可运行验证充分。4个Skill全部集成——统一入口路由+自动检测+共享Orchestrator和QualityAssessor。Demo多模态交互——CLI交互+一键demo.sh+29页Web前端+用户中断机制。质量门控闭环——QualityAssessor 5维评分+阈值触发补充讨论。文献溯源系统增加医疗领域可信度。

主要短板在前端展示层（传统HTML/JS交互深度不足、Mock模式角色差异化不够、跨Skill上下文不共享）和输出可操作性（报告格式偏向研究而非执行），这些不影响Agent+Skill+闭环的核心标准达标，但限制了Demo的演示效果和用户的实际落地体验。

**项目仓库**: https://www.synnovator.com/smartresearch2026/Medroundtable-W3 **技术栈**: Python + FastAPI + AgentScope + DeepSeek V4 Pro / Moonshot Kimi **评测基准**: 半决赛 Wave 3 Demo — Agents完整/有效/可运行，Skills整合，Demo具备交互能力 **评测日期**: 2026-05-24 --- ## 一、项目理解 MedRoundTable是A2A（Agent-to-Agent）多Agent医疗研究协作平台。用户输入临床/研究问题，14个AI专科Agent在9-10个阶段进行结构化圆桌讨论，产出带质量评估的可执行报告。讨论阶段：**问题界定** → **文献综述** → **研究设计** → **生物信息学方案** → **统计方案** → **交叉反驳** → **CRF设计** → **执行计划** → **质量审查** → **共识** 核心价值：不是单个LLM回答问题，而是多Agent模拟真实的科研团队讨论，通过交叉反驳和质量门控确保产出质量。 --- ## 二、Agent 落地性 **14个Agent全部完整定义、可运行验证充分。** ### Agent矩阵 | 类别 | Agent | 数量 | |------|-------|------| | 核心临床 | 临床主任、博士生、流行病学家、统计师、研究护士 | 5 | | 生物信息学 | 药物基因组学专家、GWAS专家、单细胞分析师、Galaxy Bridge | 4 | | 研究支持 | UX研究员、数据工程师、趋势研究员、实验追踪、QA专家 | 5 | ### 完整性证据 - `agents/prompts.py`：14个Agent均有完整profile（名称、头像、角色、专长列表、性格、详细system_prompt，每个200+词） - `backend/models.py`：14个角色定义在`AgentRole`枚举中 - `agents/orchestrator.py`：`_init_agents()`遍历`AGENT_PROFILES`实例化全部14个Agent；所有角色均有fallback响应 - `agents/llm_client.py`：真实LLM API集成（DeepSeek V4 Pro / Moonshot Kimi），OpenAI兼容客户端，含全面的Mock降级（角色特定、问题相关的Mock响应，约5000行Mock逻辑） - `agents/quality_assessor.py`：5维质量评分（参与度/多样性/证据/可执行性/讨论深度） **Agent可运行性**：系统在有无LLM API Key两种情况下均可运行——有Key时调用真实LLM，无Key时Mock降级仍保持角色差异化。 --- ## 三、Skill 落地性 **4个Skill全部集成，通过统一入口路由。** | Skill | 文件 | 场景标识 | |-------|------|---------| | 临床试验设计 | `skills_wave2/skill_clinical_trial_design.py` | `trial` | | 药物重定位 | `skills_wave2/skill_drug_repurposing.py` | `drug` | | 罕见病诊断 | `skills_wave2/skill_rare_disease_diagnosis.py` | `rare` | | 论文合著 | `skills_wave2/skill_paper_coauthoring.py` | `paper` | **集成机制**： - `medroundtable_agent.py`：统一入口，`SKILL_MAP`路由4个Skill - `auto_detect_skill()`：自动根据用户问题检测应使用哪个Skill - 每个Skill导入并使用`A2AOrchestrator`、`QualityAssessor`和14个Agent系统 - `demo.sh`：一键脚本运行全部4个Skill - 每个Skill产出JSON + Markdown + 质量报告 --- ## 四、Demo 交互能力 **多模态交互入口，用户可干预Agent讨论。** ### CLI交互 - `medroundtable_agent.py`：交互模式菜单选择（`trial/drug/rare/paper/a/q`） - 自定义问题输入（`--question`） - 自动路由（`auto_detect_skill()`） ### 一键Demo - `demo.sh`：检查环境→安装依赖→运行全部4个场景 - 无需配置即可体验Mock模式 ### Web前端 - 29+个HTML页面（index、experts、skills-market、roundtables、immersive-roundtable、trial-designer等） - FastAPI后端 + Swagger文档（`/docs`） - `docker-compose.yml` + `start.sh` 确认部署 ### 用户干预机制 - `human_can_interrupt=True`：圆桌讨论中用户可随时中断 - `_has_recent_user_message()`：每2秒检查用户输入 - 用户可在自动讨论流中插入自己的观点或问题 ### 证据溯源 - `citation_manager.py`：PMID/DOI引用系统 + 证据等级（I-IV） - Demo输出自动包含"参考文献溯源"章节 --- ## 五、不足与建议 ### 1. Web前端深度不足 **问题**：29个HTML页面看似丰富，但前端是传统HTML/JS（非React/Vue等现代框架），交互能力有限。圆桌讨论的实时可视化不够直观——Agent发言以文本列表呈现，缺乏实时流式展示和角色差异化视觉效果。 **影响**：Demo演示的视觉冲击力不如后端Agent架构的实际能力。评委可能因前端体验平淡而低估Agent系统的讨论深度。 **建议**：增加实时讨论流式展示——类似ChatGPT的多轮对话可视化，Agent发言时高亮当前Agent头像和角色名称，不同Agent使用不同颜色标识。"交叉反驳"阶段特别需要视觉强化（如对抗式布局，左侧正方右侧反方）。可考虑使用WebSocket实现前端实时推送Agent讨论进度。 ### 2. Mock模式下Agent行为同质化 **问题**：`llm_client.py`的Mock降级逻辑虽然按角色区分响应，但14个Agent在Mock模式下的回答模式趋同——都是"我认为应该..."的模板变体，缺乏角色差异化的专业视角和语气。 **影响**：评委无API Key时体验到的"多Agent讨论"可能看起来像单人换皮——统计师和流行病学家说的差不多，研究护士和临床主任也差不多。 **建议**：为Mock模式增加更鲜明的角色差异化： - 统计师：用数字说话（"根据我的计算，样本量需要xxx，置信区间xxx"） - 流行病学家：用队列研究视角（"建议采用回顾性队列设计，对照组选择应考虑xxx混杂因素"） - 研究护士：关注实操可行性（"从护理角度，这个方案在临床执行时有xxx困难"） - 药物基因组学专家：用基因变异视角（"CYP2D6慢代谢型患者需要调整剂量"） ### 3. 缺少跨Skill知识迁移 **问题**：4个Skill通过`SKILL_MAP`路由，但Skill之间不共享上下文。用户在"药物重定位"Skill中产生的洞察（如某药物的靶点信息）无法自动迁移到"论文合著"Skill。 **影响**：跨Skill的工作流断裂。真实科研场景中，药物重定位的结果常是论文合著的起点，但用户需要手动复制/粘贴信息。 **建议**：增加Skill间上下文传递机制。例如：`--scene drug --follow paper`表示先完成药物重定位分析，再将结果作为素材传入论文合著。或在统一入口中增加"项目"概念，一个项目下的所有Skill共享上下文。 ### 4. 前后端部署未完全集成 **问题**：`demo.sh`运行的是CLI模式，Web前端需要单独启动（`docker-compose.yml` + `start.sh`）。README中CLI入口和Web入口的指引不够清晰。 **影响**：评委可能只体验CLI模式，错过Web前端的交互能力。CLI输出虽然内容丰富，但可读性和体验感不如Web前端。 **建议**：提供一键启动脚本（同时启动后端+前端），并在README中明确Web演示入口URL。或在`demo.sh`中增加`--web`选项自动启动Web服务。 ### 5. 输出格式可操作性不足 **问题**：Skill输出包含JSON + Markdown + Quality Report，但格式偏向"研究报告"而非"可执行计划"。例如，临床试验设计Skill输出的CRF字段列表是文本描述，不是可导入到REDCap或其他CRF系统的结构化数据。 **影响**：用户拿到报告后仍需大量人工操作才能落地执行。 **建议**：增加可操作的输出格式——如CRF字段导出为CSV/Excel（可导入REDCap），统计方案导出为R/Python分析脚本模板，执行计划导出为甘特图或项目管理工具格式。 --- ## 六、综合评价 MedRoundTable是8个评测项目中**唯一在Agent+Skill+Demo三个维度全部达标的项目**。 14个Agent全部完整定义——从agents/prompts.py的profile到orchestrator的实例化到llm_client的真实LLM+Mock降级，Agent可运行验证充分。4个Skill全部集成——统一入口路由+自动检测+共享Orchestrator和QualityAssessor。Demo多模态交互——CLI交互+一键demo.sh+29页Web前端+用户中断机制。质量门控闭环——QualityAssessor 5维评分+阈值触发补充讨论。文献溯源系统增加医疗领域可信度。主要短板在前端展示层（传统HTML/JS交互深度不足、Mock模式角色差异化不够、跨Skill上下文不共享）和输出可操作性（报告格式偏向研究而非执行），这些不影响Agent+Skill+闭环的核心标准达标，但限制了Demo的演示效果和用户的实际落地体验。

No labels

No milestone

No project

No assignees

1 participant

Notifications

Due date

The due date is invalid or out of range. Please use the format "yyyy-mm-dd".

No due date set.

Dependencies

No dependencies set.

Reference

smartresearch2026/Medroundtable-W3#6

No description provided.

Rows
Columns