W3评测:MedRoundTable-W3 — A2A多Agent医疗研究协作平台 #6
Loading…
Add table
Add a link
Reference in a new issue
No description provided.
Delete branch "%!s()"
Deleting a branch is permanent. Although the deleted branch may continue to exist for a short time before it actually gets removed, it CANNOT be undone in most cases. Continue?
项目仓库: https://www.synnovator.com/smartresearch2026/Medroundtable-W3
技术栈: Python + FastAPI + AgentScope + DeepSeek V4 Pro / Moonshot Kimi
评测基准: 半决赛 Wave 3 Demo — Agents完整/有效/可运行,Skills整合,Demo具备交互能力
评测日期: 2026-05-24
一、项目理解
MedRoundTable是A2A(Agent-to-Agent)多Agent医疗研究协作平台。用户输入临床/研究问题,14个AI专科Agent在9-10个阶段进行结构化圆桌讨论,产出带质量评估的可执行报告。
讨论阶段:问题界定 → 文献综述 → 研究设计 → 生物信息学方案 → 统计方案 → 交叉反驳 → CRF设计 → 执行计划 → 质量审查 → 共识
核心价值:不是单个LLM回答问题,而是多Agent模拟真实的科研团队讨论,通过交叉反驳和质量门控确保产出质量。
二、Agent 落地性
14个Agent全部完整定义、可运行验证充分。
Agent矩阵
完整性证据
agents/prompts.py:14个Agent均有完整profile(名称、头像、角色、专长列表、性格、详细system_prompt,每个200+词)backend/models.py:14个角色定义在AgentRole枚举中agents/orchestrator.py:_init_agents()遍历AGENT_PROFILES实例化全部14个Agent;所有角色均有fallback响应agents/llm_client.py:真实LLM API集成(DeepSeek V4 Pro / Moonshot Kimi),OpenAI兼容客户端,含全面的Mock降级(角色特定、问题相关的Mock响应,约5000行Mock逻辑)agents/quality_assessor.py:5维质量评分(参与度/多样性/证据/可执行性/讨论深度)Agent可运行性:系统在有无LLM API Key两种情况下均可运行——有Key时调用真实LLM,无Key时Mock降级仍保持角色差异化。
三、Skill 落地性
4个Skill全部集成,通过统一入口路由。
skills_wave2/skill_clinical_trial_design.pytrialskills_wave2/skill_drug_repurposing.pydrugskills_wave2/skill_rare_disease_diagnosis.pyrareskills_wave2/skill_paper_coauthoring.pypaper集成机制:
medroundtable_agent.py:统一入口,SKILL_MAP路由4个Skillauto_detect_skill():自动根据用户问题检测应使用哪个SkillA2AOrchestrator、QualityAssessor和14个Agent系统demo.sh:一键脚本运行全部4个Skill四、Demo 交互能力
多模态交互入口,用户可干预Agent讨论。
CLI交互
medroundtable_agent.py:交互模式菜单选择(trial/drug/rare/paper/a/q)--question)auto_detect_skill())一键Demo
demo.sh:检查环境→安装依赖→运行全部4个场景Web前端
/docs)docker-compose.yml+start.sh确认部署用户干预机制
human_can_interrupt=True:圆桌讨论中用户可随时中断_has_recent_user_message():每2秒检查用户输入证据溯源
citation_manager.py:PMID/DOI引用系统 + 证据等级(I-IV)五、不足与建议
1. Web前端深度不足
问题:29个HTML页面看似丰富,但前端是传统HTML/JS(非React/Vue等现代框架),交互能力有限。圆桌讨论的实时可视化不够直观——Agent发言以文本列表呈现,缺乏实时流式展示和角色差异化视觉效果。
影响:Demo演示的视觉冲击力不如后端Agent架构的实际能力。评委可能因前端体验平淡而低估Agent系统的讨论深度。
建议:增加实时讨论流式展示——类似ChatGPT的多轮对话可视化,Agent发言时高亮当前Agent头像和角色名称,不同Agent使用不同颜色标识。"交叉反驳"阶段特别需要视觉强化(如对抗式布局,左侧正方右侧反方)。可考虑使用WebSocket实现前端实时推送Agent讨论进度。
2. Mock模式下Agent行为同质化
问题:
llm_client.py的Mock降级逻辑虽然按角色区分响应,但14个Agent在Mock模式下的回答模式趋同——都是"我认为应该..."的模板变体,缺乏角色差异化的专业视角和语气。影响:评委无API Key时体验到的"多Agent讨论"可能看起来像单人换皮——统计师和流行病学家说的差不多,研究护士和临床主任也差不多。
建议:为Mock模式增加更鲜明的角色差异化:
3. 缺少跨Skill知识迁移
问题:4个Skill通过
SKILL_MAP路由,但Skill之间不共享上下文。用户在"药物重定位"Skill中产生的洞察(如某药物的靶点信息)无法自动迁移到"论文合著"Skill。影响:跨Skill的工作流断裂。真实科研场景中,药物重定位的结果常是论文合著的起点,但用户需要手动复制/粘贴信息。
建议:增加Skill间上下文传递机制。例如:
--scene drug --follow paper表示先完成药物重定位分析,再将结果作为素材传入论文合著。或在统一入口中增加"项目"概念,一个项目下的所有Skill共享上下文。4. 前后端部署未完全集成
问题:
demo.sh运行的是CLI模式,Web前端需要单独启动(docker-compose.yml+start.sh)。README中CLI入口和Web入口的指引不够清晰。影响:评委可能只体验CLI模式,错过Web前端的交互能力。CLI输出虽然内容丰富,但可读性和体验感不如Web前端。
建议:提供一键启动脚本(同时启动后端+前端),并在README中明确Web演示入口URL。或在
demo.sh中增加--web选项自动启动Web服务。5. 输出格式可操作性不足
问题:Skill输出包含JSON + Markdown + Quality Report,但格式偏向"研究报告"而非"可执行计划"。例如,临床试验设计Skill输出的CRF字段列表是文本描述,不是可导入到REDCap或其他CRF系统的结构化数据。
影响:用户拿到报告后仍需大量人工操作才能落地执行。
建议:增加可操作的输出格式——如CRF字段导出为CSV/Excel(可导入REDCap),统计方案导出为R/Python分析脚本模板,执行计划导出为甘特图或项目管理工具格式。
六、综合评价
MedRoundTable是8个评测项目中唯一在Agent+Skill+Demo三个维度全部达标的项目。
14个Agent全部完整定义——从agents/prompts.py的profile到orchestrator的实例化到llm_client的真实LLM+Mock降级,Agent可运行验证充分。4个Skill全部集成——统一入口路由+自动检测+共享Orchestrator和QualityAssessor。Demo多模态交互——CLI交互+一键demo.sh+29页Web前端+用户中断机制。质量门控闭环——QualityAssessor 5维评分+阈值触发补充讨论。文献溯源系统增加医疗领域可信度。
主要短板在前端展示层(传统HTML/JS交互深度不足、Mock模式角色差异化不够、跨Skill上下文不共享)和输出可操作性(报告格式偏向研究而非执行),这些不影响Agent+Skill+闭环的核心标准达标,但限制了Demo的演示效果和用户的实际落地体验。