【交叉评测S1W3】ResearchFlow AI — 科研端到端一体化工作台 (JunjieCai/scienith-research-booster-w3) #1

Open
opened 2026-05-25 03:05:33 +08:00 by along429 · 1 comment

评测基于完整仓库文件:README.md、spec.md、10个Skill契约、4份设计文档、vite.config.ts、src/App.tsx(55KB核心代码)等。

  1. 项目理解
    本项目是一个面向科研人员(研究生、博士后、青年科研人员)的AI端到端科研一体化平台,品牌名为 ResearchFlow AI。核心主张是:将科研工作的10个连续环节(项目建档→文献查询→论文解析→信息汇总→课题选择→方案设计→数据分析→结果解读→论文写作→期刊选择)串联成同一个项目工作流,通过AI辅助减少重复整理成本。
    项目当前为前端mock原型,使用React+TypeScript+Vite+Ant Design构建,所有展示数据(文献列表、研究问题、期刊候选等)均为硬编码。右下角AI Chat已接入智谱GLM API,通过Vite自定义插件将skills/目录下的10个SKILL.md动态注入为系统prompt。
  2. 项目亮点
    2.1 端到端科研工作流设计非常完整
    项目覆盖了科研全流程的10个阶段,每个阶段都有独立的UI界面、mock数据和交互逻辑:
    项目建档:表单收集研究方向、用户类型、目标、已有材料,AI判断当前阶段并推荐下一步。
    文献查询:8篇mock文献(肿瘤免疫治疗方向),含优先级、推荐理由、研究空白。
    论文解析:左侧论文列表 + 右侧结构化解析(研究问题、方法、数据、结论、创新点、局限性)。
    信息汇总:5个主题分类(预测标志物、耐药机制、临床转化、模型报告规范、可解释AI),含争议点和研究空白。
    课题选择:5个候选研究问题,含创新性/可行性评分、风险、数据需求、验证方式。
    方案设计:研究目标、假设、设计、变量、分析方法、时间规划(Timeline)。
    数据分析:6步分析计划(字段理解→清洗→探索→主分析→稳健性→解释)。
    结果解读:mock模型结果(AUC=0.81)+ 6条解释建议。
    论文写作:大纲、摘要、讨论、修改建议4个Tab。
    期刊选择:6个候选期刊,含匹配度进度条、定位标签、推荐理由、风险、来源。
    评测验证:4个指标卡片 + 6项可靠性检查清单。
    这种全流程覆盖在同类科研辅助工具中非常罕见,产品价值呈现清晰。
    2.2 Skill Prompt设计规范且统一
    10个SKILL.md文件(research-project-intake、literature-query、paper-reading、literature-synthesis、research-question-generation、research-design、data-analysis-advisor、result-interpretation、paper-writing、journal-selection)均采用统一结构:
    目标(Purpose)
    工作流程(Workflow)
    输出格式(Output Format,Markdown模板化)
    可靠性要求(Reliability Requirements)
    每个Skill都强调:不编造引用、标注不确定性、保留人工确认、区分事实与推测。这种可靠性护栏前置的设计值得肯定。
    2.3 AI Chat接入设计巧妙
    vite.config.ts中实现了自定义Vite插件glmChatPlugin:
    开发服务器拦截/api/ai/chat请求,代理到智谱GLM API。
    动态读取skills/目录下所有SKILL.md文件,拼接为系统prompt注入GLM对话。
    支持模型选择(glm-4.7/glm-4-flash/glm-4-plus)、流式响应、错误处理。
    这种"前端零依赖接入LLM"的设计在原型阶段非常实用,且避免了API Key泄露风险。
    2.4 竞品分析清晰
    docs/competitor-analysis.md对比了Elicit、Consensus、SciSpace、Zotero、Paperpal等6类工具,明确提出了3个差异化假设:
    端到端上下文串联(vs 单点工具复制粘贴)
    面向科研训练而不只是结果生成
    可靠性护栏前置
    分析客观、有依据,不是空泛的"我们更好"。
    2.5 用户验证计划具体可执行
    docs/user-validation-plan.md定义了:
    35名测试对象(硕士生/博士生/博士后)
    8步测试任务 + 观察点
    定量指标(完成率、1
    5分评分)+ 定性反馈
    对照方式(传统方式 vs ResearchFlow AI)
    成功标准(80%理解率、4/5有用性评分、2名愿意继续试用)
    这是本次评测中见过的最具体的用户验证计划之一。
  3. 当前不足
    3.1 缺少Agent化改造(核心问题)
    当前项目本质上是一个带AI Chat的前端展示原型,而非"Agent"。具体表现为:
    没有agent.yaml:缺少Agent清单、入口命令、Skills与评测标准的统一定义。
    没有意图路由:用户输入如何匹配到具体Skill没有明确机制。AI Chat只是把所有Skill prompt一次性塞给GLM,由GLM自由理解,没有parseIntent → runSkill的确定性路由。
    没有结构化输出契约:GLM输出是纯文本Markdown,没有AgentResponse(answer/actions/widgets/references)的schema约束,前端无法对AI输出做结构化解析和验证。
    没有审计链:缺少从intent到action的6步审计日志,无法重建AI执行链。
    没有自动评测:缺少eval.mjs或类似脚本,无法自动验证"查看文献→解析论文→汇总信息→生成课题"的端到端链路。
    建议:参考工业数字孪生赛道中Agent的设计模式(如agent.yaml + skill-router + contracts.mjs + audit.mjs),将当前"前端展示+AI Chat"升级为"Agent驱动的科研工作流"。
    3.2 纯Mock数据,无真实数据源接入
    所有展示数据均为硬编码:
    literatureData:8篇文献的标题、年份、来源、关键词、样本、方法、结果全部写死。
    researchQuestions:5个候选问题的创新性/可行性评分是固定数字(86、78等)。
    synthesisRows、journalRows、analysisPlanRows等全部是静态数组。
    这意味着:
    用户无法输入自己的研究方向并获取真实文献。
    无法验证"语义检索"vs"关键词检索"vs"研究空白"三种模式的差异(点击后数据不变)。
    无法验证AI Chat在真实科研场景下的表现(因为系统prompt中的Skill只是指导GLM如何回答,没有真实数据支撑)。
    建议:至少接入一个开放文献API(如Semantic Scholar、PubMed E-utilities、arXiv API)做真实检索演示,或声明当前为"UI原型+Prompt设计验证"阶段。
    3.3 上下文流转未真正实现
    docs/context-flow.md设计了完整的ResearchProjectContext对象和Skill间的输入输出关系,但src/App.tsx中:
    各stage之间没有数据传递(如文献查询的结果不会自动流入论文解析,论文解析的结果不会自动流入信息汇总)。
    用户在一个stage的操作(如选择某篇论文、选择某个课题)不会自动影响下游stage的展示。
    所有stage切换只是React state的activeStage变化,没有项目上下文的持久化。
    建议:在agent化改造时,实现ResearchProjectContext的内存存储(或localStorage),让下游Skill能消费上游的输出。
    3.4 Skill契约缺少技术深度
    相比工业数字孪生赛道中规范的Skill设计(如locate-asset的Output Contract、Failure Modes、Evals),本项目的Skill更偏向prompt模板,缺少:
    明确的Input/Output JSON Schema。
    Failure Modes(如文献检索失败、PDF解析失败、GLM API超时时的降级策略)。
    Evals验收条件(如"生成5个候选问题"的自动验证)。
    分层设计(first-layer deterministic vs second-layer LLM-assisted)。
    建议:为每个Skill补充Output Contract(期望的JSON/Markdown结构)、Failure Modes和至少1个Eval用例。
    3.5 可靠性护栏尚未工程化
    虽然所有Skill都声明了"不编造引用"、"标注不确定性",但:
    前端代码中没有对GLM输出做引用校验(如DOI格式检查、PMID存在性验证)。
    没有Limited Evidence降级状态(当检索不到文献时,系统不会明确告知"证据不足")。
    没有人工确认节点的工程化实现(如关键结论必须点击"确认"后才能进入下游)。
    建议:增加GLM输出的后处理层(post-processing),对引用、数据、结论做格式校验和可信度评分。
    3.6 缺少明确的评测可验证性
    spec.md中定义了5个评测维度(任务完成、输出质量、效率、体验、可靠性),但:
    没有自动化评测脚本。
    没有Golden Prompt覆盖核心场景。
    没有固定输入→预期输出的映射表。
    这使得评审方难以快速验证"输入'如何提高肿瘤免疫治疗响应率',系统是否真的能输出符合科研要求的文献列表和研究方案"。
    建议:增加eval/目录,包含至少5~8个端到端测试用例(如"输入研究方向X,期望输出包含Y篇文献的列表和Z个候选问题")。
  4. 建议补充的内容
    表格
    优先级 建议 说明
    P0 增加agent.yaml 定义Agent清单、入口命令、Skills、评测标准和约束条件。
    P0 实现意图路由层 将用户输入解析为具体intent,再调用对应Skill,而非一次性注入所有prompt。
    P0 补充结构化输出契约 为每个Skill定义JSON/Markdown输出schema,前端做解析和验证。
    P1 接入至少一个真实文献API Semantic Scholar、PubMed、arXiv均可,用于验证文献检索和解析的真实表现。
    P1 增加自动评测脚本 覆盖核心场景的固定输入→预期输出测试,包含通过/失败断言。
    P1 工程化上下文流转 实现ResearchProjectContext的内存存储,让下游Skill消费上游输出。
    P2 增加Failure Modes 为每个Skill补充失败场景(API超时、检索为空、解析失败)的降级策略。
    P2 补充Evals验收条件 每个Skill至少1个可自动验证的Eval用例。
    P2 增加审计日志 记录用户输入→intent→Skill调用→GLM请求→输出的完整链路。
  5. 总体结论
    这是一个产品价值清晰、工作流设计完整的项目,但当前阶段更偏向"AI辅助科研的UI原型和Prompt设计验证",而非"可评测的Agent"。
    项目最大的优势在于:
    全流程覆盖:从项目建档到期刊选择的10个环节全部有UI和Prompt设计,这在科研辅助领域非常罕见。
    可靠性意识强:从Skill设计阶段就强调不编造引用、标注不确定性、保留人工确认。
    迭代响应快:根据交叉评测反馈迅速补充了架构、竞品、上下文流转和用户验证文档。
    项目当前最需要解决的问题是:
    Agent化改造:增加agent.yaml、意图路由、结构化输出契约、自动评测,让项目从"前端展示"升级为"可验证的Agent"。
    真实数据源接入:至少接入一个开放文献API,验证AI在真实数据下的表现。
    上下文流转工程化:实现项目上下文的持久化和Skill间的数据传递。
    如果能在下一轮迭代中完成上述改造,该项目在科研辅助赛道的竞争力将显著提升。
评测基于完整仓库文件:README.md、spec.md、10个Skill契约、4份设计文档、vite.config.ts、src/App.tsx(55KB核心代码)等。 1. 项目理解 本项目是一个面向科研人员(研究生、博士后、青年科研人员)的AI端到端科研一体化平台,品牌名为 ResearchFlow AI。核心主张是:将科研工作的10个连续环节(项目建档→文献查询→论文解析→信息汇总→课题选择→方案设计→数据分析→结果解读→论文写作→期刊选择)串联成同一个项目工作流,通过AI辅助减少重复整理成本。 项目当前为前端mock原型,使用React+TypeScript+Vite+Ant Design构建,所有展示数据(文献列表、研究问题、期刊候选等)均为硬编码。右下角AI Chat已接入智谱GLM API,通过Vite自定义插件将skills/目录下的10个SKILL.md动态注入为系统prompt。 2. 项目亮点 2.1 端到端科研工作流设计非常完整 项目覆盖了科研全流程的10个阶段,每个阶段都有独立的UI界面、mock数据和交互逻辑: 项目建档:表单收集研究方向、用户类型、目标、已有材料,AI判断当前阶段并推荐下一步。 文献查询:8篇mock文献(肿瘤免疫治疗方向),含优先级、推荐理由、研究空白。 论文解析:左侧论文列表 + 右侧结构化解析(研究问题、方法、数据、结论、创新点、局限性)。 信息汇总:5个主题分类(预测标志物、耐药机制、临床转化、模型报告规范、可解释AI),含争议点和研究空白。 课题选择:5个候选研究问题,含创新性/可行性评分、风险、数据需求、验证方式。 方案设计:研究目标、假设、设计、变量、分析方法、时间规划(Timeline)。 数据分析:6步分析计划(字段理解→清洗→探索→主分析→稳健性→解释)。 结果解读:mock模型结果(AUC=0.81)+ 6条解释建议。 论文写作:大纲、摘要、讨论、修改建议4个Tab。 期刊选择:6个候选期刊,含匹配度进度条、定位标签、推荐理由、风险、来源。 评测验证:4个指标卡片 + 6项可靠性检查清单。 这种全流程覆盖在同类科研辅助工具中非常罕见,产品价值呈现清晰。 2.2 Skill Prompt设计规范且统一 10个SKILL.md文件(research-project-intake、literature-query、paper-reading、literature-synthesis、research-question-generation、research-design、data-analysis-advisor、result-interpretation、paper-writing、journal-selection)均采用统一结构: 目标(Purpose) 工作流程(Workflow) 输出格式(Output Format,Markdown模板化) 可靠性要求(Reliability Requirements) 每个Skill都强调:不编造引用、标注不确定性、保留人工确认、区分事实与推测。这种可靠性护栏前置的设计值得肯定。 2.3 AI Chat接入设计巧妙 vite.config.ts中实现了自定义Vite插件glmChatPlugin: 开发服务器拦截/api/ai/chat请求,代理到智谱GLM API。 动态读取skills/目录下所有SKILL.md文件,拼接为系统prompt注入GLM对话。 支持模型选择(glm-4.7/glm-4-flash/glm-4-plus)、流式响应、错误处理。 这种"前端零依赖接入LLM"的设计在原型阶段非常实用,且避免了API Key泄露风险。 2.4 竞品分析清晰 docs/competitor-analysis.md对比了Elicit、Consensus、SciSpace、Zotero、Paperpal等6类工具,明确提出了3个差异化假设: 端到端上下文串联(vs 单点工具复制粘贴) 面向科研训练而不只是结果生成 可靠性护栏前置 分析客观、有依据,不是空泛的"我们更好"。 2.5 用户验证计划具体可执行 docs/user-validation-plan.md定义了: 3~5名测试对象(硕士生/博士生/博士后) 8步测试任务 + 观察点 定量指标(完成率、1~5分评分)+ 定性反馈 对照方式(传统方式 vs ResearchFlow AI) 成功标准(80%理解率、4/5有用性评分、2名愿意继续试用) 这是本次评测中见过的最具体的用户验证计划之一。 3. 当前不足 3.1 缺少Agent化改造(核心问题) 当前项目本质上是一个带AI Chat的前端展示原型,而非"Agent"。具体表现为: 没有agent.yaml:缺少Agent清单、入口命令、Skills与评测标准的统一定义。 没有意图路由:用户输入如何匹配到具体Skill没有明确机制。AI Chat只是把所有Skill prompt一次性塞给GLM,由GLM自由理解,没有parseIntent → runSkill的确定性路由。 没有结构化输出契约:GLM输出是纯文本Markdown,没有AgentResponse(answer/actions/widgets/references)的schema约束,前端无法对AI输出做结构化解析和验证。 没有审计链:缺少从intent到action的6步审计日志,无法重建AI执行链。 没有自动评测:缺少eval.mjs或类似脚本,无法自动验证"查看文献→解析论文→汇总信息→生成课题"的端到端链路。 建议:参考工业数字孪生赛道中Agent的设计模式(如agent.yaml + skill-router + contracts.mjs + audit.mjs),将当前"前端展示+AI Chat"升级为"Agent驱动的科研工作流"。 3.2 纯Mock数据,无真实数据源接入 所有展示数据均为硬编码: literatureData:8篇文献的标题、年份、来源、关键词、样本、方法、结果全部写死。 researchQuestions:5个候选问题的创新性/可行性评分是固定数字(86、78等)。 synthesisRows、journalRows、analysisPlanRows等全部是静态数组。 这意味着: 用户无法输入自己的研究方向并获取真实文献。 无法验证"语义检索"vs"关键词检索"vs"研究空白"三种模式的差异(点击后数据不变)。 无法验证AI Chat在真实科研场景下的表现(因为系统prompt中的Skill只是指导GLM如何回答,没有真实数据支撑)。 建议:至少接入一个开放文献API(如Semantic Scholar、PubMed E-utilities、arXiv API)做真实检索演示,或声明当前为"UI原型+Prompt设计验证"阶段。 3.3 上下文流转未真正实现 docs/context-flow.md设计了完整的ResearchProjectContext对象和Skill间的输入输出关系,但src/App.tsx中: 各stage之间没有数据传递(如文献查询的结果不会自动流入论文解析,论文解析的结果不会自动流入信息汇总)。 用户在一个stage的操作(如选择某篇论文、选择某个课题)不会自动影响下游stage的展示。 所有stage切换只是React state的activeStage变化,没有项目上下文的持久化。 建议:在agent化改造时,实现ResearchProjectContext的内存存储(或localStorage),让下游Skill能消费上游的输出。 3.4 Skill契约缺少技术深度 相比工业数字孪生赛道中规范的Skill设计(如locate-asset的Output Contract、Failure Modes、Evals),本项目的Skill更偏向prompt模板,缺少: 明确的Input/Output JSON Schema。 Failure Modes(如文献检索失败、PDF解析失败、GLM API超时时的降级策略)。 Evals验收条件(如"生成5个候选问题"的自动验证)。 分层设计(first-layer deterministic vs second-layer LLM-assisted)。 建议:为每个Skill补充Output Contract(期望的JSON/Markdown结构)、Failure Modes和至少1个Eval用例。 3.5 可靠性护栏尚未工程化 虽然所有Skill都声明了"不编造引用"、"标注不确定性",但: 前端代码中没有对GLM输出做引用校验(如DOI格式检查、PMID存在性验证)。 没有Limited Evidence降级状态(当检索不到文献时,系统不会明确告知"证据不足")。 没有人工确认节点的工程化实现(如关键结论必须点击"确认"后才能进入下游)。 建议:增加GLM输出的后处理层(post-processing),对引用、数据、结论做格式校验和可信度评分。 3.6 缺少明确的评测可验证性 spec.md中定义了5个评测维度(任务完成、输出质量、效率、体验、可靠性),但: 没有自动化评测脚本。 没有Golden Prompt覆盖核心场景。 没有固定输入→预期输出的映射表。 这使得评审方难以快速验证"输入'如何提高肿瘤免疫治疗响应率',系统是否真的能输出符合科研要求的文献列表和研究方案"。 建议:增加eval/目录,包含至少5~8个端到端测试用例(如"输入研究方向X,期望输出包含Y篇文献的列表和Z个候选问题")。 4. 建议补充的内容 表格 优先级 建议 说明 P0 增加agent.yaml 定义Agent清单、入口命令、Skills、评测标准和约束条件。 P0 实现意图路由层 将用户输入解析为具体intent,再调用对应Skill,而非一次性注入所有prompt。 P0 补充结构化输出契约 为每个Skill定义JSON/Markdown输出schema,前端做解析和验证。 P1 接入至少一个真实文献API Semantic Scholar、PubMed、arXiv均可,用于验证文献检索和解析的真实表现。 P1 增加自动评测脚本 覆盖核心场景的固定输入→预期输出测试,包含通过/失败断言。 P1 工程化上下文流转 实现ResearchProjectContext的内存存储,让下游Skill消费上游输出。 P2 增加Failure Modes 为每个Skill补充失败场景(API超时、检索为空、解析失败)的降级策略。 P2 补充Evals验收条件 每个Skill至少1个可自动验证的Eval用例。 P2 增加审计日志 记录用户输入→intent→Skill调用→GLM请求→输出的完整链路。 5. 总体结论 这是一个产品价值清晰、工作流设计完整的项目,但当前阶段更偏向"AI辅助科研的UI原型和Prompt设计验证",而非"可评测的Agent"。 项目最大的优势在于: 全流程覆盖:从项目建档到期刊选择的10个环节全部有UI和Prompt设计,这在科研辅助领域非常罕见。 可靠性意识强:从Skill设计阶段就强调不编造引用、标注不确定性、保留人工确认。 迭代响应快:根据交叉评测反馈迅速补充了架构、竞品、上下文流转和用户验证文档。 项目当前最需要解决的问题是: Agent化改造:增加agent.yaml、意图路由、结构化输出契约、自动评测,让项目从"前端展示"升级为"可验证的Agent"。 真实数据源接入:至少接入一个开放文献API,验证AI在真实数据下的表现。 上下文流转工程化:实现项目上下文的持久化和Skill间的数据传递。 如果能在下一轮迭代中完成上述改造,该项目在科研辅助赛道的竞争力将显著提升。
Owner

感谢评审反馈,关于项目当前更偏“前端 mock 原型 + Skill Prompt + GLM Chat”,而非
可评测 Agent 的问题,我们已完成一轮 Agent 化改造:新增 agent.yaml 统一声明
Agent 入口、Skill 清单、契约、路由、审计和评测;实现确定性 intent 到 Skill 的路
由层,避免一次性注入全部 Skill prompt;补充 AgentResponse、
ResearchProjectContext 以及每个 Skill 的 Output Contract、Failure Modes 和 Eval
期望;Chat 请求现在会携带项目上下文、只注入命中的 Skill,并写入审计日志。同时,
文献查询模块新增 Semantic Scholar 真实题录检索入口,用于缓解纯 mock 数据问题;
并新增 npm run eval 覆盖核心路由、阶段回退和契约字段检查。当前仍保留“真实题录需
人工核验”的可靠性边界,后续会继续补充 GLM 输出后处理、引用校验和人工确认节点。

> 感谢评审反馈,关于项目当前更偏“前端 mock 原型 + Skill Prompt + GLM Chat”,而非 > 可评测 Agent 的问题,我们已完成一轮 Agent 化改造:新增 agent.yaml 统一声明 > Agent 入口、Skill 清单、契约、路由、审计和评测;实现确定性 intent 到 Skill 的路 > 由层,避免一次性注入全部 Skill prompt;补充 AgentResponse、 > ResearchProjectContext 以及每个 Skill 的 Output Contract、Failure Modes 和 Eval > 期望;Chat 请求现在会携带项目上下文、只注入命中的 Skill,并写入审计日志。同时, > 文献查询模块新增 Semantic Scholar 真实题录检索入口,用于缓解纯 mock 数据问题; > 并新增 npm run eval 覆盖核心路由、阶段回退和契约字段检查。当前仍保留“真实题录需 > 人工核验”的可靠性边界,后续会继续补充 GLM 输出后处理、引用校验和人工确认节点。
Sign in to join this conversation.
No labels
No milestone
No project
No assignees
2 participants
Notifications
Due date
The due date is invalid or out of range. Please use the format "yyyy-mm-dd".

No due date set.

Dependencies

No dependencies set.

Reference
JunjieCai/scienith-research-booster-w3#1
No description provided.