【交叉评测S1W3】ResearchFlow AI — 科研端到端一体化工作台 (JunjieCai/scienith-research-booster-w3) #1

New issue

Open

opened 2026-05-25 03:05:33 +08:00 by along429 · 1 comment

along429 commented

2026-05-25 03:05:33 +08:00

评测基于完整仓库文件：README.md、spec.md、10个Skill契约、4份设计文档、vite.config.ts、src/App.tsx（55KB核心代码）等。

项目理解
本项目是一个面向科研人员（研究生、博士后、青年科研人员）的AI端到端科研一体化平台，品牌名为 ResearchFlow AI。核心主张是：将科研工作的10个连续环节（项目建档→文献查询→论文解析→信息汇总→课题选择→方案设计→数据分析→结果解读→论文写作→期刊选择）串联成同一个项目工作流，通过AI辅助减少重复整理成本。
项目当前为前端mock原型，使用React+TypeScript+Vite+Ant Design构建，所有展示数据（文献列表、研究问题、期刊候选等）均为硬编码。右下角AI Chat已接入智谱GLM API，通过Vite自定义插件将skills/目录下的10个SKILL.md动态注入为系统prompt。
项目亮点
2.1 端到端科研工作流设计非常完整
项目覆盖了科研全流程的10个阶段，每个阶段都有独立的UI界面、mock数据和交互逻辑：
项目建档：表单收集研究方向、用户类型、目标、已有材料，AI判断当前阶段并推荐下一步。
文献查询：8篇mock文献（肿瘤免疫治疗方向），含优先级、推荐理由、研究空白。
论文解析：左侧论文列表 + 右侧结构化解析（研究问题、方法、数据、结论、创新点、局限性）。
信息汇总：5个主题分类（预测标志物、耐药机制、临床转化、模型报告规范、可解释AI），含争议点和研究空白。
课题选择：5个候选研究问题，含创新性/可行性评分、风险、数据需求、验证方式。
方案设计：研究目标、假设、设计、变量、分析方法、时间规划（Timeline）。
数据分析：6步分析计划（字段理解→清洗→探索→主分析→稳健性→解释）。
结果解读：mock模型结果（AUC=0.81）+ 6条解释建议。
论文写作：大纲、摘要、讨论、修改建议4个Tab。
期刊选择：6个候选期刊，含匹配度进度条、定位标签、推荐理由、风险、来源。
评测验证：4个指标卡片 + 6项可靠性检查清单。
这种全流程覆盖在同类科研辅助工具中非常罕见，产品价值呈现清晰。
2.2 Skill Prompt设计规范且统一
10个SKILL.md文件（research-project-intake、literature-query、paper-reading、literature-synthesis、research-question-generation、research-design、data-analysis-advisor、result-interpretation、paper-writing、journal-selection）均采用统一结构：
目标（Purpose）
工作流程（Workflow）
输出格式（Output Format，Markdown模板化）
可靠性要求（Reliability Requirements）
每个Skill都强调：不编造引用、标注不确定性、保留人工确认、区分事实与推测。这种可靠性护栏前置的设计值得肯定。
2.3 AI Chat接入设计巧妙
vite.config.ts中实现了自定义Vite插件glmChatPlugin：
开发服务器拦截/api/ai/chat请求，代理到智谱GLM API。
动态读取skills/目录下所有SKILL.md文件，拼接为系统prompt注入GLM对话。
支持模型选择（glm-4.7/glm-4-flash/glm-4-plus）、流式响应、错误处理。
这种"前端零依赖接入LLM"的设计在原型阶段非常实用，且避免了API Key泄露风险。
2.4 竞品分析清晰
docs/competitor-analysis.md对比了Elicit、Consensus、SciSpace、Zotero、Paperpal等6类工具，明确提出了3个差异化假设：
端到端上下文串联（vs 单点工具复制粘贴）
面向科研训练而不只是结果生成
可靠性护栏前置
分析客观、有依据，不是空泛的"我们更好"。
2.5 用户验证计划具体可执行
docs/user-validation-plan.md定义了：
35名测试对象（硕士生/博士生/博士后）
8步测试任务 + 观察点
定量指标（完成率、15分评分）+ 定性反馈
对照方式（传统方式 vs ResearchFlow AI）
成功标准（80%理解率、4/5有用性评分、2名愿意继续试用）
这是本次评测中见过的最具体的用户验证计划之一。
当前不足
3.1 缺少Agent化改造（核心问题）
当前项目本质上是一个带AI Chat的前端展示原型，而非"Agent"。具体表现为：
没有agent.yaml：缺少Agent清单、入口命令、Skills与评测标准的统一定义。
没有意图路由：用户输入如何匹配到具体Skill没有明确机制。AI Chat只是把所有Skill prompt一次性塞给GLM，由GLM自由理解，没有parseIntent → runSkill的确定性路由。
没有结构化输出契约：GLM输出是纯文本Markdown，没有AgentResponse（answer/actions/widgets/references）的schema约束，前端无法对AI输出做结构化解析和验证。
没有审计链：缺少从intent到action的6步审计日志，无法重建AI执行链。
没有自动评测：缺少eval.mjs或类似脚本，无法自动验证"查看文献→解析论文→汇总信息→生成课题"的端到端链路。
建议：参考工业数字孪生赛道中Agent的设计模式（如agent.yaml + skill-router + contracts.mjs + audit.mjs），将当前"前端展示+AI Chat"升级为"Agent驱动的科研工作流"。
3.2 纯Mock数据，无真实数据源接入
所有展示数据均为硬编码：
literatureData：8篇文献的标题、年份、来源、关键词、样本、方法、结果全部写死。
researchQuestions：5个候选问题的创新性/可行性评分是固定数字（86、78等）。
synthesisRows、journalRows、analysisPlanRows等全部是静态数组。
这意味着：
用户无法输入自己的研究方向并获取真实文献。
无法验证"语义检索"vs"关键词检索"vs"研究空白"三种模式的差异（点击后数据不变）。
无法验证AI Chat在真实科研场景下的表现（因为系统prompt中的Skill只是指导GLM如何回答，没有真实数据支撑）。
建议：至少接入一个开放文献API（如Semantic Scholar、PubMed E-utilities、arXiv API）做真实检索演示，或声明当前为"UI原型+Prompt设计验证"阶段。
3.3 上下文流转未真正实现
docs/context-flow.md设计了完整的ResearchProjectContext对象和Skill间的输入输出关系，但src/App.tsx中：
各stage之间没有数据传递（如文献查询的结果不会自动流入论文解析，论文解析的结果不会自动流入信息汇总）。
用户在一个stage的操作（如选择某篇论文、选择某个课题）不会自动影响下游stage的展示。
所有stage切换只是React state的activeStage变化，没有项目上下文的持久化。
建议：在agent化改造时，实现ResearchProjectContext的内存存储（或localStorage），让下游Skill能消费上游的输出。
3.4 Skill契约缺少技术深度
相比工业数字孪生赛道中规范的Skill设计（如locate-asset的Output Contract、Failure Modes、Evals），本项目的Skill更偏向prompt模板，缺少：
明确的Input/Output JSON Schema。
Failure Modes（如文献检索失败、PDF解析失败、GLM API超时时的降级策略）。
Evals验收条件（如"生成5个候选问题"的自动验证）。
分层设计（first-layer deterministic vs second-layer LLM-assisted）。
建议：为每个Skill补充Output Contract（期望的JSON/Markdown结构）、Failure Modes和至少1个Eval用例。
3.5 可靠性护栏尚未工程化
虽然所有Skill都声明了"不编造引用"、"标注不确定性"，但：
前端代码中没有对GLM输出做引用校验（如DOI格式检查、PMID存在性验证）。
没有Limited Evidence降级状态（当检索不到文献时，系统不会明确告知"证据不足"）。
没有人工确认节点的工程化实现（如关键结论必须点击"确认"后才能进入下游）。
建议：增加GLM输出的后处理层（post-processing），对引用、数据、结论做格式校验和可信度评分。
3.6 缺少明确的评测可验证性
spec.md中定义了5个评测维度（任务完成、输出质量、效率、体验、可靠性），但：
没有自动化评测脚本。
没有Golden Prompt覆盖核心场景。
没有固定输入→预期输出的映射表。
这使得评审方难以快速验证"输入'如何提高肿瘤免疫治疗响应率'，系统是否真的能输出符合科研要求的文献列表和研究方案"。
建议：增加eval/目录，包含至少5~8个端到端测试用例（如"输入研究方向X，期望输出包含Y篇文献的列表和Z个候选问题"）。
建议补充的内容
表格
优先级建议说明
P0 增加agent.yaml 定义Agent清单、入口命令、Skills、评测标准和约束条件。
P0 实现意图路由层将用户输入解析为具体intent，再调用对应Skill，而非一次性注入所有prompt。
P0 补充结构化输出契约为每个Skill定义JSON/Markdown输出schema，前端做解析和验证。
P1 接入至少一个真实文献API Semantic Scholar、PubMed、arXiv均可，用于验证文献检索和解析的真实表现。
P1 增加自动评测脚本覆盖核心场景的固定输入→预期输出测试，包含通过/失败断言。
P1 工程化上下文流转实现ResearchProjectContext的内存存储，让下游Skill消费上游输出。
P2 增加Failure Modes 为每个Skill补充失败场景（API超时、检索为空、解析失败）的降级策略。
P2 补充Evals验收条件每个Skill至少1个可自动验证的Eval用例。
P2 增加审计日志记录用户输入→intent→Skill调用→GLM请求→输出的完整链路。
总体结论
这是一个产品价值清晰、工作流设计完整的项目，但当前阶段更偏向"AI辅助科研的UI原型和Prompt设计验证"，而非"可评测的Agent"。
项目最大的优势在于：
全流程覆盖：从项目建档到期刊选择的10个环节全部有UI和Prompt设计，这在科研辅助领域非常罕见。
可靠性意识强：从Skill设计阶段就强调不编造引用、标注不确定性、保留人工确认。
迭代响应快：根据交叉评测反馈迅速补充了架构、竞品、上下文流转和用户验证文档。
项目当前最需要解决的问题是：
Agent化改造：增加agent.yaml、意图路由、结构化输出契约、自动评测，让项目从"前端展示"升级为"可验证的Agent"。
真实数据源接入：至少接入一个开放文献API，验证AI在真实数据下的表现。
上下文流转工程化：实现项目上下文的持久化和Skill间的数据传递。
如果能在下一轮迭代中完成上述改造，该项目在科研辅助赛道的竞争力将显著提升。

评测基于完整仓库文件：README.md、spec.md、10个Skill契约、4份设计文档、vite.config.ts、src/App.tsx（55KB核心代码）等。 1. 项目理解本项目是一个面向科研人员（研究生、博士后、青年科研人员）的AI端到端科研一体化平台，品牌名为 ResearchFlow AI。核心主张是：将科研工作的10个连续环节（项目建档→文献查询→论文解析→信息汇总→课题选择→方案设计→数据分析→结果解读→论文写作→期刊选择）串联成同一个项目工作流，通过AI辅助减少重复整理成本。项目当前为前端mock原型，使用React+TypeScript+Vite+Ant Design构建，所有展示数据（文献列表、研究问题、期刊候选等）均为硬编码。右下角AI Chat已接入智谱GLM API，通过Vite自定义插件将skills/目录下的10个SKILL.md动态注入为系统prompt。 2. 项目亮点 2.1 端到端科研工作流设计非常完整项目覆盖了科研全流程的10个阶段，每个阶段都有独立的UI界面、mock数据和交互逻辑：项目建档：表单收集研究方向、用户类型、目标、已有材料，AI判断当前阶段并推荐下一步。文献查询：8篇mock文献（肿瘤免疫治疗方向），含优先级、推荐理由、研究空白。论文解析：左侧论文列表 + 右侧结构化解析（研究问题、方法、数据、结论、创新点、局限性）。信息汇总：5个主题分类（预测标志物、耐药机制、临床转化、模型报告规范、可解释AI），含争议点和研究空白。课题选择：5个候选研究问题，含创新性/可行性评分、风险、数据需求、验证方式。方案设计：研究目标、假设、设计、变量、分析方法、时间规划（Timeline）。数据分析：6步分析计划（字段理解→清洗→探索→主分析→稳健性→解释）。结果解读：mock模型结果（AUC=0.81）+ 6条解释建议。论文写作：大纲、摘要、讨论、修改建议4个Tab。期刊选择：6个候选期刊，含匹配度进度条、定位标签、推荐理由、风险、来源。评测验证：4个指标卡片 + 6项可靠性检查清单。这种全流程覆盖在同类科研辅助工具中非常罕见，产品价值呈现清晰。 2.2 Skill Prompt设计规范且统一 10个SKILL.md文件（research-project-intake、literature-query、paper-reading、literature-synthesis、research-question-generation、research-design、data-analysis-advisor、result-interpretation、paper-writing、journal-selection）均采用统一结构：目标（Purpose）工作流程（Workflow）输出格式（Output Format，Markdown模板化）可靠性要求（Reliability Requirements）每个Skill都强调：不编造引用、标注不确定性、保留人工确认、区分事实与推测。这种可靠性护栏前置的设计值得肯定。 2.3 AI Chat接入设计巧妙 vite.config.ts中实现了自定义Vite插件glmChatPlugin：开发服务器拦截/api/ai/chat请求，代理到智谱GLM API。动态读取skills/目录下所有SKILL.md文件，拼接为系统prompt注入GLM对话。支持模型选择（glm-4.7/glm-4-flash/glm-4-plus）、流式响应、错误处理。这种"前端零依赖接入LLM"的设计在原型阶段非常实用，且避免了API Key泄露风险。 2.4 竞品分析清晰 docs/competitor-analysis.md对比了Elicit、Consensus、SciSpace、Zotero、Paperpal等6类工具，明确提出了3个差异化假设：端到端上下文串联（vs 单点工具复制粘贴）面向科研训练而不只是结果生成可靠性护栏前置分析客观、有依据，不是空泛的"我们更好"。 2.5 用户验证计划具体可执行 docs/user-validation-plan.md定义了： 3~5名测试对象（硕士生/博士生/博士后） 8步测试任务 + 观察点定量指标（完成率、1~5分评分）+ 定性反馈对照方式（传统方式 vs ResearchFlow AI）成功标准（80%理解率、4/5有用性评分、2名愿意继续试用）这是本次评测中见过的最具体的用户验证计划之一。 3. 当前不足 3.1 缺少Agent化改造（核心问题）当前项目本质上是一个带AI Chat的前端展示原型，而非"Agent"。具体表现为：没有agent.yaml：缺少Agent清单、入口命令、Skills与评测标准的统一定义。没有意图路由：用户输入如何匹配到具体Skill没有明确机制。AI Chat只是把所有Skill prompt一次性塞给GLM，由GLM自由理解，没有parseIntent → runSkill的确定性路由。没有结构化输出契约：GLM输出是纯文本Markdown，没有AgentResponse（answer/actions/widgets/references）的schema约束，前端无法对AI输出做结构化解析和验证。没有审计链：缺少从intent到action的6步审计日志，无法重建AI执行链。没有自动评测：缺少eval.mjs或类似脚本，无法自动验证"查看文献→解析论文→汇总信息→生成课题"的端到端链路。建议：参考工业数字孪生赛道中Agent的设计模式（如agent.yaml + skill-router + contracts.mjs + audit.mjs），将当前"前端展示+AI Chat"升级为"Agent驱动的科研工作流"。 3.2 纯Mock数据，无真实数据源接入所有展示数据均为硬编码： literatureData：8篇文献的标题、年份、来源、关键词、样本、方法、结果全部写死。 researchQuestions：5个候选问题的创新性/可行性评分是固定数字（86、78等）。 synthesisRows、journalRows、analysisPlanRows等全部是静态数组。这意味着：用户无法输入自己的研究方向并获取真实文献。无法验证"语义检索"vs"关键词检索"vs"研究空白"三种模式的差异（点击后数据不变）。无法验证AI Chat在真实科研场景下的表现（因为系统prompt中的Skill只是指导GLM如何回答，没有真实数据支撑）。建议：至少接入一个开放文献API（如Semantic Scholar、PubMed E-utilities、arXiv API）做真实检索演示，或声明当前为"UI原型+Prompt设计验证"阶段。 3.3 上下文流转未真正实现 docs/context-flow.md设计了完整的ResearchProjectContext对象和Skill间的输入输出关系，但src/App.tsx中：各stage之间没有数据传递（如文献查询的结果不会自动流入论文解析，论文解析的结果不会自动流入信息汇总）。用户在一个stage的操作（如选择某篇论文、选择某个课题）不会自动影响下游stage的展示。所有stage切换只是React state的activeStage变化，没有项目上下文的持久化。建议：在agent化改造时，实现ResearchProjectContext的内存存储（或localStorage），让下游Skill能消费上游的输出。 3.4 Skill契约缺少技术深度相比工业数字孪生赛道中规范的Skill设计（如locate-asset的Output Contract、Failure Modes、Evals），本项目的Skill更偏向prompt模板，缺少：明确的Input/Output JSON Schema。 Failure Modes（如文献检索失败、PDF解析失败、GLM API超时时的降级策略）。 Evals验收条件（如"生成5个候选问题"的自动验证）。分层设计（first-layer deterministic vs second-layer LLM-assisted）。建议：为每个Skill补充Output Contract（期望的JSON/Markdown结构）、Failure Modes和至少1个Eval用例。 3.5 可靠性护栏尚未工程化虽然所有Skill都声明了"不编造引用"、"标注不确定性"，但：前端代码中没有对GLM输出做引用校验（如DOI格式检查、PMID存在性验证）。没有Limited Evidence降级状态（当检索不到文献时，系统不会明确告知"证据不足"）。没有人工确认节点的工程化实现（如关键结论必须点击"确认"后才能进入下游）。建议：增加GLM输出的后处理层（post-processing），对引用、数据、结论做格式校验和可信度评分。 3.6 缺少明确的评测可验证性 spec.md中定义了5个评测维度（任务完成、输出质量、效率、体验、可靠性），但：没有自动化评测脚本。没有Golden Prompt覆盖核心场景。没有固定输入→预期输出的映射表。这使得评审方难以快速验证"输入'如何提高肿瘤免疫治疗响应率'，系统是否真的能输出符合科研要求的文献列表和研究方案"。建议：增加eval/目录，包含至少5~8个端到端测试用例（如"输入研究方向X，期望输出包含Y篇文献的列表和Z个候选问题"）。 4. 建议补充的内容表格优先级建议说明 P0 增加agent.yaml 定义Agent清单、入口命令、Skills、评测标准和约束条件。 P0 实现意图路由层将用户输入解析为具体intent，再调用对应Skill，而非一次性注入所有prompt。 P0 补充结构化输出契约为每个Skill定义JSON/Markdown输出schema，前端做解析和验证。 P1 接入至少一个真实文献API Semantic Scholar、PubMed、arXiv均可，用于验证文献检索和解析的真实表现。 P1 增加自动评测脚本覆盖核心场景的固定输入→预期输出测试，包含通过/失败断言。 P1 工程化上下文流转实现ResearchProjectContext的内存存储，让下游Skill消费上游输出。 P2 增加Failure Modes 为每个Skill补充失败场景（API超时、检索为空、解析失败）的降级策略。 P2 补充Evals验收条件每个Skill至少1个可自动验证的Eval用例。 P2 增加审计日志记录用户输入→intent→Skill调用→GLM请求→输出的完整链路。 5. 总体结论这是一个产品价值清晰、工作流设计完整的项目，但当前阶段更偏向"AI辅助科研的UI原型和Prompt设计验证"，而非"可评测的Agent"。项目最大的优势在于：全流程覆盖：从项目建档到期刊选择的10个环节全部有UI和Prompt设计，这在科研辅助领域非常罕见。可靠性意识强：从Skill设计阶段就强调不编造引用、标注不确定性、保留人工确认。迭代响应快：根据交叉评测反馈迅速补充了架构、竞品、上下文流转和用户验证文档。项目当前最需要解决的问题是： Agent化改造：增加agent.yaml、意图路由、结构化输出契约、自动评测，让项目从"前端展示"升级为"可验证的Agent"。真实数据源接入：至少接入一个开放文献API，验证AI在真实数据下的表现。上下文流转工程化：实现项目上下文的持久化和Skill间的数据传递。如果能在下一轮迭代中完成上述改造，该项目在科研辅助赛道的竞争力将显著提升。

JunjieCai commented

2026-05-25 20:02:47 +08:00

Owner

感谢评审反馈，关于项目当前更偏“前端 mock 原型 + Skill Prompt + GLM Chat”，而非
可评测 Agent 的问题，我们已完成一轮 Agent 化改造：新增 agent.yaml 统一声明
Agent 入口、Skill 清单、契约、路由、审计和评测；实现确定性 intent 到 Skill 的路
由层，避免一次性注入全部 Skill prompt；补充 AgentResponse、
ResearchProjectContext 以及每个 Skill 的 Output Contract、Failure Modes 和 Eval
期望；Chat 请求现在会携带项目上下文、只注入命中的 Skill，并写入审计日志。同时，
文献查询模块新增 Semantic Scholar 真实题录检索入口，用于缓解纯 mock 数据问题；
并新增 npm run eval 覆盖核心路由、阶段回退和契约字段检查。当前仍保留“真实题录需
人工核验”的可靠性边界，后续会继续补充 GLM 输出后处理、引用校验和人工确认节点。

> 感谢评审反馈，关于项目当前更偏“前端 mock 原型 + Skill Prompt + GLM Chat”，而非 > 可评测 Agent 的问题，我们已完成一轮 Agent 化改造：新增 agent.yaml 统一声明 > Agent 入口、Skill 清单、契约、路由、审计和评测；实现确定性 intent 到 Skill 的路 > 由层，避免一次性注入全部 Skill prompt；补充 AgentResponse、 > ResearchProjectContext 以及每个 Skill 的 Output Contract、Failure Modes 和 Eval > 期望；Chat 请求现在会携带项目上下文、只注入命中的 Skill，并写入审计日志。同时， > 文献查询模块新增 Semantic Scholar 真实题录检索入口，用于缓解纯 mock 数据问题； > 并新增 npm run eval 覆盖核心路由、阶段回退和契约字段检查。当前仍保留“真实题录需 > 人工核验”的可靠性边界，后续会继续补充 GLM 输出后处理、引用校验和人工确认节点。

No labels

No milestone

No project

No assignees

2 participants

Notifications

Due date

The due date is invalid or out of range. Please use the format "yyyy-mm-dd".

No due date set.

Dependencies

No dependencies set.

Reference

JunjieCai/scienith-research-booster-w3#1

No description provided.

Rows
Columns