[S1W2 交叉评测] 企业研报智能体-W2 项目反馈 #8

Open
opened 2026-05-16 23:20:25 +08:00 by jackeyun · 0 comments

【S1W2 交叉评测】企业研报智能体 项目评测

1. 项目理解

该项目旨在构建一个 面向企业研究报告分析场景的智能体系统(Enterprise Research Report Agent V2.0)。核心能力围绕企业研报、年报、财报等 PDF 文档的智能分析展开,技术栈为 React + FastAPI + SQLite + Milvus + LangChain + LangGraph。

项目的核心业务闭环是:用户上传企业研报 PDF → 系统自动解析/切分/Embedding入库 → 用户通过智能问答、自动报告生成、企业能力评分三种方式消费分析结果 → 系统保留完整证据引用和操作历史。

赛道要求(W2 Prototype)的核心是「跑通核心功能的功能闭环」。该项目已实现的功能闭环包括:

  • 多知识库管理的完整 CRUD
  • PDF 上传→解析→向量入库的完整数据管道
  • 基于 RAG 的智能问答(含多轮会话)
  • 自动化投研报告生成(Markdown + PDF 导出)
  • LangGraph 编排的六维度企业能力评分
  • 联网调研智能体(DuckDuckGo)
  • 专业前端控制台(左侧知识库/中间工作区/右侧历史栏)

2. 项目优点

2.1 完整的端到端可运行原型

这是三个评测项目中实现度最高的一个。不是停留在策略文档或前端 mock,而是有完整的 Python 后端代码(FastAPI API、LangGraph 工作流编排、SQLite 持久化、Milvus 向量检索),配有 docker-compose.yml(一键启动 Milvus)、environment.yml(conda 环境)、pytest 测试套件(覆盖 API、PDF解析、问答、报告、评分、联网调研等模块),还有 React 前端(Ant Design 控制台)。README 中的安装和运行说明详细完整,评审者可以按照步骤实际运行整个系统。

2.2 LangGraph 工作流编排实现精良

agent_graph.py 中定义了清晰的六节点工作流:validate_scope → load_memory → retrieve_evidence → web_research → generate → persist_result。代码中内置了 LangGraph 缺失时的降级实现(自定义 StateGraph),体现了良好的工程健壮性。评分 Agent 更是将六维度评分(财务健康、成长韧性、竞争壁垒、创新能力、治理风险、外部舆情)用独立的 LangGraph 工作流实现,每个维度有独立的检索和生成逻辑。

2.3 多层次降级策略,演示友好

项目设计了精心的降级机制:LLM API Key 缺失时走 mock 模式;HuggingFace 模型下载超时时可降级到 hash embedding;联网调研失败时自动降级为空结果不影响主流程。这使得系统在任何环境下至少可以完成演示。

2.4 证据引用链路设计规范

系统区分内部知识库证据([1][2])和联网资料([W1][W2]),报告生成时内部文档证据优先、联网资料只做补充。证据输出包含文档名、页码、章节、quote 和 score。这是一套可追溯的引用体系。

2.5 测试覆盖相对完整

pytest 测试套件覆盖了 PDF 上传与问答、报告生成与导出、知识库 CRUD、多文档检索、联网调研注入等核心链路。测试使用 hash embedding 和 mock LLM,不依赖外部服务即可运行。

2.6 丰富的企业评分维度设计

企业能力评分从财务健康、成长韧性、竞争壁垒、创新能力、治理风险、外部舆情六个维度综合评估,每个维度有独立权重、检索式、关联财务指标,最终输出总分和维度分。这是一个结构化程度很高的分析模型。


3. 当前问题

3.1 Skills 提交格式需补充

赛事要求「提交 Specs 中关键技能或工作流(Skills)」。项目 skills/frontend-design/ 是引用的 anthropics/skills 的前端设计技能,并非本项目自己定义的 Skills。项目缺少面向龙虾/Hermes 等 Agent 平台的 SKILL.md 入口文件(类似医势推演项目的格式),当前的 Agent 能力嵌入在 Python 代码中,不是独立的 Skills 文件格式。

3.2 缺少真实的输出样例或 Demo

虽然项目说明中提到了 show/ 目录下的截图(文件预览、问答、报告、评分),但 zip 包中并未包含这些截图文件。评审者无法直观看到系统运行后的实际效果。建议至少提供 2-3 个完整的报告输出样例。

3.3 表格抽取能力有限

项目说明中坦诚当前表格抽取「依赖 PDF 原始版式,扫描件或复杂跨页表格仍可能需要 OCR」,且未实现 Hybrid Search 和 Reranker。对于企业研报这种表格密集型文档,这是核心能力短板。

3.4 企业评分缺少行业基准对比

当前企业能力评分是绝对评分,缺少同行业基准对比。例如某公司净利率 15%,在消费行业可能偏低但在制造业可能偏高——没有行业 context 的评分可能误导判断。建议加入行业分位数对比。

3.5 联网调研的质量控制不足

联网调研依赖 DuckDuckGo HTML 搜索,结果质量受搜索引擎返回影响较大。当前实现缺少对联网资料来源的可靠性分级(官方公告 vs 媒体报道 vs 论坛帖子),也没有对过时信息的时效性检查。

3.6 缺少 Specs 或项目提案文档

虽然 README.md 和 企业研报智能体项目说明.md 写得非常详细,但缺少一份正式的比赛 Specs 文档(对标 Scienith 的 spec.md 或类似的项目提案)。赛事要求评测时对照 Specs 中的评测标准——该项目没有显式定义可验证的评测标准。


4. 建议

4.1【高优先】补充 SKILL.md 入口文件

参照比赛要求,在项目根目录创建 SKILL.md,定义触发词、工作流、输入输出契约,使项目可以作为 Agent Skill 被龙虾等 AI Agent 调用。Agent 可以从 SKILL.md 了解何时触发、如何路由、输入输出规范。

4.2【高优先】补充 Specs 文档

增加一份 specs.md 或 proposal.md,明确包含:目标用户、核心场景、AI 在哪里发挥作用、可验证的评测标准(任务完成率、输出质量、效率提升指标)、风险与应对。这既是比赛要求,也有助于评审者理解项目定位。

4.3 补充 Demo 输出样例

在项目中加入 examples/ 目录,包含至少 2 个完整的报告输出样例(Markdown 格式 + PDF 截图),展示不同企业(如制造业/金融业)的分析报告效果。

4.4 完善 AI 在项目中的角色说明

虽然 README 中提到 AI 用于「语义检索、智能问答、报告生成」,但没有像 Scienith 项目那样逐模块阐述 AI 如何发挥作用、与普通工具的区别。建议在 Specs 中专门增加一个章节说明。

4.5 增加 Skills 间的上下文流转设计

当前问答、报告、评分三个功能相对独立(虽然共享知识库),缺少类似 Scienith 的「项目上下文→文献查询→论文解析→信息汇总→课题选择」这样的端到端流转设计。建议为多步骤的企业分析场景设计一个串联工作流(如:先搜索行业背景→再上传财报→做财务评分→对比同行→生成综合报告)。


5. 综合评价

从当前材料来看,该项目:

  • 已实现完整可运行的端到端原型(后端+前端+测试+Docker)
  • 技术栈成熟、工程实现扎实(LangGraph 编排、降级策略、证据引用)
  • ⚠️ 缺少面向 Agent 平台的 SKILL.md 和比赛 Specs 文档
  • ⚠️ 缺少 Demo 输出样例
  • ⚠️ 表格抽取、行业基准对比等核心能力有提升空间

这是一个在「工程实现」维度上最成熟的项目——评审者可以实际安装运行并验证核心功能闭环。建议重点补充 Specs/SKILL.md 文档和 Demo 样例,让项目在「比赛规范符合度」上也同样出色。


评测人:jackeyun
评测时间:2026年5月
评测依据:赛事说明 S1W2 复赛标准 / SynNovator交叉评测指南

# 【S1W2 交叉评测】企业研报智能体 项目评测 ## 1. 项目理解 该项目旨在构建一个 **面向企业研究报告分析场景的智能体系统**(Enterprise Research Report Agent V2.0)。核心能力围绕企业研报、年报、财报等 PDF 文档的智能分析展开,技术栈为 React + FastAPI + SQLite + Milvus + LangChain + LangGraph。 项目的核心业务闭环是:用户上传企业研报 PDF → 系统自动解析/切分/Embedding入库 → 用户通过智能问答、自动报告生成、企业能力评分三种方式消费分析结果 → 系统保留完整证据引用和操作历史。 赛道要求(W2 Prototype)的核心是「跑通核心功能的功能闭环」。该项目已实现的功能闭环包括: - 多知识库管理的完整 CRUD - PDF 上传→解析→向量入库的完整数据管道 - 基于 RAG 的智能问答(含多轮会话) - 自动化投研报告生成(Markdown + PDF 导出) - LangGraph 编排的六维度企业能力评分 - 联网调研智能体(DuckDuckGo) - 专业前端控制台(左侧知识库/中间工作区/右侧历史栏) --- ## 2. 项目优点 **2.1 完整的端到端可运行原型** 这是三个评测项目中实现度最高的一个。不是停留在策略文档或前端 mock,而是有完整的 Python 后端代码(FastAPI API、LangGraph 工作流编排、SQLite 持久化、Milvus 向量检索),配有 docker-compose.yml(一键启动 Milvus)、environment.yml(conda 环境)、pytest 测试套件(覆盖 API、PDF解析、问答、报告、评分、联网调研等模块),还有 React 前端(Ant Design 控制台)。README 中的安装和运行说明详细完整,评审者可以按照步骤实际运行整个系统。 **2.2 LangGraph 工作流编排实现精良** `agent_graph.py` 中定义了清晰的六节点工作流:`validate_scope → load_memory → retrieve_evidence → web_research → generate → persist_result`。代码中内置了 LangGraph 缺失时的降级实现(自定义 StateGraph),体现了良好的工程健壮性。评分 Agent 更是将六维度评分(财务健康、成长韧性、竞争壁垒、创新能力、治理风险、外部舆情)用独立的 LangGraph 工作流实现,每个维度有独立的检索和生成逻辑。 **2.3 多层次降级策略,演示友好** 项目设计了精心的降级机制:LLM API Key 缺失时走 mock 模式;HuggingFace 模型下载超时时可降级到 hash embedding;联网调研失败时自动降级为空结果不影响主流程。这使得系统在任何环境下至少可以完成演示。 **2.4 证据引用链路设计规范** 系统区分内部知识库证据(`[1]`、`[2]`)和联网资料(`[W1]`、`[W2]`),报告生成时内部文档证据优先、联网资料只做补充。证据输出包含文档名、页码、章节、quote 和 score。这是一套可追溯的引用体系。 **2.5 测试覆盖相对完整** pytest 测试套件覆盖了 PDF 上传与问答、报告生成与导出、知识库 CRUD、多文档检索、联网调研注入等核心链路。测试使用 hash embedding 和 mock LLM,不依赖外部服务即可运行。 **2.6 丰富的企业评分维度设计** 企业能力评分从财务健康、成长韧性、竞争壁垒、创新能力、治理风险、外部舆情六个维度综合评估,每个维度有独立权重、检索式、关联财务指标,最终输出总分和维度分。这是一个结构化程度很高的分析模型。 --- ## 3. 当前问题 **3.1 Skills 提交格式需补充** 赛事要求「提交 Specs 中关键技能或工作流(Skills)」。项目 `skills/frontend-design/` 是引用的 anthropics/skills 的前端设计技能,并非本项目自己定义的 Skills。项目缺少面向龙虾/Hermes 等 Agent 平台的 SKILL.md 入口文件(类似医势推演项目的格式),当前的 Agent 能力嵌入在 Python 代码中,不是独立的 Skills 文件格式。 **3.2 缺少真实的输出样例或 Demo** 虽然项目说明中提到了 show/ 目录下的截图(文件预览、问答、报告、评分),但 zip 包中并未包含这些截图文件。评审者无法直观看到系统运行后的实际效果。建议至少提供 2-3 个完整的报告输出样例。 **3.3 表格抽取能力有限** 项目说明中坦诚当前表格抽取「依赖 PDF 原始版式,扫描件或复杂跨页表格仍可能需要 OCR」,且未实现 Hybrid Search 和 Reranker。对于企业研报这种表格密集型文档,这是核心能力短板。 **3.4 企业评分缺少行业基准对比** 当前企业能力评分是绝对评分,缺少同行业基准对比。例如某公司净利率 15%,在消费行业可能偏低但在制造业可能偏高——没有行业 context 的评分可能误导判断。建议加入行业分位数对比。 **3.5 联网调研的质量控制不足** 联网调研依赖 DuckDuckGo HTML 搜索,结果质量受搜索引擎返回影响较大。当前实现缺少对联网资料来源的可靠性分级(官方公告 vs 媒体报道 vs 论坛帖子),也没有对过时信息的时效性检查。 **3.6 缺少 Specs 或项目提案文档** 虽然 README.md 和 企业研报智能体项目说明.md 写得非常详细,但缺少一份正式的比赛 Specs 文档(对标 Scienith 的 spec.md 或类似的项目提案)。赛事要求评测时对照 Specs 中的评测标准——该项目没有显式定义可验证的评测标准。 --- ## 4. 建议 **4.1【高优先】补充 SKILL.md 入口文件** 参照比赛要求,在项目根目录创建 SKILL.md,定义触发词、工作流、输入输出契约,使项目可以作为 Agent Skill 被龙虾等 AI Agent 调用。Agent 可以从 SKILL.md 了解何时触发、如何路由、输入输出规范。 **4.2【高优先】补充 Specs 文档** 增加一份 specs.md 或 proposal.md,明确包含:目标用户、核心场景、AI 在哪里发挥作用、可验证的评测标准(任务完成率、输出质量、效率提升指标)、风险与应对。这既是比赛要求,也有助于评审者理解项目定位。 **4.3 补充 Demo 输出样例** 在项目中加入 examples/ 目录,包含至少 2 个完整的报告输出样例(Markdown 格式 + PDF 截图),展示不同企业(如制造业/金融业)的分析报告效果。 **4.4 完善 AI 在项目中的角色说明** 虽然 README 中提到 AI 用于「语义检索、智能问答、报告生成」,但没有像 Scienith 项目那样逐模块阐述 AI 如何发挥作用、与普通工具的区别。建议在 Specs 中专门增加一个章节说明。 **4.5 增加 Skills 间的上下文流转设计** 当前问答、报告、评分三个功能相对独立(虽然共享知识库),缺少类似 Scienith 的「项目上下文→文献查询→论文解析→信息汇总→课题选择」这样的端到端流转设计。建议为多步骤的企业分析场景设计一个串联工作流(如:先搜索行业背景→再上传财报→做财务评分→对比同行→生成综合报告)。 --- ## 5. 综合评价 从当前材料来看,该项目: - ✅ 已实现完整可运行的端到端原型(后端+前端+测试+Docker) - ✅ 技术栈成熟、工程实现扎实(LangGraph 编排、降级策略、证据引用) - ⚠️ 缺少面向 Agent 平台的 SKILL.md 和比赛 Specs 文档 - ⚠️ 缺少 Demo 输出样例 - ⚠️ 表格抽取、行业基准对比等核心能力有提升空间 **这是一个在「工程实现」维度上最成熟的项目**——评审者可以实际安装运行并验证核心功能闭环。建议重点补充 Specs/SKILL.md 文档和 Demo 样例,让项目在「比赛规范符合度」上也同样出色。 --- *评测人:jackeyun* *评测时间:2026年5月* *评测依据:赛事说明 S1W2 复赛标准 / SynNovator交叉评测指南*
Sign in to join this conversation.
No labels
No milestone
No project
No assignees
1 participant
Notifications
Due date
The due date is invalid or out of range. Please use the format "yyyy-mm-dd".

No due date set.

Dependencies

No dependencies set.

Reference
Z2wen1tao_31/S1W2-Enterprise-Research-Report-Agent#8
No description provided.