Z2wen1tao_31/S1W2-Enterprise-Research-Report-Agent

Fork 0

[S1W2 交叉评测] 企业研报智能体-W2 项目反馈 #8

New issue

Open

opened 2026-05-16 23:20:25 +08:00 by jackeyun · 0 comments

jackeyun commented

2026-05-16 23:20:25 +08:00

【S1W2 交叉评测】企业研报智能体项目评测

1. 项目理解

该项目旨在构建一个 面向企业研究报告分析场景的智能体系统（Enterprise Research Report Agent V2.0）。核心能力围绕企业研报、年报、财报等 PDF 文档的智能分析展开，技术栈为 React + FastAPI + SQLite + Milvus + LangChain + LangGraph。

项目的核心业务闭环是：用户上传企业研报 PDF → 系统自动解析/切分/Embedding入库 → 用户通过智能问答、自动报告生成、企业能力评分三种方式消费分析结果 → 系统保留完整证据引用和操作历史。

赛道要求（W2 Prototype）的核心是「跑通核心功能的功能闭环」。该项目已实现的功能闭环包括：

多知识库管理的完整 CRUD
PDF 上传→解析→向量入库的完整数据管道
基于 RAG 的智能问答（含多轮会话）
自动化投研报告生成（Markdown + PDF 导出）
LangGraph 编排的六维度企业能力评分
联网调研智能体（DuckDuckGo）
专业前端控制台（左侧知识库/中间工作区/右侧历史栏）

2. 项目优点

2.1 完整的端到端可运行原型

这是三个评测项目中实现度最高的一个。不是停留在策略文档或前端 mock，而是有完整的 Python 后端代码（FastAPI API、LangGraph 工作流编排、SQLite 持久化、Milvus 向量检索），配有 docker-compose.yml（一键启动 Milvus）、environment.yml（conda 环境）、pytest 测试套件（覆盖 API、PDF解析、问答、报告、评分、联网调研等模块），还有 React 前端（Ant Design 控制台）。README 中的安装和运行说明详细完整，评审者可以按照步骤实际运行整个系统。

2.2 LangGraph 工作流编排实现精良

agent_graph.py 中定义了清晰的六节点工作流：validate_scope → load_memory → retrieve_evidence → web_research → generate → persist_result。代码中内置了 LangGraph 缺失时的降级实现（自定义 StateGraph），体现了良好的工程健壮性。评分 Agent 更是将六维度评分（财务健康、成长韧性、竞争壁垒、创新能力、治理风险、外部舆情）用独立的 LangGraph 工作流实现，每个维度有独立的检索和生成逻辑。

2.3 多层次降级策略，演示友好

项目设计了精心的降级机制：LLM API Key 缺失时走 mock 模式；HuggingFace 模型下载超时时可降级到 hash embedding；联网调研失败时自动降级为空结果不影响主流程。这使得系统在任何环境下至少可以完成演示。

2.4 证据引用链路设计规范

系统区分内部知识库证据（[1]、[2]）和联网资料（[W1]、[W2]），报告生成时内部文档证据优先、联网资料只做补充。证据输出包含文档名、页码、章节、quote 和 score。这是一套可追溯的引用体系。

2.5 测试覆盖相对完整

pytest 测试套件覆盖了 PDF 上传与问答、报告生成与导出、知识库 CRUD、多文档检索、联网调研注入等核心链路。测试使用 hash embedding 和 mock LLM，不依赖外部服务即可运行。

2.6 丰富的企业评分维度设计

企业能力评分从财务健康、成长韧性、竞争壁垒、创新能力、治理风险、外部舆情六个维度综合评估，每个维度有独立权重、检索式、关联财务指标，最终输出总分和维度分。这是一个结构化程度很高的分析模型。

3. 当前问题

3.1 Skills 提交格式需补充

赛事要求「提交 Specs 中关键技能或工作流（Skills）」。项目 skills/frontend-design/ 是引用的 anthropics/skills 的前端设计技能，并非本项目自己定义的 Skills。项目缺少面向龙虾/Hermes 等 Agent 平台的 SKILL.md 入口文件（类似医势推演项目的格式），当前的 Agent 能力嵌入在 Python 代码中，不是独立的 Skills 文件格式。

3.2 缺少真实的输出样例或 Demo

虽然项目说明中提到了 show/ 目录下的截图（文件预览、问答、报告、评分），但 zip 包中并未包含这些截图文件。评审者无法直观看到系统运行后的实际效果。建议至少提供 2-3 个完整的报告输出样例。

3.3 表格抽取能力有限

项目说明中坦诚当前表格抽取「依赖 PDF 原始版式，扫描件或复杂跨页表格仍可能需要 OCR」，且未实现 Hybrid Search 和 Reranker。对于企业研报这种表格密集型文档，这是核心能力短板。

3.4 企业评分缺少行业基准对比

当前企业能力评分是绝对评分，缺少同行业基准对比。例如某公司净利率 15%，在消费行业可能偏低但在制造业可能偏高——没有行业 context 的评分可能误导判断。建议加入行业分位数对比。

3.5 联网调研的质量控制不足

联网调研依赖 DuckDuckGo HTML 搜索，结果质量受搜索引擎返回影响较大。当前实现缺少对联网资料来源的可靠性分级（官方公告 vs 媒体报道 vs 论坛帖子），也没有对过时信息的时效性检查。

3.6 缺少 Specs 或项目提案文档

虽然 README.md 和企业研报智能体项目说明.md 写得非常详细，但缺少一份正式的比赛 Specs 文档（对标 Scienith 的 spec.md 或类似的项目提案）。赛事要求评测时对照 Specs 中的评测标准——该项目没有显式定义可验证的评测标准。

4. 建议

4.1【高优先】补充 SKILL.md 入口文件

参照比赛要求，在项目根目录创建 SKILL.md，定义触发词、工作流、输入输出契约，使项目可以作为 Agent Skill 被龙虾等 AI Agent 调用。Agent 可以从 SKILL.md 了解何时触发、如何路由、输入输出规范。

4.2【高优先】补充 Specs 文档

增加一份 specs.md 或 proposal.md，明确包含：目标用户、核心场景、AI 在哪里发挥作用、可验证的评测标准（任务完成率、输出质量、效率提升指标）、风险与应对。这既是比赛要求，也有助于评审者理解项目定位。

4.3 补充 Demo 输出样例

在项目中加入 examples/ 目录，包含至少 2 个完整的报告输出样例（Markdown 格式 + PDF 截图），展示不同企业（如制造业/金融业）的分析报告效果。

4.4 完善 AI 在项目中的角色说明

虽然 README 中提到 AI 用于「语义检索、智能问答、报告生成」，但没有像 Scienith 项目那样逐模块阐述 AI 如何发挥作用、与普通工具的区别。建议在 Specs 中专门增加一个章节说明。

4.5 增加 Skills 间的上下文流转设计

当前问答、报告、评分三个功能相对独立（虽然共享知识库），缺少类似 Scienith 的「项目上下文→文献查询→论文解析→信息汇总→课题选择」这样的端到端流转设计。建议为多步骤的企业分析场景设计一个串联工作流（如：先搜索行业背景→再上传财报→做财务评分→对比同行→生成综合报告）。

5. 综合评价

从当前材料来看，该项目：

✅ 已实现完整可运行的端到端原型（后端+前端+测试+Docker）
✅ 技术栈成熟、工程实现扎实（LangGraph 编排、降级策略、证据引用）
⚠️ 缺少面向 Agent 平台的 SKILL.md 和比赛 Specs 文档
⚠️ 缺少 Demo 输出样例
⚠️ 表格抽取、行业基准对比等核心能力有提升空间

这是一个在「工程实现」维度上最成熟的项目——评审者可以实际安装运行并验证核心功能闭环。建议重点补充 Specs/SKILL.md 文档和 Demo 样例，让项目在「比赛规范符合度」上也同样出色。

评测人：jackeyun
评测时间：2026年5月
评测依据：赛事说明 S1W2 复赛标准 / SynNovator交叉评测指南

# 【S1W2 交叉评测】企业研报智能体项目评测 ## 1. 项目理解该项目旨在构建一个 **面向企业研究报告分析场景的智能体系统**（Enterprise Research Report Agent V2.0）。核心能力围绕企业研报、年报、财报等 PDF 文档的智能分析展开，技术栈为 React + FastAPI + SQLite + Milvus + LangChain + LangGraph。项目的核心业务闭环是：用户上传企业研报 PDF → 系统自动解析/切分/Embedding入库 → 用户通过智能问答、自动报告生成、企业能力评分三种方式消费分析结果 → 系统保留完整证据引用和操作历史。赛道要求（W2 Prototype）的核心是「跑通核心功能的功能闭环」。该项目已实现的功能闭环包括： - 多知识库管理的完整 CRUD - PDF 上传→解析→向量入库的完整数据管道 - 基于 RAG 的智能问答（含多轮会话） - 自动化投研报告生成（Markdown + PDF 导出） - LangGraph 编排的六维度企业能力评分 - 联网调研智能体（DuckDuckGo） - 专业前端控制台（左侧知识库/中间工作区/右侧历史栏） --- ## 2. 项目优点 **2.1 完整的端到端可运行原型** 这是三个评测项目中实现度最高的一个。不是停留在策略文档或前端 mock，而是有完整的 Python 后端代码（FastAPI API、LangGraph 工作流编排、SQLite 持久化、Milvus 向量检索），配有 docker-compose.yml（一键启动 Milvus）、environment.yml（conda 环境）、pytest 测试套件（覆盖 API、PDF解析、问答、报告、评分、联网调研等模块），还有 React 前端（Ant Design 控制台）。README 中的安装和运行说明详细完整，评审者可以按照步骤实际运行整个系统。 **2.2 LangGraph 工作流编排实现精良** `agent_graph.py` 中定义了清晰的六节点工作流：`validate_scope → load_memory → retrieve_evidence → web_research → generate → persist_result`。代码中内置了 LangGraph 缺失时的降级实现（自定义 StateGraph），体现了良好的工程健壮性。评分 Agent 更是将六维度评分（财务健康、成长韧性、竞争壁垒、创新能力、治理风险、外部舆情）用独立的 LangGraph 工作流实现，每个维度有独立的检索和生成逻辑。 **2.3 多层次降级策略，演示友好** 项目设计了精心的降级机制：LLM API Key 缺失时走 mock 模式；HuggingFace 模型下载超时时可降级到 hash embedding；联网调研失败时自动降级为空结果不影响主流程。这使得系统在任何环境下至少可以完成演示。 **2.4 证据引用链路设计规范** 系统区分内部知识库证据（`[1]`、`[2]`）和联网资料（`[W1]`、`[W2]`），报告生成时内部文档证据优先、联网资料只做补充。证据输出包含文档名、页码、章节、quote 和 score。这是一套可追溯的引用体系。 **2.5 测试覆盖相对完整** pytest 测试套件覆盖了 PDF 上传与问答、报告生成与导出、知识库 CRUD、多文档检索、联网调研注入等核心链路。测试使用 hash embedding 和 mock LLM，不依赖外部服务即可运行。 **2.6 丰富的企业评分维度设计** 企业能力评分从财务健康、成长韧性、竞争壁垒、创新能力、治理风险、外部舆情六个维度综合评估，每个维度有独立权重、检索式、关联财务指标，最终输出总分和维度分。这是一个结构化程度很高的分析模型。 --- ## 3. 当前问题 **3.1 Skills 提交格式需补充** 赛事要求「提交 Specs 中关键技能或工作流（Skills）」。项目 `skills/frontend-design/` 是引用的 anthropics/skills 的前端设计技能，并非本项目自己定义的 Skills。项目缺少面向龙虾/Hermes 等 Agent 平台的 SKILL.md 入口文件（类似医势推演项目的格式），当前的 Agent 能力嵌入在 Python 代码中，不是独立的 Skills 文件格式。 **3.2 缺少真实的输出样例或 Demo** 虽然项目说明中提到了 show/ 目录下的截图（文件预览、问答、报告、评分），但 zip 包中并未包含这些截图文件。评审者无法直观看到系统运行后的实际效果。建议至少提供 2-3 个完整的报告输出样例。 **3.3 表格抽取能力有限** 项目说明中坦诚当前表格抽取「依赖 PDF 原始版式，扫描件或复杂跨页表格仍可能需要 OCR」，且未实现 Hybrid Search 和 Reranker。对于企业研报这种表格密集型文档，这是核心能力短板。 **3.4 企业评分缺少行业基准对比** 当前企业能力评分是绝对评分，缺少同行业基准对比。例如某公司净利率 15%，在消费行业可能偏低但在制造业可能偏高——没有行业 context 的评分可能误导判断。建议加入行业分位数对比。 **3.5 联网调研的质量控制不足** 联网调研依赖 DuckDuckGo HTML 搜索，结果质量受搜索引擎返回影响较大。当前实现缺少对联网资料来源的可靠性分级（官方公告 vs 媒体报道 vs 论坛帖子），也没有对过时信息的时效性检查。 **3.6 缺少 Specs 或项目提案文档** 虽然 README.md 和企业研报智能体项目说明.md 写得非常详细，但缺少一份正式的比赛 Specs 文档（对标 Scienith 的 spec.md 或类似的项目提案）。赛事要求评测时对照 Specs 中的评测标准——该项目没有显式定义可验证的评测标准。 --- ## 4. 建议 **4.1【高优先】补充 SKILL.md 入口文件** 参照比赛要求，在项目根目录创建 SKILL.md，定义触发词、工作流、输入输出契约，使项目可以作为 Agent Skill 被龙虾等 AI Agent 调用。Agent 可以从 SKILL.md 了解何时触发、如何路由、输入输出规范。 **4.2【高优先】补充 Specs 文档** 增加一份 specs.md 或 proposal.md，明确包含：目标用户、核心场景、AI 在哪里发挥作用、可验证的评测标准（任务完成率、输出质量、效率提升指标）、风险与应对。这既是比赛要求，也有助于评审者理解项目定位。 **4.3 补充 Demo 输出样例** 在项目中加入 examples/ 目录，包含至少 2 个完整的报告输出样例（Markdown 格式 + PDF 截图），展示不同企业（如制造业/金融业）的分析报告效果。 **4.4 完善 AI 在项目中的角色说明** 虽然 README 中提到 AI 用于「语义检索、智能问答、报告生成」，但没有像 Scienith 项目那样逐模块阐述 AI 如何发挥作用、与普通工具的区别。建议在 Specs 中专门增加一个章节说明。 **4.5 增加 Skills 间的上下文流转设计** 当前问答、报告、评分三个功能相对独立（虽然共享知识库），缺少类似 Scienith 的「项目上下文→文献查询→论文解析→信息汇总→课题选择」这样的端到端流转设计。建议为多步骤的企业分析场景设计一个串联工作流（如：先搜索行业背景→再上传财报→做财务评分→对比同行→生成综合报告）。 --- ## 5. 综合评价从当前材料来看，该项目： - ✅ 已实现完整可运行的端到端原型（后端+前端+测试+Docker） - ✅ 技术栈成熟、工程实现扎实（LangGraph 编排、降级策略、证据引用） - ⚠️ 缺少面向 Agent 平台的 SKILL.md 和比赛 Specs 文档 - ⚠️ 缺少 Demo 输出样例 - ⚠️ 表格抽取、行业基准对比等核心能力有提升空间 **这是一个在「工程实现」维度上最成熟的项目**——评审者可以实际安装运行并验证核心功能闭环。建议重点补充 Specs/SKILL.md 文档和 Demo 样例，让项目在「比赛规范符合度」上也同样出色。 --- *评测人：jackeyun* *评测时间：2026年5月* *评测依据：赛事说明 S1W2 复赛标准 / SynNovator交叉评测指南*

No labels

No milestone

No project

No assignees

1 participant

Notifications

Due date

The due date is invalid or out of range. Please use the format "yyyy-mm-dd".

No due date set.

Dependencies

No dependencies set.

Reference

Z2wen1tao_31/S1W2-Enterprise-Research-Report-Agent#8

No description provided.

Rows
Columns