数据是实证研究的地基。 再精巧的识别策略,如果数据质量有问题,结论就不可信。AI Agent 可以帮你加速数据清洗、变量构造和探索性分析,但数据来源的可靠性和变量定义的合理性,仍然需要你自己判断。
| 属性 | 说明 |
|---|---|
| 来源 | Anthropic 官方 Skills |
| 功能 | 电子表格创建、编辑、分析,支持公式、格式化、数据分析和可视化 |
| 适用 | 数据预处理、描述性统计表格生成、数据验证 |
| 属性 | 说明 |
|---|---|
| 来源 | Anthropic Knowledge Work Plugins |
| 功能 | SQL 查询、数据探索、可视化、仪表盘、洞察生成 |
| 特色 | Anthropic 官方出品,直接对数据库执行查询和分析 |
| 属性 | 说明 |
|---|---|
| 来源 | ruc-datalab/DeepAnalyze(中国人民大学) |
| 功能 | 从原始数据到专业分析报告的全自主 Agent |
| 支持格式 | CSV、Excel、JSON、XML、数据库 |
| 工作流 | 数据导入 → 自动清洗 → 探索性分析 → 建模 → 可视化 → 报告生成 |
| 特色 | 开源模型 DeepAnalyze-8B,有 WebUI + Docker 沙箱,中文文档 |
| 属性 | 说明 |
|---|---|
| 来源 | business-science/ai-data-science-team |
| 功能 | Supervisor 领导的多代理数据科学团队 |
| 代理 | EDA Agent(探索性分析)+ SQL Agent(数据查询)+ Data Loader Agent(数据导入)+ MLflow Agent(模型管理) |
| 特色 | LangChain 集成,沙箱代码执行 |
| 属性 | 说明 |
|---|---|
| 来源 | HungHsunHan/claude-code-data-science-team |
| 功能 | Claude Code 多代理系统,模拟真实数据科学团队 |
| 工作流 | 数据清洗 → 特征工程 → 建模 → 生成可执行 Notebook + 分析报告 |
| 属性 | 说明 |
|---|---|
| 来源 | yfe404/web-scraper |
| 功能 | 智能网页采集 Claude Code Skill,自动策略选择,TypeScript-first Apify Actor 开发 |
| 适用 | 网络数据采集、构建研究数据集 |
| 属性 | 说明 |
|---|---|
| 来源 | lzinga/us-gov-open-data-mcp |
| 功能 | 40+ 美国政府数据 API、250+ 工具:Treasury、FRED、Congress、FDA、CDC、FEC、BLS、Census 等 |
| 特色 | 跨库交叉引用(查药物自动拉 FDA 不良事件 + 临床试验 + 游说支出 + 国会活动),18 个 API 无需密钥 |
| 兼容 | VS Code Copilot、Claude Desktop、Cursor |
| 属性 | 说明 |
|---|---|
| 来源 | stefanoamorelli/fred-mcp-server |
| 功能 | 访问全部 80 万+ FRED 时间序列,支持日期过滤 |
| 属性 | 说明 |
|---|---|
| 来源 | llnOrmll/world-bank-data-mcp |
| 功能 | 访问世界银行 Data360,1000+ 经济社会指标、200+ 国家 |
| 属性 | 说明 |
|---|---|
| 来源 | anshumax/world_bank_mcp_server |
| 功能 | 世界银行开放数据 API 的 MCP 实现 |
| 属性 | 说明 |
|---|---|
| 来源 | datagouv/datagouv-mcp |
| 功能 | 法国国家开放数据平台 data.gouv.fr 的 MCP 服务器,支持自然语言查询 |
Agent Skills 加速了探索过程,但核心数据处理仍然依赖这些工具:
| 工具 | 适用场景 | 关键命令/包 |
|---|---|---|
| Stata | 结构化数据合并与变形 | merge, reshape, collapse, encode |
| Python | 大规模数据清洗与变换 | pandas, polars(更快) |
| R | 管道式数据处理 | tidyverse(dplyr + tidyr) |
| OpenRefine | 可视化数据清洗(无需编程) | GUI 操作 |
| SQL | 数据库查询与预处理 | 直接查询 |
| 数据源 | 说明 | 获取方式 |
|---|---|---|
| FRED | 美联储圣路易斯分行,超 80 万个时间序列 | fred.stlouisfed.org,有 Python API |
| 世界银行开放数据 | 200+ 国家的经济、人口、发展指标 | data.worldbank.org |
| IMF | 国际货币基金组织数据库 | data.imf.org |
| OECD.Stat | 经合组织统计数据库 | stats.oecd.org |
| Our World in Data | 全球问题研究数据(贫困、能源、气候) | ourworldindata.org |
| 国家统计局 | 中国统计年鉴、宏观经济月度数据 | stats.gov.cn |
| 数据源 | 说明 | 适用领域 |
|---|---|---|
| NLSY | 美国青年纵向调查 | 劳动经济学、教育经济学 |
| HRS | 健康与退休研究,追踪约 2 万人 | 健康经济学、养老 |
| CFPS | 中国家庭追踪调查(北大主持) | 中国家庭经济行为 |
| CGSS | 中国综合社会调查 | 社会学、社会分层 |
| CHARLS | 中国健康与养老追踪调查 | 老龄化、健康 |
| CHIP | 中国住户收入调查 | 收入分配、贫困 |
| CHFS | 中国家庭金融调查 | 家庭金融、财富 |
| 平台 | 特色 |
|---|---|
| NBER 数据档案 | 经济学工作论文配套数据集 |
| ICPSR | 密歇根大学社科数据中心 |
| Google Dataset Search | 跨平台数据集搜索引擎 |
| 马克数据网 | 社科数据共享平台,年下载量超 10 万次 |
| Wind / CSMAR | 中国金融经济数据库(付费) |
| Data.gov | 美国政府中央开放数据门户 |
- 先做 EDA 再跑模型:用
DeepAnalyze或ai-data-science-team的 EDA Agent 快速了解数据分布、缺失值、异常值,比自己写代码探索快得多 - 数据清洗要留痕:所有数据处理步骤都应该用代码实现(不要手动改 Excel),配合 Git 版本控制
- 面板数据注意平衡性:用 Skill 跑 DID 前,先检查你的面板是否平衡、是否有 attrition 问题