167 lines (123 loc) · 7.34 KB

04 - 数据获取与清洗

数据是实证研究的地基。 再精巧的识别策略，如果数据质量有问题，结论就不可信。AI Agent 可以帮你加速数据清洗、变量构造和探索性分析，但数据来源的可靠性和变量定义的合理性，仍然需要你自己判断。

Skills 列表

xlsx（电子表格处理）

属性	说明
来源	Anthropic 官方 Skills
功能	电子表格创建、编辑、分析，支持公式、格式化、数据分析和可视化
适用	数据预处理、描述性统计表格生成、数据验证

Data Plugin（数据探索）

属性	说明
来源	Anthropic Knowledge Work Plugins
功能	SQL 查询、数据探索、可视化、仪表盘、洞察生成
特色	Anthropic 官方出品，直接对数据库执行查询和分析

DeepAnalyze（自主数据分析）

属性	说明
来源	ruc-datalab/DeepAnalyze（中国人民大学）
功能	从原始数据到专业分析报告的全自主 Agent
支持格式	CSV、Excel、JSON、XML、数据库
工作流	数据导入 → 自动清洗 → 探索性分析 → 建模 → 可视化 → 报告生成
特色	开源模型 DeepAnalyze-8B，有 WebUI + Docker 沙箱，中文文档

ai-data-science-team（多代理数据科学团队）

属性	说明
来源	business-science/ai-data-science-team
功能	Supervisor 领导的多代理数据科学团队
代理	EDA Agent（探索性分析）+ SQL Agent（数据查询）+ Data Loader Agent（数据导入）+ MLflow Agent（模型管理）
特色	LangChain 集成，沙箱代码执行

claude-code-data-science-team

属性	说明
来源	HungHsunHan/claude-code-data-science-team
功能	Claude Code 多代理系统，模拟真实数据科学团队
工作流	数据清洗 → 特征工程 → 建模 → 生成可执行 Notebook + 分析报告

web-scraper（智能网页采集）

属性	说明
来源	yfe404/web-scraper
功能	智能网页采集 Claude Code Skill，自动策略选择，TypeScript-first Apify Actor 开发
适用	网络数据采集、构建研究数据集

us-gov-open-data-mcp（美国政府开放数据 MCP）

属性	说明
来源	lzinga/us-gov-open-data-mcp
功能	40+ 美国政府数据 API、250+ 工具：Treasury、FRED、Congress、FDA、CDC、FEC、BLS、Census 等
特色	跨库交叉引用（查药物自动拉 FDA 不良事件 + 临床试验 + 游说支出 + 国会活动），18 个 API 无需密钥
兼容	VS Code Copilot、Claude Desktop、Cursor

fred-mcp-server（FRED 经济数据 MCP）

属性	说明
来源	stefanoamorelli/fred-mcp-server
功能	访问全部 80 万+ FRED 时间序列，支持日期过滤

world-bank-data-mcp（世界银行数据 MCP）

属性	说明
来源	llnOrmll/world-bank-data-mcp
功能	访问世界银行 Data360，1000+ 经济社会指标、200+ 国家

world_bank_mcp_server（世界银行开放数据 MCP）

属性	说明
来源	anshumax/world_bank_mcp_server
功能	世界银行开放数据 API 的 MCP 实现

datagouv-mcp（法国政府开放数据 MCP）

属性	说明
来源	datagouv/datagouv-mcp
功能	法国国家开放数据平台 data.gouv.fr 的 MCP 服务器，支持自然语言查询

传统数据清洗工具

Agent Skills 加速了探索过程，但核心数据处理仍然依赖这些工具：

工具	适用场景	关键命令/包
Stata	结构化数据合并与变形	`merge`, `reshape`, `collapse`, `encode`
Python	大规模数据清洗与变换	`pandas`, `polars`（更快）
R	管道式数据处理	`tidyverse`（`dplyr` + `tidyr`）
OpenRefine	可视化数据清洗（无需编程）	GUI 操作
SQL	数据库查询与预处理	直接查询

常用数据源速查

全球宏观经济数据

数据源	说明	获取方式
FRED	美联储圣路易斯分行，超 80 万个时间序列	fred.stlouisfed.org，有 Python API
世界银行开放数据	200+ 国家的经济、人口、发展指标	data.worldbank.org
IMF	国际货币基金组织数据库	data.imf.org
OECD.Stat	经合组织统计数据库	stats.oecd.org
Our World in Data	全球问题研究数据（贫困、能源、气候）	ourworldindata.org
国家统计局	中国统计年鉴、宏观经济月度数据	stats.gov.cn

微观调查与面板数据

数据源	说明	适用领域
NLSY	美国青年纵向调查	劳动经济学、教育经济学
HRS	健康与退休研究，追踪约 2 万人	健康经济学、养老
CFPS	中国家庭追踪调查（北大主持）	中国家庭经济行为
CGSS	中国综合社会调查	社会学、社会分层
CHARLS	中国健康与养老追踪调查	老龄化、健康
CHIP	中国住户收入调查	收入分配、贫困
CHFS	中国家庭金融调查	家庭金融、财富

专业平台

平台	特色
NBER 数据档案	经济学工作论文配套数据集
ICPSR	密歇根大学社科数据中心
Google Dataset Search	跨平台数据集搜索引擎
马克数据网	社科数据共享平台，年下载量超 10 万次
Wind / CSMAR	中国金融经济数据库（付费）
Data.gov	美国政府中央开放数据门户

实用建议

先做 EDA 再跑模型：用 DeepAnalyze 或 ai-data-science-team 的 EDA Agent 快速了解数据分布、缺失值、异常值，比自己写代码探索快得多
数据清洗要留痕：所有数据处理步骤都应该用代码实现（不要手动改 Excel），配合 Git 版本控制
面板数据注意平衡性：用 Skill 跑 DID 前，先检查你的面板是否平衡、是否有 attrition 问题

← 上一章 | 下一章：05 - 统计分析与因果推断 →