Skip to content

Latest commit

 

History

History
167 lines (123 loc) · 7.34 KB

File metadata and controls

167 lines (123 loc) · 7.34 KB

04 - 数据获取与清洗

< 返回主页

数据是实证研究的地基。 再精巧的识别策略,如果数据质量有问题,结论就不可信。AI Agent 可以帮你加速数据清洗、变量构造和探索性分析,但数据来源的可靠性和变量定义的合理性,仍然需要你自己判断。


Skills 列表

xlsx(电子表格处理)

属性 说明
来源 Anthropic 官方 Skills
功能 电子表格创建、编辑、分析,支持公式、格式化、数据分析和可视化
适用 数据预处理、描述性统计表格生成、数据验证

Data Plugin(数据探索)

属性 说明
来源 Anthropic Knowledge Work Plugins
功能 SQL 查询、数据探索、可视化、仪表盘、洞察生成
特色 Anthropic 官方出品,直接对数据库执行查询和分析

DeepAnalyze(自主数据分析)

属性 说明
来源 ruc-datalab/DeepAnalyze(中国人民大学)
功能 从原始数据到专业分析报告的全自主 Agent
支持格式 CSV、Excel、JSON、XML、数据库
工作流 数据导入 → 自动清洗 → 探索性分析 → 建模 → 可视化 → 报告生成
特色 开源模型 DeepAnalyze-8B,有 WebUI + Docker 沙箱,中文文档

ai-data-science-team(多代理数据科学团队)

属性 说明
来源 business-science/ai-data-science-team
功能 Supervisor 领导的多代理数据科学团队
代理 EDA Agent(探索性分析)+ SQL Agent(数据查询)+ Data Loader Agent(数据导入)+ MLflow Agent(模型管理)
特色 LangChain 集成,沙箱代码执行

claude-code-data-science-team

属性 说明
来源 HungHsunHan/claude-code-data-science-team
功能 Claude Code 多代理系统,模拟真实数据科学团队
工作流 数据清洗 → 特征工程 → 建模 → 生成可执行 Notebook + 分析报告

web-scraper(智能网页采集)

属性 说明
来源 yfe404/web-scraper
功能 智能网页采集 Claude Code Skill,自动策略选择,TypeScript-first Apify Actor 开发
适用 网络数据采集、构建研究数据集

us-gov-open-data-mcp(美国政府开放数据 MCP)

属性 说明
来源 lzinga/us-gov-open-data-mcp
功能 40+ 美国政府数据 API、250+ 工具:Treasury、FRED、Congress、FDA、CDC、FEC、BLS、Census 等
特色 跨库交叉引用(查药物自动拉 FDA 不良事件 + 临床试验 + 游说支出 + 国会活动),18 个 API 无需密钥
兼容 VS Code Copilot、Claude Desktop、Cursor

fred-mcp-server(FRED 经济数据 MCP)

属性 说明
来源 stefanoamorelli/fred-mcp-server
功能 访问全部 80 万+ FRED 时间序列,支持日期过滤

world-bank-data-mcp(世界银行数据 MCP)

属性 说明
来源 llnOrmll/world-bank-data-mcp
功能 访问世界银行 Data360,1000+ 经济社会指标、200+ 国家

world_bank_mcp_server(世界银行开放数据 MCP)

属性 说明
来源 anshumax/world_bank_mcp_server
功能 世界银行开放数据 API 的 MCP 实现

datagouv-mcp(法国政府开放数据 MCP)

属性 说明
来源 datagouv/datagouv-mcp
功能 法国国家开放数据平台 data.gouv.fr 的 MCP 服务器,支持自然语言查询

传统数据清洗工具

Agent Skills 加速了探索过程,但核心数据处理仍然依赖这些工具:

工具 适用场景 关键命令/包
Stata 结构化数据合并与变形 merge, reshape, collapse, encode
Python 大规模数据清洗与变换 pandas, polars(更快)
R 管道式数据处理 tidyversedplyr + tidyr
OpenRefine 可视化数据清洗(无需编程) GUI 操作
SQL 数据库查询与预处理 直接查询

常用数据源速查

全球宏观经济数据

数据源 说明 获取方式
FRED 美联储圣路易斯分行,超 80 万个时间序列 fred.stlouisfed.org,有 Python API
世界银行开放数据 200+ 国家的经济、人口、发展指标 data.worldbank.org
IMF 国际货币基金组织数据库 data.imf.org
OECD.Stat 经合组织统计数据库 stats.oecd.org
Our World in Data 全球问题研究数据(贫困、能源、气候) ourworldindata.org
国家统计局 中国统计年鉴、宏观经济月度数据 stats.gov.cn

微观调查与面板数据

数据源 说明 适用领域
NLSY 美国青年纵向调查 劳动经济学、教育经济学
HRS 健康与退休研究,追踪约 2 万人 健康经济学、养老
CFPS 中国家庭追踪调查(北大主持) 中国家庭经济行为
CGSS 中国综合社会调查 社会学、社会分层
CHARLS 中国健康与养老追踪调查 老龄化、健康
CHIP 中国住户收入调查 收入分配、贫困
CHFS 中国家庭金融调查 家庭金融、财富

专业平台

平台 特色
NBER 数据档案 经济学工作论文配套数据集
ICPSR 密歇根大学社科数据中心
Google Dataset Search 跨平台数据集搜索引擎
马克数据网 社科数据共享平台,年下载量超 10 万次
Wind / CSMAR 中国金融经济数据库(付费)
Data.gov 美国政府中央开放数据门户

实用建议

  1. 先做 EDA 再跑模型:用 DeepAnalyzeai-data-science-team 的 EDA Agent 快速了解数据分布、缺失值、异常值,比自己写代码探索快得多
  2. 数据清洗要留痕:所有数据处理步骤都应该用代码实现(不要手动改 Excel),配合 Git 版本控制
  3. 面板数据注意平衡性:用 Skill 跑 DID 前,先检查你的面板是否平衡、是否有 attrition 问题

← 上一章 | 下一章:05 - 统计分析与因果推断 →