Skip to content

Research: external fact signal pipeline #11

@WW-shan

Description

@WW-shan

@Soli22de 我整理了一个新的研究/实现方向,想和你讨论一下是否值得做成后续 PR:

Spec 文档:
https://github.com/WW-shan/poly_strategy/blob/main/docs/superpowers/specs/2026-05-15-external-fact-signal-pipeline-design.md

核心想法

这次不是继续做 maker/cross-platform arb,也不是全网爬虫,而是做一个外部事实信号管线:

  1. 从 Polymarket active markets / resolution rules 出发,判断每个市场真正需要等什么外部事实。
  2. 只盯少数可信来源,比如 SEC EDGAR、Federal Register、CourtListener。
  3. 新文档发布后,用 LLM 把非结构化内容抽成结构化 fact。
  4. 把 fact 映射回 market_id,产出当前项目已经能消费的 external_signal
  5. 跑 shadow report,看这个 fact 是否真的早于价格变化,并且扣掉 spread/depth 后还有没有可交易边际。

重要边界

  • 不做全网爬虫。
  • 不做 live trading。
  • 不把新闻/GDELT 当最终 truth source,除非市场规则明确允许。
  • 第一阶段只证明这个方向有没有信息优势,不急着下单。

我建议的 PR 拆分

  • PR 1: market_fact_need classifier + coverage report
  • PR 2: SEC EDGAR / Federal Register / CourtListener source connectors
  • PR 3: LLM structured fact extractor + market mapper,输出 external_signal
  • PR 4: forward-return / tradability report

希望你先帮忙判断的问题

  • 这个方向是否真的有实现价值?
  • 第一阶段应该做到哪里?
  • 你觉得先做哪个 source family 最合适?
  • 第一个 PR 是否只做 classifier/report,还是带一个 connector 做 end-to-end proof?

我的倾向:第一个 PR 先不要实现完整 pipeline,只做 market fact-needs classifier + coverage report,证明我们能把 active markets 合理路由到 sec_edgar / federal_register / courtlistener / manual 这些 source families。

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions