X-Skills 优化方案（基于 X For You 推荐算法）

本方案旨在借鉴 X (Twitter) 的 "For You" 推荐算法架构，全面升级 x-skills 的信息收集、筛选与创作能力。核心理念在于引入多源候选、加权多维评分、多样性控制以及端到端反馈闭环。

核心架构原则

多源候选 (Candidate Sources)：
- In-Network (Thunder)：深挖用户关注与高频交互的优质信源。
- Out-of-Network (Phoenix Retrieval)：利用向量相似度与趋势挖掘，探索全网新内容。
加权多动作评分 (Weighted Scoring)：
- 不仅仅预测“相关性”，而是预测具体的互动意图（点赞、转发、收藏、负反馈）。
- Final Score = Σ (Action Probability * Action Weight)。
多样性与去重 (Diversity & Filtering)：
- 严格的去重机制（内容、会话）。
- 强制的来源多样性衰减，避免单一信源霸屏。
反馈闭环 (Feedback Loop)：
- 建立正/负样本库，利用历史数据动态调整采集与筛选策略。

1. x-collect（信息收集）：双通道与动态画像

1.1 双通道检索机制

通道 A：核心关注 (In-Network)
- 来源：用户指定的订阅源、RSS、Newsletter、高频互动账号。
- 策略：全量监控，重点抓取近 24 小时更新。
通道 B：全网探索 (Out-of-Network)
- 来源：WebSearch、趋势榜单、关联话题探索。
- 策略：基于“动态画像”生成的扩展 Query 进行多轮检索。引入 20% 探索模式（随机跨界信源），打破信息茧房。

1.2 动态用户画像 (User Context)

建立 ContextStore，记录两类数据：
- 正向特征 (liked_topics.json)：过去采纳选题的关键词、实体、来源、风格标签。
- 检索增强：检索时不仅仅使用预设关键词，而是自动提取高频“正向特征”组合成新的 Query。

1.3 预处理与结构化

去重：相似标题/URL 去重；同一事件的多源报道合并为一条（保留最优质来源）。
质量标注：为每条素材打上基础 QualityScore。
- 维度：来源可信度、发布时间（新鲜度）、是否原创、含有数据/图表。
输出标准化：topic | 摘要 | 核心事实 | 引用链接 | 来源 | 时间 | 话题簇 | QualityScore。

2. x-filter（选题筛选）：多维打分与负反馈过滤

2.1 增强型评分模型 (Weighted Scorer)

建立类似 Phoenix 的评分公式，总分由多个预测维度的加权和决定：

$$ FinalScore = (W_{trend} \cdot S_{trend}) + (W_{value} \cdot S_{value}) + (W_{relevance} \cdot S_{relevance}) - (W_{neg} \cdot S_{neg}) $$

评分维度 (0-10)：
- Trend (趋势性)：是否正处于热度上升期？
- Value (价值密度)：是否有干货、数据、独家观点？
- Controversy (讨论度)：是否容易引发观点碰撞？
- Freshness (新鲜度)：基于时间窗口的衰减函数。
负向过滤 (Negative Filters)：
- 硬过滤：黑名单域名、屏蔽词。
- 软过滤 (SimilarityFilter)：与 rejected_topics.json（反向选题库）相似度高的选题，给予高额扣分。

2.2 多样性控制 (Diversity Scorer)

防止同一来源或同一话题霸占筛选列表：

作者/来源衰减：同一来源的第 $N$ 条内容，分数乘以衰减系数 $0.6^{(N-1)}$。
会话去重 (DedupConversation)：同一话题簇中，只保留得分最高的一条作为代表。

2.3 输出分层

Tier A (精选)：高分通过，直接进入创作流。
Tier B (备选)：分数尚可但有硬伤（如时效性稍差），存入备选库。
Tier C (淘汰)：记录入 rejected_topics.json，用于优化后续过滤。

3. x-create（推文创作）：意图预测与模拟评估

3.1 基于意图的模式选择

不使用通用模板，而是根据 x-filter 阶段预测的高概率动作选择创作模式：

预测高概率动作	创作模式策略	重点要素
Repost (转发/传播)	观点/争议型	犀利的金句开头、对比强烈的观点、情绪共鸣
Bookmark (收藏/价值)	清单/教程型	结构化清晰、步骤详尽、包含资源链接/工具推荐
Click (点击/阅读)	悬念/引导型	信息差诱饵、"Read More" 引导、高价值引用
Reply (回复/讨论)	提问/互动型	开放式结尾、抛出具体场景寻求共鸣

3.2 内容要素对齐

引用溯源：显式引用 x-collect 阶段的来源（Source & Date），增加可信度。
节奏控制：长短句结合，根据目标动作控制篇幅（求转评则短，求收藏则长）。
A/B 变体：同一选题生成 2 个变体（如：一个重情绪，一个重逻辑），供人工决策。

3.3 模拟预判 (Critic Agent)

在输出最终草稿前，增加 Simulated User Proxy 环节：

角色：扮演目标受众。
任务：对草稿进行“模拟消费”。
判词：“如果我在 Feed 流刷到这条，我会点赞还是划走？评分 0-10。”
机制：若评分 < 7，触发自动重写（Re-rank/Re-write）。

4. 反馈闭环与度量 (Metrics & Loop)

4.1 数据采集

记录全链路的用户行为信号：

Action: SKIP -> 记入负样本库。
Action: ADOPT -> 记入正向画像。
Action: REWRITE -> 记录原始生成与最终定稿的 diff，优化 Prompt。

4.2 质量审计

来源计分卡：定期统计各来源的采纳率与负反馈率，自动调整 x-collect 的抓取权重。
模式计分卡：统计哪种创作模式在特定话题下的表现最好。

4.3 核心指标

命中率：(采纳选题数 / 推荐选题总数) * 100%
多样性指数：采纳选题的来源分布离散度。
修正率：创作内容的平均人工修改幅度（越低越好）。

实施路线图

Phase 1: 数据层升级 (Week 1)
- 实现 ContextStore (正/负样本库)。
- 优化 x-collect 输出结构，增加 QualityScore 和 Metadata。
Phase 2: 核心算法落地 (Week 2)
- 实现 x-filter 的加权打分公式与多样性衰减逻辑。
- 接入反向选题过滤。
Phase 3: 创作智能升级 (Week 3)
- 实现基于意图的 Prompt 路由策略。
- 接入 Critic Agent 模拟打分。
Phase 4: 闭环与调优 (Week 4+)
- 搭建简单的反馈记录流。
- 基于运行数据微调各维度的权重系数 $W$。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

X-Skills 优化方案（基于 X For You 推荐算法）

核心架构原则

1. x-collect（信息收集）：双通道与动态画像

1.1 双通道检索机制

1.2 动态用户画像 (User Context)

1.3 预处理与结构化

2. x-filter（选题筛选）：多维打分与负反馈过滤

2.1 增强型评分模型 (Weighted Scorer)

2.2 多样性控制 (Diversity Scorer)

2.3 输出分层

3. x-create（推文创作）：意图预测与模拟评估

3.1 基于意图的模式选择

3.2 内容要素对齐

3.3 模拟预判 (Critic Agent)

4. 反馈闭环与度量 (Metrics & Loop)

4.1 数据采集

4.2 质量审计

4.3 核心指标

实施路线图

FilesExpand file tree

x-skills-optimization.md

Latest commit

History

x-skills-optimization.md

File metadata and controls

X-Skills 优化方案（基于 X For You 推荐算法）

核心架构原则

1. x-collect（信息收集）：双通道与动态画像

1.1 双通道检索机制

1.2 动态用户画像 (User Context)

1.3 预处理与结构化

2. x-filter（选题筛选）：多维打分与负反馈过滤

2.1 增强型评分模型 (Weighted Scorer)

2.2 多样性控制 (Diversity Scorer)

2.3 输出分层

3. x-create（推文创作）：意图预测与模拟评估

3.1 基于意图的模式选择

3.2 内容要素对齐

3.3 模拟预判 (Critic Agent)

4. 反馈闭环与度量 (Metrics & Loop)

4.1 数据采集

4.2 质量审计

4.3 核心指标

实施路线图