Skip to content

Latest commit

 

History

History
14 lines (8 loc) · 249 Bytes

File metadata and controls

14 lines (8 loc) · 249 Bytes

NLP hw3 分词

1. TODO list

  • 下载数据集
  • 完成 BPE 分词代码,支持不同词表大小 AI 辅助完成
  • 根据分词结果,统计压缩比
  • 完成报告内容

2. Environment Setup

3. Download dataset