🎓 Peking University | Software Engineering M.S.
🎓 UESTC | Software Engineering B.S.
💻 Cloud Native & Distributed Systems Specialist
🐧 Tecent & Infinigence & Momenta Intern
- 🔭 Currently building large-scale model training/inference clusters on Kubernetes
- 🌱 Deep diving into LLM fine-tuning & optimization techniques
- ⚙️ Developing Kubernetes operators for AI workloads using Go
- 💬 Ask me about Go, Kubernetes, or distributed training frameworks
| Technology | Description |
|---|---|
| 模型开发与分布式训练框架 | |
| 大模型分布式训练优化 | |
| NVIDIA大模型训练框架 | |
| 完全分片数据并行训练 | |
| 模型共享与Transformers库 | |
| 高吞吐推理服务框架 | |
| NVIDIA推理加速引擎 |
| Technology | Description |
|---|---|
| 容器编排平台核心 | |
| ML生命周期管理平台 | |
| Kubernetes包管理器 | |
| 监控与告警系统 | |
| 指标可视化平 | |
| 服务网格与流量管理 | |
| AI/ML作业调度器 |
| Technology | Description |
|---|---|
| 模块化智能体框架,支持多模型集成 | |
| 构建可执行图形化智能体的框架 | |
| 推理与行动结合的Agent决策模式 |
| Technology | Description |
|---|---|
| Kubernetes算子开发主要语言 | |
| ML模型开发通用语言 | |
| 系统脚本与自动化 |


