| id | category | title |
|---|---|---|
54 |
Projects |
새로운 LLM 아키텍처를 설계하고, PoC 노트북까지 공개합니다. 요즘 국가대표 AI들의 논문을 읽다 보니 저도 From Scratch로 직접 구현해보고 싶어졌습니다. Google의 Griffin과 Liquid AI의 LFM2에서 영감을 받아, 하이브리드 RNN+Attention 아키텍처 "HybriKo"의 PoC를 만들었습니다. |
새로운 LLM 아키텍처를 설계하고, PoC 노트북까지 공개합니다. 요즘 국가대표 AI들의 논문을 읽다 보니 저도 From Scratch로 직접 구현해보고 싶어졌습니다. Google의 Griffin과 Liquid AI의 LFM2에서 영감을 받아, 하이브리드 RNN+Attention 아키텍처 "HybriKo"의 PoC를 만들었습니다.
🎯 목표
🧠 구현 내용 Griffin 논문의 핵심 구조를 단순화해서 구현했습니다.
- 2:1 하이브리드 패턴 (RNN 2개 + Attention 1개 반복)
- RG-LRU 기반 순환 유닛
- GQA + RoPE (Griffin의 MQA 대신 GQA 사용)
Griffin 원본과의 차이점은, Conv1D 레이어를 생략하고 Attention을 Local Window 대신 Global로 구현한 점입니다. 학습과 실험이 쉬운 단순화 버전입니다. 본격적으로 구현한다면 NVIDIA Nemotron-Nano-3이나 LFM2.5에서 더 많은 아이디어를 얻어 발전시킬 예정입니다.
🔬 PoC 결과 (Colab T4) 117.8M 파라미터, 한국어 위키피디아 3만 건으로 1,000 steps 학습에 (batch=16, seq_len=512, 1시간 45분 소요) Loss는 10.5에서 3.7까지 떨어졌습니다. 한국어 문장 구조는 어느 정도 학습했지만, 데이터가 부족하니 의미 있는 생성은 어려웠습니다.
💰 현실 의미 있는 언어 모델을 만들려면 1조 토큰급 데이터와 약 1,000만원의 컴퓨팅 비용이 필요할 것 같습니다. GPU 없이는 여기까지가 한계라 중간 결과를 공개합니다.
68