Skip to content

Latest commit

 

History

History
28 lines (18 loc) · 1.83 KB

File metadata and controls

28 lines (18 loc) · 1.83 KB
id category title
54
Projects
새로운 LLM 아키텍처를 설계하고, PoC 노트북까지 공개합니다. 요즘 국가대표 AI들의 논문을 읽다 보니 저도 From Scratch로 직접 구현해보고 싶어졌습니다. Google의 Griffin과 Liquid AI의 LFM2에서 영감을 받아, 하이브리드 RNN+Attention 아키텍처 "HybriKo"의 PoC를 만들었습니다.

새로운 LLM 아키텍처를 설계하고, PoC 노트북까지 공개합니다. 요즘 국가대표 AI들의 논문을 읽다 보니 저도 From Scratch로 직접 구현해보고 싶어졌습니다. Google의 Griffin과 Liquid AI의 LFM2에서 영감을 받아, 하이브리드 RNN+Attention 아키텍처 "HybriKo"의 PoC를 만들었습니다.

🎯 목표

🧠 구현 내용 Griffin 논문의 핵심 구조를 단순화해서 구현했습니다.

  • 2:1 하이브리드 패턴 (RNN 2개 + Attention 1개 반복)
  • RG-LRU 기반 순환 유닛
  • GQA + RoPE (Griffin의 MQA 대신 GQA 사용)

Griffin 원본과의 차이점은, Conv1D 레이어를 생략하고 Attention을 Local Window 대신 Global로 구현한 점입니다. 학습과 실험이 쉬운 단순화 버전입니다. 본격적으로 구현한다면 NVIDIA Nemotron-Nano-3이나 LFM2.5에서 더 많은 아이디어를 얻어 발전시킬 예정입니다.

🔬 PoC 결과 (Colab T4) 117.8M 파라미터, 한국어 위키피디아 3만 건으로 1,000 steps 학습에 (batch=16, seq_len=512, 1시간 45분 소요) Loss는 10.5에서 3.7까지 떨어졌습니다. 한국어 문장 구조는 어느 정도 학습했지만, 데이터가 부족하니 의미 있는 생성은 어려웠습니다.

💰 현실 의미 있는 언어 모델을 만들려면 1조 토큰급 데이터와 약 1,000만원의 컴퓨팅 비용이 필요할 것 같습니다. GPU 없이는 여기까지가 한계라 중간 결과를 공개합니다.

68