Skip to content

Latest commit

 

History

History
96 lines (42 loc) · 3.99 KB

File metadata and controls

96 lines (42 loc) · 3.99 KB
id category title
97
Pre_Training
이 논문은 사람이 언어를 배우는 방식에서 영감을 얻어, 인공지능 언어모델(LLM)의 학습 효율성을 획기적으로 높이는 새로운 방법을 제안합니다.

이 논문은 사람이 언어를 배우는 방식에서 영감을 얻어, 인공지능 언어모델(LLM)의 학습 효율성을 획기적으로 높이는 새로운 방법을 제안합니다.

보통 인공지능 언어모델들은 처음부터 정해진 단어 사전(vocabulary)을 가지고 학습을 시작합니다. 하지만 사람은 언어를 배울 때 간단한 단어부터 점점 복잡한 단어로 점진적으로 어휘를 넓혀가죠. 이 논문은 사람과 비슷하게 **단순한 문자(character) 수준의 어휘에서 출발하여, 모델이 점점 더 복잡한 어휘를 배우는 "점진적 어휘 학습법(Vocabulary Curriculum Learning)"**을 제안합니다.


논문이 제안하는 구체적인 방법은?

이 방법은 크게 두 가지 핵심으로 구성됩니다:

① 엔트로피 기반 어휘 확장

엔트로피(entropy)는 쉽게 말해 예측의 어려움을 의미합니다. 예측이 쉬운 토큰들(자주 반복되는 패턴)은 합쳐서 더 긴 토큰으로 만들고, 예측이 어려운 토큰(불규칙한 패턴)은 짧게 유지합니다.

이렇게 하면 예측이 쉬운 긴 토큰들은 모델이 빠르게 학습하고, 짧은 토큰은 더 세밀하게 학습하여 효율을 높입니다.

이걸 왜 할까요?

모델이 뻔히 예측 가능한 내용에 불필요한 노력을 쓰지 않고, 복잡하고 중요한 내용을 학습하는 데 더 많은 자원을 쓰게 하기 위해서입니다.

예시

"the" 같은 자주 쓰이는 단어는 긴 토큰 하나로 묶어서 쉽게 처리하고,

복잡한 용어나 숫자 등은 세부적으로 나누어서 모델이 집중적으로 학습하도록 합니다.


② 어휘 커리큘럼 학습(Vocabulary Curriculum Learning)

모델이 처음엔 간단한 문자(character)로 구성된 기본 어휘로 시작해서, 점차 더 큰 어휘로 확장해 나가면서 학습을 진행합니다.

이렇게 하면, 모델이 어휘 크기와 복잡도에 따라 점진적으로 언어를 습득하게 되어 학습 효율이 올라갑니다.


논문 실험 결과는?

실험에서 이 방법을 사용하여 소규모 GPT 모델(GPT 구조 기반, enwiki8 데이터셋 사용)을 학습한 결과, 다음과 같은 긍정적인 성과가 나타났습니다.

① 성능 향상

동일한 연산량을 썼을 때 기존 방식 대비 최대 6% 이상의 성능(BPC: bits-per-character) 향상이 나타났습니다.

즉, 더 작은 계산량으로 더 좋은 성능을 낸다는 의미입니다.

② 효율적인 확장성(Scaling Efficiency)

어휘 크기를 증가시켰을 때 성능이 얼마나 개선되는지를 측정한 결과, 점진적으로 어휘를 학습한 모델이 일반적인 고정된 어휘 모델에 비해 훨씬 더 빠르게 성능이 좋아졌습니다.

어휘 크기를 키울수록 성능 향상 속도가 더 빨랐습니다.


왜 효과가 있었을까?

이 방식은 자연스럽게 계층적인 어휘 구조를 만듭니다. 즉, 학습 과정에서 다음 두 가지 특징이 자연스럽게 나타났습니다:

긴 토큰: 자주 등장하고 예측이 쉬운 패턴이므로, 빠르게 학습되어 예측하기 쉬운 영역을 담당하게 됩니다.

짧은 토큰은 여전히 더 예측하기 어려운, 복잡한 패턴을 나타내어, 이 부분을 더 집중적으로 학습하게 됩니다.

이러한 자연스러운 계층적 구조가 모델의 전체 성능을 향상시키는 데 큰 기여를 합니다.


앞으로 기대되는 점은?


요약하면, 이 논문은 사람이 언어를 배우는 방식을 모방하여 언어모델의 어휘를 점진적으로 키워나가는 방식을 제안했고, 이를 통해 더 적은 자원으로 더 좋은 성능을 얻을 수 있음을 보여준 매력적인 연구입니다.

16