Skip to content

darkmochalover/2025_Culture_QA_ISNLP_2

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

7 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

README

한국문화 질의응답 참가팀 GCU_ISNLP_2 팀의 repository입니다.

본 팀은 RLVR(Reinforcement Learning with Verifiable Rewards) 계열 중 하나인 GRPO(Group Relative Policy Optimization) 강화학습 방법론을 적용하여 모델을 학습시켰으며, 학습과 추론 구현 코드를 다음과 같이 공개합니다.

별도로 라벨링이 필요한 사람의 선호도 데이터 대신, 과제 특성에 맞춘 형식 준수 여부, 정확성, 내용 일치 여부 등의 객관적인 검증 규칙을 설계함으로써 일관적이고 재현 가능한 학습 신호를 제공함으로써, 간단한 규칙 기반 보상 체계를 통해 외부 데이터 증강이 불가능한 제한적인 환경에서도 안정적인 성능 향상을 가능하게 하고자 하였습니다.

환경 설정

  • 데이터셋 준비 ./resource/data 내부에 학습용, 검증용, 평가용 데이터를 추가합니다.

  • 체크포인트 파일

    체크포인트 파일은 아래 구글 드라이브 링크에서 다운로드 받으실 수 있습니다.

    https://drive.google.com/drive/folders/1yxqZ-MISfy2uo3Kk7Wlaw-hlrzRpBCM5?usp=sharing

  • conda 가상환경 설정

    conda 가상환경을 yaml파일을 활용하여 생성 후, activate 합니다.

    conda env create —file environment.yaml
    conda activate ajin

모델 학습

HuggingFace의 write용 토큰을 발급 후, train_GRPO.sh 내부의 HUGGINGFACE_TOKEN 인자에 붙여 넣어 설정합니다.

그 후, train_GRPO.sh 스크립트를 실행합니다.

모델 추론

inference.sh스크립트를 실행하여 추론을 진행합니다.

추론 결과는 json 형태로 저장됩니다.

About

2025 국립국어원 말평 한국문화 QA 트랙 참가팀 GCU_ISNLP_2의 구현 코드 repository입니다.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors