한국문화 질의응답 참가팀 GCU_ISNLP_2 팀의 repository입니다.
본 팀은 RLVR(Reinforcement Learning with Verifiable Rewards) 계열 중 하나인 GRPO(Group Relative Policy Optimization) 강화학습 방법론을 적용하여 모델을 학습시켰으며, 학습과 추론 구현 코드를 다음과 같이 공개합니다.
별도로 라벨링이 필요한 사람의 선호도 데이터 대신, 과제 특성에 맞춘 형식 준수 여부, 정확성, 내용 일치 여부 등의 객관적인 검증 규칙을 설계함으로써 일관적이고 재현 가능한 학습 신호를 제공함으로써, 간단한 규칙 기반 보상 체계를 통해 외부 데이터 증강이 불가능한 제한적인 환경에서도 안정적인 성능 향상을 가능하게 하고자 하였습니다.
-
데이터셋 준비 ./resource/data 내부에 학습용, 검증용, 평가용 데이터를 추가합니다.
-
체크포인트 파일
체크포인트 파일은 아래 구글 드라이브 링크에서 다운로드 받으실 수 있습니다.
https://drive.google.com/drive/folders/1yxqZ-MISfy2uo3Kk7Wlaw-hlrzRpBCM5?usp=sharing
-
conda 가상환경 설정
conda 가상환경을 yaml파일을 활용하여 생성 후, activate 합니다.
conda env create —file environment.yaml conda activate ajin
HuggingFace의 write용 토큰을 발급 후, train_GRPO.sh 내부의 HUGGINGFACE_TOKEN 인자에 붙여 넣어 설정합니다.
그 후, train_GRPO.sh 스크립트를 실행합니다.
inference.sh스크립트를 실행하여 추론을 진행합니다.
추론 결과는 json 형태로 저장됩니다.