Skip to content

[20230903] Weekly AI ArXiv 만담 시즌2 - 24회차 #90

@jungwoo-ha

Description

@jungwoo-ha

News

ArXiv

  • DoReMi: Optimizing Data Mixtures Speeds Up Language Model Pretraining

    • 구글에서 나온 Pretraining 시 corpus 도메인 최적화 하는 방법 연구 (평가가 아주 좋음)
    • Small referece model 로 small proxy model 만들고 domain weight 최적화 해서 pretrainin corpus 구성
    • 주로 280M을 레퍼런스 모델로 해서 8B에 올려봤는데 FT에서 효과가 아주 좋음
    • GLaM, Pile 데이터셋을 통해 성능평가. 레퍼런스 모델크기에 대한 다양한 ablation
    • Pretraining 을 수행하고자 하는 연구그룹에서는 꼭 참조해 보면 좋을 연구
      image
      image
      image
      image
  • The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants

    • Meta에서 만든 122개 언어를 커버하는 Multi-choice MRC 데이터셋
    • 기반은 다국어 번역 벤치마크인 FLORES-200의 passage들을 기반으로 함
    • 이를 Human - AI collaboration 을 통해 MRC 셋으로 만들어 공개
    • 언어종류도 High, mid, low resource 즉 주류 중간 비주류 언어 모두를 커버하도록
    • 평가는 MLM 모델 (InfoXLM, XLM-V, 번역후 학습), LLM (GPT-3.5-Turbo, LLaMA1,2, Falcon-40B, Zero-shot)
    • Low resource 언어는 모델 커져도 별로 재미를 못보는 듯..
      image
      image
      image
      image

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions