Skip to content

[20230917] Weekly AI ArXiv 만담 시즌2 - 26회차 #92

@jungwoo-ha

Description

@jungwoo-ha

Zoom: https://navercorp.zoom.us/j/92208940283

페이스북: https://www.facebook.com/weeklyaiarxivpage

News

ArXiv

  • In the long (context) run

    • Long context LLM 에 대해 잘 정리한 블로그
    • FlahAttention 나오면서 GPU 메모리와 연산 최적화로 long context 부담이 많이 줄어듬
    • 최근의 Long context 는 주로 fine-tuning 기반이다.
    • 그럼 왜 pretraining 시에 long context 를 직접 고려해서 하지 않나?
      • pretraining 의 추가 attention overhead 때문? (이건 모델이 커지면 크게 부담스럽지 않음)
      • Pretraining 할 때 써먹을 long context 데이터 자체가 많이 없어서 (이게 중요한 문제)
    • Common crawl 중에선 C4보단 refineWeb이 좀더 낫고 코드는 확실히 좀더 상황이 좋음
    • 그럼 어떻게?
      • pretraining단에서 long-context 학습 녹록하지 않음. 배치 학습 효율위해 최대 길이 끼워맞춰 넣기 때문에 별로 효과없을 가능성
      • 결국 long-context 성향을 갖도록 웹페이지의 링크를 이용한 이어붙이기 같은 걸 해야
      • 양질의 문서데이터를 더 확보하고 데이터 가공작업에 공을 더 들이는 것도 방법 (비용의 문제)
      • 그런데 long context pretraining vs long context FT 를 비교할려고 보니 애당초 성능 평가 프로토콜이 부족해서 효과 검증이 어려움
        image
        image
        image
        image
  • DePT: Decomposed Prompt Tuning for Parameter-Efficient Fine-tuning

    • Parameter efficient tranfer learning 과 prefix-tuning (p-tuning v2) + LoRA의 합작품 같은? (from UCL)
    • p-tuning v2의 학습가능한 soft prompt 의 일부 파라미터를 low rank로 분할해서 embedding 계산 때 적용
    • 뭔가 그럴듯 하긴 한데.. 얼마만큼 LLM 전체에 영향을 줄지... 큰 모델에서 얼마만큼 효과가 있을 지..
    • 실험은 주로 작은 모델에서 NLU task위주로 수행. LLaMA 시리즈 실험이 없어서 아쉽
      image
      image
      image

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions