Skip to content

[20230514] Weekly AI ArXiv 만담 시즌2 - 17회차 #83

@jungwoo-ha

Description

@jungwoo-ha

시청방법

News

ArXiv

  • PaLM 2 Technical Report

    • PaLM 2 의 Tech Report: 굳이 제목이 TR인 건 Method 디테일이 없기 때문 (OpenAI와 동일한)
    • Scaling law관점에서 동일 컴퓨팅 예산대비 최적의 parameter 크기 실험
    • 순다르 피차이의 키노트나 데이터 설명 섹션 그리고 Bard 속도 고려할 때 크기는 540B에 달하는 PaLM보다는 훨씬 작을 것으로 추정
    • 구글의 25개 서비스에 크기별로 바로 녹여 넣는 것을 고려할 정도로 Sam Altman이 얘기한 것처럼 크기의 전쟁이 아닌 서비스 활용 관점에서 비용구조까지 고려한 최적화 (데이터, 학습기법, FLAN 등) 에 집중한 것을 보임
    • Pre-training data 조합에 매우 신경쓴 듯 하며 요즘의 대세인 대량 pre-training data 정책 취한 것으로 보임
    • UL2에서 제안한 조금 더 복잡한 형태의 pretraining 활용
    • 매우 다양한 다운스트림 태스크에서 성능 평가. 정량적으로 GPT4를 넘지는 못하는 것으로 보이나 양쪽 추정 모델의 크기를 고려하면 상당한 경쟁력
    • Med-PaLM2 와 Sec-PaLM 등 의료와 보안성에 방점을 둠
    • Vertex AI 와 별도 API를 제공 예정
    • 4개 종류의 크기 모델 제공: Gecko (모바일 가능 수준이라고), otter, Bison, Unicorn
    • 진정한 GPT4 혹은 이후 버전의 대응은 구글 딥마인드가 준비중인 Gemini가 될 것이며 여전히 훈련 진행 중 (6개월 실험 중지는 저 멀리)
      image
      image
      image
      image
  • InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning

    • BLIP2, ICML2023 연구진(Salesforce)과 HKUST, NTU 연구진이 함께 만든 vision-langauge model의 instruct tuning 연구
    • BLIP2의 Q-Former 부분을 학습 Image encoder와 Large LM decoder는 Frozen
    • Q-Former 에서 Image embedding을 cross-attention 으로 밀어넣고 Instruct도 함께 넣어 Instruct와 Image가 결합된 feature 생성
    • 그렇게 생성된 feature를 Instruct와 함께 soft prompt 형태로 LLM에 입력 후 답을 맞추도록 한다.
    • 26개의 VL task 중 일부를 Instruct learning 용으로 나머지는 zero-shot 평가용으로..
    • LLM은 FLAN-T5 와 Vicuna-7B / 13B 를 활용. 특이한게 Vicuna-13B가 좀 힘을 못쓰는데.. 덜구워져서 인지..
    • VL 에서 나름 해볼만한 instruct learning method 연구라 읽어볼만 함.
    • https://github.com/salesforce/LAVIS/tree/main/projects/instructblip
      image
      image
      image

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions