Skip to content

[20230625] Weekly AI ArXiv 만담 시즌2 - 21회차 #87

@jungwoo-ha

Description

@jungwoo-ha

Zoom webinar: https://navercorp.zoom.us/j/92208940283

News

ArXiv

  • AudioPaLM: A Large Language Model That Can Speak and Listen

    • Google Research에서 나온 음성인식 + 합성 + LLM을 하나의 통합 구조로 만든 모델 (Fuse란 표현을...): 예상됐던 수순인데 구글이 먼저..
    • PaLM 2 + AudioLM --> AudioPaLM: 화자정보나 억양 그리고 언어적 지식을 동시에 활용 가능
    • Audio Tokenizer: w2v-BERT, USM-v1/v2 (ASR auxiliary)
    • Decoder only model 이지만 text와 audio token 둘다 뱉도록
    • Audio token to raw audio: AudioLM (autoregressive) or SoundStorm (non-autoregressiv)
    • 입력시 태스크를 설명하는 태그도 함께: ASR Frech 이런식
    • 기본 파인튜닝은 PaLM을 따른다
    • 다국어 음성 번역에서 목소리를 유지하면서 target 언어로 합성 가능 (speech translation + voice transfer)
    • https://google-research.github.io/seanet/audiopalm/examples/
      image
  • From Word Models to World Models: Translating from Natural Language to the Probabilistic Language of Thought

    • LLM 과 기존 논리 추론을 융합해서 rational meaning construction을 가능하케 하는 방법인 PLoT 제안 (from MIT)
    • LLM의 자연어 지식을 symbolic 스타일의 확률 논리 형태로 표현토록
    • 대화에서도 마찬가지만 LLM은 매우다양한 자연어 발화 입력을 커버하고 이를 PLoT 코드로 변환할 수 있도록. 이를 통해 commonsense 도 커버하도록 한다.
    • 확률적 추론, 논리 및 관계 추론, 시각 및 물리 추론, 에이전트 및 계획에 대한 사회적 추론과 같은 인지 과학의 네 가지 핵심 영역 문제
    • 기존 LLM 과 Symbolic AI의 결합 시도로서 의미가 있음
    • 분량이 94페이지임.
      image
      image

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions