-
Notifications
You must be signed in to change notification settings - Fork 39
Open
Description
Zoom: https://navercorp.zoom.us/j/92208940283
페이스북: https://www.facebook.com/weeklyaiarxivpage
News
- Conference
- ICLR 2024
- Abs: 9.23 AoE (9.21에서 변경) , Full paper: 9.28
- LLM 사용원칙: 써도 되지만 양심껏 해라. 저자는 안된다.
- CHI 2024: 모두들 수고 많으셨습니다.
- ICLR 2024
- 메타가 다시 AI에 올인? GPT4 능가하는 연구를 시작했다고
- Google Deepmind Gemini의 출시가 다가오고 있다?
- 구글 외부에서 클로즈 베타를 시작했다는
- If you’d bought Apple shares instead of iPhones, you’d now have $147,000
- 이건 왠지 DGX (V100, A100, H100)을 안사고 엔비디아 주식을 샀다면..
- 테슬라 차를 안사고 테슬라 주식을 샀다면.. 과 비슷한 느낌? ㅎㅎ
- [phi-1.5 이슈]
- Textbook is all you need: 1.3B with 150B token 으로 압살
- 데이터 오염 (Test 데이터로 학습) 이 의심됨
- LLM 은 어떻게 공정하고 정확하게 훈련하고 평가할지에 대한 프로토콜 체계 잡는 것부터 국제 공동연구가 필요할 듯

- BrainLink 2023 LLM conference
- OpenAI, MSR 등 세계 최고 LLM 전문가 출동
- 장소가... 평창 켄싱턴 (주위에 국보 많음 ㅋㅋㅋㅋㅋ)
- 신청은 요기서: https://forms.gle/QWFKHzWpdWTDo1o1A
ArXiv
-
- Long context LLM 에 대해 잘 정리한 블로그
- FlahAttention 나오면서 GPU 메모리와 연산 최적화로 long context 부담이 많이 줄어듬
- 최근의 Long context 는 주로 fine-tuning 기반이다.
- 그럼 왜 pretraining 시에 long context 를 직접 고려해서 하지 않나?
- pretraining 의 추가 attention overhead 때문? (이건 모델이 커지면 크게 부담스럽지 않음)
- Pretraining 할 때 써먹을 long context 데이터 자체가 많이 없어서 (이게 중요한 문제)
- Common crawl 중에선 C4보단 refineWeb이 좀더 낫고 코드는 확실히 좀더 상황이 좋음
- 그럼 어떻게?
-
DePT: Decomposed Prompt Tuning for Parameter-Efficient Fine-tuning
Reactions are currently unavailable
Metadata
Metadata
Assignees
Labels
No labels






