modular
diff --git a/‎.gitignore‎
Lines changed: 4 additions & 0 deletions b/‎.gitignore‎
Lines changed: 4 additions & 0 deletions
diff --git a/‎book/book.toml‎
Lines changed: 2 additions & 0 deletions b/‎book/book.toml‎
Lines changed: 2 additions & 0 deletions
diff --git a/‎book/i18n/ko/GLOSSARY_KO.md‎
Lines changed: 133 additions & 0 deletions b/‎book/i18n/ko/GLOSSARY_KO.md‎
Lines changed: 133 additions & 0 deletions
diff --git a/‎book/i18n/ko/book.toml‎
Lines changed: 45 additions & 0 deletions b/‎book/i18n/ko/book.toml‎
Lines changed: 45 additions & 0 deletions
@@ -9,6 +9,7 @@ __pycache__
 # Book artifacts
 book/book
 book/html
+book/html-*
 
 book/src/puzzle_*/media/images/
 book/src/puzzle_*/media/texts/
@@ -23,6 +24,9 @@ book/src/puzzle_*/media/videos/*/partial_movie_files/
 
 # rules
 .cursor/
+.claude/
+.agents/
+.agent/
 
 # llvm
 *.ll
 
@@ -11,13 +11,15 @@ additional-css = [
     "theme/css/custom.css",
     "theme/css/highlight.css",
     "theme/css/tabs.css",
+    "theme/css/language-switcher.css",
 ]
 additional-js = [
     "theme/mojolang.js",
     "theme/sidebar.js",
     "theme/solution.js",
     "theme/init-amplitude.js",
     "theme/tabs.js",
+    "theme/language-switcher.js",
 ]
 default-theme = "light"
 preferred-dark-theme = "ayu"
 
@@ -0,0 +1,133 @@
+# 용어집 (Glossary)
+
+이 문서는 Mojo GPU Puzzles 한국어 번역에서 사용되는 용어를 정리한 것입니다.
+번역 시 이 용어집에 정의된 표기를 따릅니다.
+
+## 표기 원칙
+
+- 국립국어원 외래어 표기법을 기준으로 하되, 업계에서 널리 사용되는 표기를 우선합니다
+- 코드, 함수명, 파일 경로, 명령어, 제품명, 약어(DRAM, SIMD 등)는 번역하지 않습니다
+- 각 퍼즐에서 처음 등장할 때 한국어(영어) 형식으로 표기하고, 이후에는 한국어만 사용합니다
+
+---
+
+## 용어 목록
+
+| English | 한글 | 비고 |
+| --- | --- | --- |
+| address space | 주소 공간 | 메모리 영역 구분. Mojo에서 `AddressSpace.SHARED` 등으로 지정 |
+| arithmetic intensity | 산술 강도 | 데이터 1바이트당 수행하는 연산량 (FLOP/B). 루프라인 모델의 X축 |
+| autograd | 오토그래드 | PyTorch의 자동 미분 시스템. 역전파 기울기를 자동 계산 |
+| bank conflict | 뱅크 충돌 | 여러 스레드가 공유 메모리의 같은 뱅크에 한꺼번에 접근해서 생기는 충돌 |
+| barrier | 배리어 | 스레드들이 특정 지점에서 만나는 동기화 장벽 |
+| binary | 바이너리 | 컴파일된 실행 파일 |
+| binning | 구간 분류 | 데이터를 구간으로 나누는 것. 히스토그램 구간 분류 |
+| block | 블록 | 공유 메모리를 함께 쓰고 서로 동기화할 수 있는 스레드 묶음 |
+| blur | 블러 | 이미지의 픽셀 값을 이웃과 평균내어 흐릿하게 만드는 필터 |
+| boundary (check) | 경계 (검사) | 배열 인덱스가 유효한 경계 내에 있는지 확인하는 것 |
+| broadcast | 브로드캐스트 | 1. 작은 차원의 데이터를 큰 차원으로 확장하여 연산. 예: 벡터를 행렬로 확장<br>2. 데이터를 여러 스레드에 복사하는 연산 (`warp.broadcast()`) |
+| buffer overflow | 버퍼 오버플로우 | 버퍼 경계를 넘어서 데이터를 쓰는 메모리 오류 |
+| butterfly (network) | 버터플라이 (네트워크) | 나비 모양의 데이터 교환 패턴. 병렬 알고리즘에서 사용 |
+| chunk | 청크 | 데이터를 나눈 덩어리. 각 블록이 처리하는 연속된 데이터 조각 |
+| coalescing | 병합 | 여러 스레드의 메모리 접근을 하나로 묶어서 효율을 높이는 방법 |
+| column-major | 열 우선 | 열을 연속으로 저장하는 메모리 레이아웃. Fortran 방식 |
+| compute-bound | 연산 바운드 | 연산 처리량에 의해 성능이 제한되는 상태 |
+| convolution | 합성곱 | 이미지나 신경망에서 필터를 씌우는 연산 |
+| data locality | 데이터 지역성 | 자주 쓰는 데이터를 가까운 메모리에 두는 것 |
+| deadlock | 교착 상태 | 스레드들이 서로를 기다리며 영원히 멈춘 상태 |
+| dense vector | 밀집 벡터 | 대부분의 원소가 0이 아닌 벡터. 임베딩의 출력 형태 |
+| dereference | 역참조 | 포인터가 가리키는 메모리의 값에 접근하는 것 |
+| dot product | 내적 | 두 벡터의 원소별 곱의 합 |
+| double-buffering | 더블 버퍼링 | 두 버퍼를 번갈아 쓰는 최적화 기법 |
+| DRAM | DRAM | Dynamic Random Access Memory. GPU의 전역 메모리. 용량이 크지만 느림 |
+| element-wise | 요소별 | 배열의 각 요소에 개별적으로 수행하는 연산 |
+| embedding | 임베딩 | 이산적인 토큰 인덱스를 밀집 벡터 표현으로 변환하는 연산 |
+| fragment | 프래그먼트 | 텐서 코어에서 워프가 처리하는 행렬 조각 단위. MMA 연산의 입출력 |
+| fusion | 퓨전 | 커널을 합쳐서 실행하는 최적화 기법 |
+| fused / unfused | 퓨전 / 언퓨전 | 퓨전이 적용된 / 적용되지 않은. "언(un-)" + 외래어 조합 패턴 |
+| GEMM | GEMM | General Matrix Multiply. 범용 행렬 곱셈. GPU 행렬 연산의 핵심 알고리즘 |
+| global index | 전역 인덱스 | 전체 데이터에서의 위치. `block_dim * block_idx + thread_idx`로 계산 |
+| global memory | 전역 메모리 | GPU 어디서든 접근할 수 있는 메모리 |
+| grid | 그리드 | 전체 계산을 담당하는 블록들의 집합 |
+| guard | 가드 | 경계 검사를 위한 조건문. `if i < size` 형태 |
+| halo (region) | 헤일로 (영역) | 타일 경계를 넘어 확장되는 추가 데이터 영역. ghost cell, guard cell이라고도 함 |
+| hidden dimension | 은닉 차원 | 신경망 내부 표현의 차원 수. 트랜스포머에서 각 토큰의 벡터 크기 |
+| host code | 호스트 코드 | CPU에서 실행되는 코드. GPU 작업을 설정하는 부분 |
+| in-place (computation) | 직접 저장 (연산) | 별도 메모리를 할당하지 않고 기존 버퍼에 결과를 직접 기록하는 방식 |
+| JIT | JIT | Just-In-Time. 실행 시점에 코드를 컴파일하는 방식. 빌드 단계 없이 빠른 반복 가능 |
+| kernel | 커널 | GPU에서 여러 스레드가 함께 실행하는 함수 |
+| kernel code | 커널 코드 | GPU에서 병렬로 실행되는 코드 |
+| lane | 레인 | 워프 내 각 스레드의 위치 (0-31) |
+| latency | 지연 시간 | 작업이 완료될 때까지 기다리는 시간 |
+| LayoutTensor | LayoutTensor | Mojo의 다차원 배열 추상화 타입 |
+| lockstep | 록스텝 | 워프 내 모든 스레드가 동일 명령을 동시에 실행하는 모드. SIMT의 핵심 동작 방식 |
+| loop unrolling | 루프 전개 | 반복문을 펼쳐서 반복 오버헤드를 줄이는 컴파일러 최적화 기법 |
+| marshalling | 마샬링 | 서로 다른 시스템 간 데이터 형식을 변환하는 과정. PyTorch 텐서와 Mojo GPU 커널 사이의 데이터 변환 등 |
+| matrix multiplication | 행렬 곱셈 | 두 행렬을 곱하는 연산 |
+| mbarrier | mbarrier | Mojo의 memory barrier API. `mbarrier_init()`, `mbarrier_arrive()`, `mbarrier_test_wait()` 등. 기본 `barrier()`보다 세밀한 동기화 제어 |
+| memcheck | memcheck | compute-sanitizer의 메모리 위반 탐지 도구 |
+| memory alignment | 메모리 정렬 | 데이터를 특정 바이트 경계에 맞춰 배치하는 것 |
+| memory bandwidth | 메모리 대역폭 | 단위 시간당 전송할 수 있는 데이터 양 |
+| memory fence | 메모리 펜스 | 메모리 작업 순서가 뒤바뀌지 않도록 보장하는 장치 |
+| memory hierarchy | 메모리 계층 구조 | GPU 메모리의 계층적 구조 (글로벌 → 공유 → 레지스터) |
+| memory layout | 메모리 레이아웃 | 데이터가 메모리에 배치되는 방식 |
+| memory leak | 메모리 누수 | 할당된 메모리를 해제하지 않아 발생하는 문제 |
+| memory violation | 메모리 위반 | 잘못된 메모리 영역에 접근하는 오류 |
+| memory-bound | 메모리 바운드 | 메모리 대역폭에 의해 성능이 제한되는 상태 |
+| mixed precision | 혼합 정밀도 | FP16/BF16 입력 + FP32 누적처럼 정밀도를 혼합하는 기법 |
+| MMA | MMA | Matrix-Multiply-Accumulate. 텐서 코어가 수행하는 기본 연산. `D = A × B + C` 형태의 행렬 프래그먼트 연산 |
+| normalization | 정규화 | 값을 일정 범위로 조정하는 것 |
+| occupancy | 점유율 | SM당 활성 워프 수 대비 최대 가능 워프 수의 비율 |
+| offset | 오프셋 | 메모리 시작 위치로부터의 거리. 인덱스 계산에 사용 |
+| overlap | 중첩 | 여러 작업을 동시에 수행하는 것. 복사 중첩 |
+| padding | 패딩 | 배열 끝을 0이나 특정 값으로 채워 크기를 맞추는 것 |
+| parallel | 병렬 | 여러 작업을 동시에 처리하는 방식 |
+| partial block | 부분 블록 | 데이터 끝에서 블록 크기를 다 채우지 못한 블록 |
+| pooling | 풀링 | 윈도우 내 값들을 하나로 합치는 연산. max pooling, average pooling 등 |
+| predicate | 프레디케이트 | 조건의 참/거짓을 나타내는 값. 병렬 알고리즘에서 파티션 소속을 결정 |
+| prefix sum | 누적 합 | 배열에서 각 위치까지의 누적 합을 구하는 알고리즘 |
+| primitive | 기본 요소 | 프로그래밍의 기본 도구. 동기화 기본 요소 |
+| profiling | 프로파일링 | 프로그램에서 느린 부분을 찾아내는 성능 분석 |
+| PTX | PTX | Parallel Thread Execution. NVIDIA GPU의 가상 어셈블리 언어. 컴파일러가 생성하는 중간 표현 |
+| race condition | 경쟁 상태 | 여러 스레드가 같은 데이터에 동시에 접근해서 생기는 오류 |
+| racecheck | racecheck | compute-sanitizer의 경쟁 상태 탐지 도구 |
+| reduction | 리덕션 | 여러 값을 합계나 최댓값처럼 하나의 값으로 줄이는 연산 |
+| register blocking | 레지스터 블로킹 | 레지스터에 값을 누적하여 메모리 트래픽을 줄이는 최적화 기법 |
+| roofline (model) | 루프라인 (모델) | 하드웨어 한계 대비 성능을 분석하는 모델 |
+| row-major | 행 우선 | 행을 연속으로 저장하는 메모리 레이아웃. C/Mojo 기본 방식 |
+| sanitizer | 새니타이저 | GPU 코드의 메모리 오류, 경쟁 상태 등을 탐지하는 검사 도구 |
+| SAXPY | SAXPY | Single-precision Alpha times X plus Y. `y[i] = α * x[i] + y[i]` 형태의 BLAS Level 1 표준 연산 |
+| segmentation fault | 세그멘테이션 폴트 | 접근 권한이 없는 메모리 영역에 접근할 때 발생하는 오류 |
+| shared memory | 공유 메모리 | 같은 블록 안의 스레드들이 함께 쓰는 빠른 메모리 |
+| shuffle | 셔플 | 워프 내 스레드 간 데이터 교환 |
+| SIMD | SIMD | Single Instruction Multiple Data. 벡터 연산 방식 |
+| SIMT | SIMT | Single Instruction Multiple Thread. GPU 실행 모델 |
+| single writer pattern | 단일 쓰기 패턴 | 하나의 스레드만 쓰기를 담당하는 동기화 패턴 |
+| sliding window | 슬라이딩 윈도우 | 데이터 위를 이동하며 처리하는 고정 크기 창 |
+| SM | SM | Streaming Multiprocessor. GPU의 연산 단위. 여러 워프를 동시에 실행하는 프로세서 |
+| softmax | 소프트맥스 | 벡터를 확률 분포로 정규화하는 함수 |
+| SRAM | SRAM | Static Random Access Memory. GPU의 공유 메모리에 해당. 용량이 작지만 빠름 |
+| stack trace | 스택 추적 | 오류 발생 시점까지의 함수 호출 경로 |
+| stencil | 스텐실 | 이웃 데이터를 참조하는 연산 패턴 |
+| stream compaction | 스트림 컴팩션 | 프레디케이트를 만족하는 요소만 연속으로 재배치하는 병렬 알고리즘 |
+| stride | 스트라이드 | 메모리 접근이나 반복의 간격. 리덕션에서 매 단계마다 절반으로 줄이는 보폭 |
+| swizzle (pattern) | 스위즐 (패턴) | 공유 메모리의 뱅크 충돌을 피하기 위해 데이터 주소를 비트 연산으로 재배치하는 기법 |
+| synchronization | 동기화 | 스레드들이 발맞춰 실행되도록 맞추는 것 |
+| synccheck | synccheck | compute-sanitizer의 동기화 버그 탐지 도구 |
+| tensor core | 텐서 코어 | GPU의 행렬 연산 전용 하드웨어 |
+| thread | 스레드 | 하나의 데이터를 처리하는 가장 작은 실행 단위 |
+| thread divergence | 스레드 분기 | 같은 워프 내 스레드들이 서로 다른 분기를 타는 현상 |
+| thread specialization | 스레드 특화 | 스레드 그룹마다 서로 다른 알고리즘을 실행하는 패턴. 데이터 병렬 처리와 대비 |
+| tiling | 타일링 | 큰 데이터를 작은 조각으로 나눠서 처리하는 방법 |
+| topology | 토폴로지 | 통신 또는 연결 구조의 형태. 버터플라이 네트워크의 레인 간 데이터 교환 패턴 |
+| transpose | 전치 | 행렬의 행과 열을 뒤바꾸는 연산. \\(A^T\\)로 표기 |
+| Undefined Behavior | 미정의 동작 | 프로그램의 동작이 정의되지 않은 상태 |
+| Warp | 워프 | 32개 스레드가 한 묶음으로 함께 움직이는 GPU의 기본 단위 |
+| zero padding | 제로 패딩 | 배열 경계 밖을 0으로 채우는 합성곱 경계 처리 기법 |
+| zero-cost abstraction | 제로 코스트 추상화 | 추상화해도 성능 손실 없이 머신 코드로 컴파일됨 |
+
+---
+
+## 기여하기
+
+용어 추가나 수정이 필요한 경우 이슈나 PR을 통해 제안해 주세요.
@@ -0,0 +1,45 @@
+[book]
+authors = ["Modular <hello@modular.com>", "Korean Translation"]
+language = "ko"
+src = "src"
+title = "Mojo 🔥 GPU 퍼즐"
+
+[build]
+build-dir = "../../html/ko"
+create-missing = false
+
+[output.html]
+additional-css = [
+    "theme/css/custom.css",
+    "theme/css/highlight.css",
+    "theme/css/tabs.css",
+    "theme/css/language-switcher.css",
+]
+additional-js = [
+    "theme/mojolang.js",
+    "theme/sidebar.js",
+    "theme/solution.js",
+    "theme/tabs.js",
+    "theme/language-switcher.js",
+    "theme/livereload-poll.js",
+    "theme/js/cjk-search.js",
+]
+default-theme = "light"
+preferred-dark-theme = "ayu"
+smart-punctuation = true
+no-section-label = true
+git-repository-url = "https://github.com/modular/mojo-gpu-puzzles"
+mathjax-support = true
+favicon_svg = true
+
+[output.html.search]
+enable = true
+
+[preprocessor.links]
+renderers = ["html"]
+
+[preprocessor.youtube]
+command = "python scripts/youtube_preprocessor.py"
+
+[preprocessor.i18n-status]
+command = "python scripts/i18n_status_preprocessor.py"