- ๊ธฐ์กด ์ฌ๋ ์๋ฎฌ๋ ์ด์ ์ ๊ฒฝ์ฐ, ํ์ฌ ํ๋ฐํ ์ฐ๊ตฌ ์งํ ์ค์ธ ๊ฐํํ์ต๊ณผ์ ์ฐ๋์ ๊ณ ๋ คํ์ง ์์ ๊ฒฝ์ฐ๊ฐ ๋ง์.
- ๊ธฐ์กด ์ฌ๋ ๋์์ ๊ฐํํ์ต์ ํ์ฉํ ์ฐ๊ตฌ๋ค์ ์ฃผ๋ก ์์ ๋ค์ด ๊ตฌ์ฑํ ์ฌ๋ ์๋ฎฌ๋ ์ด์ ํน์ ์ฌ๋ ํ๊ฒฝ์ ๊ทธ๋ฆฌ๋ ํ๊ฒฝ๊ณผ ๊ฐ์ด ๋งค์ฐ ๋จ์ํ ํ๊ฒฝ์ผ๋ก ์ถ์ฝํจ.
- ๊ธฐ์กด ๋์ ํ์ฌ ์ฌ๋ ์๋ฎฌ๋ ์ด์ ์ธ RoboCup Resque Simulation์ ์ํ์ ๋ณด ๋ฐ ํ์ฌ ์ฌ๋ ๋์์ ์ํ ์ฝ๋๋ฅผ ๋ถ์ํ๊ณ , ํด๋น ๋ถ๋ถ์ ํ์ด์ฌ ๊ธฐ๋ฐ์ ๋ฉํฐ ์์ด์ ํธ ๊ฐํํ์ต ๋ชจ๋ธ๊ณผ ์ฐ๋ํ๋ ๋ฐฉ์์ ๋ถ์
- ๋์ ํ์ฌ ์๋ฎฌ๋ ์ด์ ์ ์ต์ ํํ์ฌ ์ ๊ท๋ชจ์ ์ง๋ ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ ์๋ฎฌ๋ ์ด์ ๊ณผ ํ์ต์ด ๊ฐ๋ฅํ๋๋ก ๊ฐ์
-
์ํ ์ ๋ณด์ ํด์(์๋ฎฌ๋ ์ด์ --> ๊ฐํํ์ต ์์ด์ ํธ)
-
๋์ ๋์ ํ์ฌ ์๋ฎฌ๋ ์ด์ : ๊ฑด๋ฌผ์ ๋ํ ํ์ฌ ๋์์ ์ํํจ. ๋ฐ๋ผ์, ๊ฑด๋ฌผ์ ์๊ฐ ๋ง์์ง ์๋ก ์ํ ์ ๋ณด์ ํฌ๊ธฐ ๋ํ ์ฆ๊ฐํจ.
-
๋ง์ฝ, ํ์ฌ ๋ฐ์ ๊ฑด๋ฌผ๋ง์ ๊ณ ๋ คํ๋ค๋ฉด, ์ํ์ ๋ณด๋ ์์์ง์ง๋ง ์ํ์ ๋ณด๋ ๊ฐ๋ณ์ ์ธ ํฌ๊ธฐ๋ก ์ ์๊ฐ ๋์ด ์ผ๋ฐ์ ์ธ ๋ฅ๋ฌ๋์ ์ ๋ ฅ๋ฐ์ดํฐ๊ฐ ๋๊ธฐ ์ด๋ ค์.
-
๊ณ ์ ๋ ํฌ๊ธฐ์ ์ ๋ ฅ ๋ฐ์ดํฐ๋ฅผ ์ ์ํ๊ธฐ ์ํด์ ์๋ฎฌ๋ ์ด์ ์ธก์ผ๋ก๋ถํฐ์ ํ์ฌ ์ฌ๋ ์ํ ์ ๋ณด๋ฅผ ์ด๋ฏธ์ง ๋ฐ์ดํฐ๋ก ๋ณํํจ.
-
์๋ฎฌ๋ ์ด์ ์ํ ์ ๋ณด์ ํด์์ ์ํ ํ์ดํ๋ผ์ธ

-
๋ณํ๋ ์ํ ์ ๋ณด ์์
-
-
ํ์ ์ ๋ณด์ ํด์(๊ฐํํ์ต ์์ด์ ํธ --> ์๋ฎฌ๋ ์ด์ )
- ์๋ฎฌ๋ ์ด์
๋ด ๊ฑด๋ฌผ์ ์๊ฐ ์ฆ๊ฐํจ์ ๋ฐ๋ผ ๊ฐํํ์ต ์์ด์ ํธ๊ฐ ์ง์ ์ ์ผ๋ก ํ์ฌ ๋์ ๊ฑด๋ฌผ์ ์ ํํ ์ ์์.
- ์ : ์์์ ์ง๋ ๋ฐ์ดํฐ : 16,184 ๊ฐ์ ๊ฑด๋ฌผ์ด ์์.
- ๋ฐ๋ผ์ ๊ฐํํ์ต ์์ด์ ํธ๋ ๊ฑด๋ฌผ์ ์ง์ ์ ํํ์ง ์๊ณ , ๊ฑด๋ฌผ์ด ์ง๋๋ ํน์ฑ ๊ฐ์ ์์ธกํ๊ฑฐ๋, ํน์ฑ๊ฐ์ ๋ํ ์ฐ์ ์์๋ฅผ ์ฐ์์ ์ธ ๊ฐ(continuous value)๋ก ์ฐ์ถํ๋ ์ญํ ์ ์ํํ๋๋ก ๊ตฌ์ฑํจ.
- ์ ์ํ๋ ์๋ฃจ์ ์์ ํด๋น ์ฐ์๊ฐ์ ๋์ํ๋ ๊ฑด๋ฌผ๋ก ๋ณํํจ.
- ์๋ฎฌ๋ ์ด์
๋ด ๊ฑด๋ฌผ์ ์๊ฐ ์ฆ๊ฐํจ์ ๋ฐ๋ผ ๊ฐํํ์ต ์์ด์ ํธ๊ฐ ์ง์ ์ ์ผ๋ก ํ์ฌ ๋์ ๊ฑด๋ฌผ์ ์ ํํ ์ ์์.
-
์๋ฎฌ๋ ์ด์ ํ๊ฒฝ : ํ์ฌ ์ง์ ํ(18ํ), ๊ฑด๋ฌผ ์(3,355๊ฐ)

-
๋น๊ต๊ตฐ
- ์ ์ ์๋ฃจ์ ์ ์ฉ
- ๊ฑฐ๋ฆฌ์ ๋ฐ๋ฅธ ํ์ ์ ์ฑ
- Goyal์ ๋ ผ๋ฌธ ์์ ์ ์๋ ํ์ ์ ์ฑ
-
์คํ ๊ฒฐ๊ณผ
- ํ์ฌ ํผํด๊ฐ ์๋ ๊ฒฝ์ฐ๋ฅผ 100%, ๊ฑด๋ฌผ์ด ๋ชจ๋ ์ ์๋ ๊ฒฝ์ฐ๋ฅผ 0%๋ก ํ ๋,
- ๊ฐํํ์ต ์๋ฃจ์ ์ ์ฉ ๋ฐฉ์ : 99.2%
- ๊ฑฐ๋ฆฌ ๊ธฐ๋ฐ ํ์ ์ ์ฑ : 77.2%
- Goyal์์ ์ ์๋ ํ์ ์ ์ฑ : 57.1 %
- ํ์ต ๊ทธ๋ํ
- ํ์ฌ ํผํด๊ฐ ์๋ ๊ฒฝ์ฐ๋ฅผ 100%, ๊ฑด๋ฌผ์ด ๋ชจ๋ ์ ์๋ ๊ฒฝ์ฐ๋ฅผ 0%๋ก ํ ๋,
-
๋น๊ต๊ตฐ
- ๋ณด์ ๊ณ์ฐ์ $reward = a* reward_{local} + b * reward_{global} $ ์์ b ๊ฐ์ ์กฐ์ ํ๋ฉด์ ์์ด์ ํธ์ ์ด๊ธฐ์ฑ(selfishness)๋ฅผ ๋ฐ๊พธ์ด๊ฐ๋ฉฐ ๋น๊ตํจ
-
์คํ ๊ฒฐ๊ณผ
- ์์ด์ ํธ์ b ๊ฐ์ด ๋ฎ์ ์๋ก ๋ ๋์ ํ์ฌ ๋์๋๋ฅผ ๋ณด์ฌ์ฃผ์์ผ๋, overfitting์ ์ํด ํ์ฌ ๋์๋๊ฐ ๋ฎ์์ง.
- PyTorch 1.8
- ์ง๋๋ฐ์ดํฐ์ ๊ฒฝ์ฐ OSM๋ฐ์ดํฐ๋ฅผ GML ๋ฐ์ดํฐ๋ก ๋ณํํ๋ ๊ณผ์ ์ ํตํด ๊ตฌ์ฑํ ์ ์์.
- ๋ณธ ์ ์๋ฐฉ์์์๋ ์์์ ์ง๋ ๋ฐ์ดํฐ๋ฅผ GML๋ก ๋ณ๊ฒฝํ๊ธฐ ์ํด ์ด Github ์ฝ๋๋ฅผ ์์ ํ์ฌ ํ์ฉํจ.
- ์ง๋ ๊ท๋ชจ๊ฐ ์ปค์ง์ ๋ฐ๋ผ rays๋ผ๋ ํ์ฌ ์๋ฎฌ๋ ์ด์ ์ ์ํ ์ ๋ณด๋ฅผ ๋น๋ํ๋๋ฐ ๋งค์ฐ ๊ธด ์๊ฐ์ด ๊ฑธ๋ฆฌ๋ ์ฃผ์๋ฐ๋.
-
์๋ฒ์์ GUI๋ฅผ ๊ตฌ๋ํ์ง ๋ชปํ๋ ๊ฒฝ์ฐ, headless ์ต์ ์ ์กฐ์ ํด์ผํจ.
- function.sh ์ 192์ค ํ์ธ๋ฐ๋.
- ๋ํ, start.sh ์์ startKernel ์ํ์ nogui ๋ gui ๊ด๋ จ ์ต์ ์.
-
ํ์ด์ฌ ์ฝ๋๋ฅผ ์คํํ๋ฉด ์๋ฐํ๋ก์ธ์ค๋ฅผ ๊ฐ์ด ๋์ฐ๊ณ , ์๋ฐํ๋ก์ธ์ค์์๋ ์ํผ์๋ ๋ณ ์คํ ์๋ฅผ ๋ฐ์ ์คํ ์๋ง๋ค ์๋ฎฌ๋ ์ด์ ์ ์ด๊ธฐํํจ.
- RCRS ์๋ฎฌ๋ ์ด์ ์์ ๋งค ์ํผ์๋์ ๊ธธ์ด๋ common.cfg์ episode.length๋ฅผ ํตํด ์ ๋ ฅ๋ฐ๊ณ , ์ ์ฒด ์๋ฎฌ๋ ์ด์ ์ ๊ธธ์ด๋ kernel.timestep์ ์ํด ์กฐ์ ๋จ.
~/.conda/envs/torch7/bin/python main.py --itr_before_train 33 --action_space 1 --alpha 1.0 --beta 0.01 --aux_reward 0.1 --scale_reward 0.01 --lr_scale 0.1 --out_activation 1.0 --final_beta=0.01 --init_beta 0.01 --file_prefix $SLURM_JOBID



