modify search

fffasttime · fffasttime · commit f414915b85c4 · 2018-06-14T22:48:22.000+08:00
add UCT_RAVE, but disabled
diff --git a/cppsrc/Board.cpp b/cppsrc/Board.cpp
@@ -45,8 +45,7 @@ int BoardArray<int>::countv(int col) const
 template <>
 void BoardArray<float>::clear()
 {
-	for (int i = 0; i < BLSIZE; i++)
-		m[i] = 0;
+	memset(m, 0, sizeof(m));
 }
 
 template <>
diff --git a/cppsrc/Search.cpp b/cppsrc/Search.cpp
@@ -61,6 +61,8 @@ MCTS::MCTS(Board &_board, int _col, NN *_network, int _playouts):boardhash(_boar
 	playouts = _playouts;
 	tr = new Node[(playouts+2)*BLSIZE];
 	chlist = new Board[playouts + 2];
+	ravelist = new BoardWeight[playouts + 2];
+	raveclist = new Board[playouts + 2];
 	Prior::setbyBoard(board);
 	Prior::setPlayer(nowcol);
 	starttime = clock();
@@ -126,13 +128,16 @@ int MCTS::selection(int cur)
 		Val father_val = (-tr[cur].sumv / tr[cur].cnt + 1.0f) / 1.1f - 1.0f;
 		static const Val father_decay = 0.5f;
 		Val frac1 = powf(father_decay, tr[ch].cnt);
-
-		if (tr[ch].is_end) frac1 = 0;
+		Val rave_cnt = (Val)(*tr[cur].cnt_rave)[i];
+		Val rave_win = (*tr[cur].sum_rave)[i] / rave_cnt;
+		//Val rave_beta = rave_cnt /(rave_cnt + tr[ch].cnt + 2*rave_cnt*tr[ch].cnt);
+		Val rave_beta = 0.0f;
+		if (tr[ch].is_end) frac1 = 0, rave_beta = 0;
 
 		if (tr[ch].cnt == 0)
 			ucb = father_val + var_ele;
 		else
-			ucb = frac1 * father_val + (1 - frac1)*tr[ch].sumv / tr[ch].cnt + var_ele;
+			ucb = rave_beta * rave_win+(1-rave_beta)*(frac1 * father_val + (1 - frac1)*tr[ch].sumv / tr[ch].cnt) + var_ele;
 		if (ucb > maxv)
 		{
 			maxv = ucb;
@@ -249,15 +254,21 @@ void MCTS::expand(int cur,RawOutput &output, Board &avail)
 	//board.debug();
 	//std::cout<<"netwin:"<<output.v<<'\n';
 	tr[cur].ch = &chlist[chlistcnt];
+	tr[cur].sum_rave = &ravelist[chlistcnt];
+	tr[cur].cnt_rave = &raveclist[chlistcnt];
 	(*tr[cur].ch).clear();
+	(*tr[cur].sum_rave).clear();
+	(*tr[cur].cnt_rave).clear();
 	chlistcnt++;
 	for (int i = 0; i < BLSIZE; i++)
 		if (avail[i]) //for valid
 		{
 			(*tr[cur].ch)[i]=trcnt;
-			tr[trcnt].sumv = tr[trcnt].sum_rave = 0.0f;
+			tr[trcnt].sumv = 0.0f;
 			tr[trcnt].ch = nullptr;
-			tr[trcnt].cnt = tr[trcnt].cnt_rave = 0;
+			tr[trcnt].sum_rave = nullptr;
+			tr[trcnt].cnt_rave = nullptr;
+			tr[trcnt].cnt = 0;
 			tr[trcnt].policy = output.p[i];
 			tr[trcnt].move = i;
 			tr[trcnt].fa = cur;
@@ -290,6 +301,16 @@ void MCTS::simulation_back(int cur)
 		val = -fabs(val);
 	
 backprop:
+	int tcur = cur;
+	int move = tr[cur].move;
+	while (tcur > 0)
+	{
+		tcur = tr[tcur].fa;
+		(*tr[tcur].sum_rave)[move] += val;
+		(*tr[tcur].cnt_rave)[move] ++;
+		tcur = tr[tcur].fa;
+	}
+
 	tr[cur].sumv += val;
 	tr[cur].cnt++;
 
diff --git a/cppsrc/Search.h b/cppsrc/Search.h
@@ -26,11 +26,13 @@ class MCTS
 	NN* network;
 	struct Node
 	{
-		Val sumv,policy, sum_rave;
-		int cnt,cnt_rave; int fa;
+		Val sumv,policy;
+		int cnt; int fa;
 		int move;
 		bool is_end;
 		Board *ch;
+		Board *cnt_rave;
+		BoardWeight *sum_rave;
 		void print()
 		{
 			//fout << "rate:" << score / cnt << " cnt:" << cnt << " " << Coord(p) << " ch:";
@@ -40,6 +42,8 @@ class MCTS
 	};
 	Node *tr;
 	Board *chlist;
+	Board *raveclist;
+	BoardWeight *ravelist;
 	std::map<unsigned long long, int> hash_table;
 	BoardHasher boardhash;
 	const int root = 0;
@@ -67,6 +71,8 @@ class MCTS
 	{
 		delete[] tr;
 		delete[] chlist;
+		delete[] ravelist;
+		delete[] raveclist;
 	}
 };
 

Original file line number	Diff line number	Diff line change
`@@ -45,8 +45,7 @@ int BoardArray<int>::countv(int col) const`
`45`	`45`	`template <>`
`46`	`46`	`void BoardArray<float>::clear()`
`47`	`47`	`{`
`48`		`- for (int i = 0; i < BLSIZE; i++)`
`49`		`- m[i] = 0;`
	`48`	`+ memset(m, 0, sizeof(m));`
`50`	`49`	`}`
`51`	`50`
`52`	`51`	`template <>`