2

我正在编写一个使用带有 alpha-beta 修剪的 minimax 的 Othello 引擎。它工作正常,但我发现以下问题:

当算法发现位置丢失时,它会按预期返回 -INFINITY,但在这种情况下,我无法跟踪“最佳”移动……位置已经丢失,但无论如何它应该返回有效移动(最好是像好的国际象棋引擎那样存活时间更长的棋步)。

这是代码:

private float minimax(OthelloBoard board, OthelloMove best, float alpha, float beta, int depth)
{             
    OthelloMove garbage = new OthelloMove();             
    int currentPlayer = board.getCurrentPlayer();

    if (board.checkEnd())
    {                        
        int bd = board.countDiscs(OthelloBoard.BLACK);
        int wd = board.countDiscs(OthelloBoard.WHITE);

        if ((bd > wd) && currentPlayer == OthelloBoard.BLACK)                
            return INFINITY;
        else if ((bd < wd) && currentPlayer == OthelloBoard.BLACK)                           
            return -INFINITY;            
        else if ((bd > wd) && currentPlayer == OthelloBoard.WHITE)                            
            return -INFINITY;            
        else if ((bd < wd) && currentPlayer == OthelloBoard.WHITE)                            
            return INFINITY;            
        else                             
            return 0.0f;            
    }
    //search until the end? (true during end game phase)
    if (!solveTillEnd )
    {
        if (depth == maxDepth)
            return OthelloHeuristics.eval(currentPlayer, board);
    }

    ArrayList<OthelloMove> moves = board.getAllMoves(currentPlayer);             

    for (OthelloMove mv : moves)
    {                        
        board.makeMove(mv);            
        float score = - minimax(board, garbage, -beta,  -alpha, depth + 1);           
        board.undoMove(mv);             

        if(score > alpha)
        {  
            //Set Best move here
            alpha = score;                
            best.setFlipSquares(mv.getFlipSquares());
            best.setIdx(mv.getIdx());        
            best.setPlayer(mv.getPlayer());                              
        }

        if (alpha >= beta)
            break;                

    }                
    return alpha;
}

我称之为:

AI ai = new AI(board, maxDepth, solveTillEnd);

//create empty (invalid) move to hold best move
OthelloMove bestMove = new OthelloMove();
ai.bestFound = bestMove;
ai.minimax(board, bestMove, -INFINITY, INFINITY, 0);

//dipatch a Thread
 new Thread(ai).start();
//wait for thread to finish

OthelloMove best = ai.bestFound();

当搜索一个丢失的位置(例如,想象它稍后丢失 10 步)时,上面的最佳变量等于作为参数传递的空无效移动......为什么?

谢谢你的帮助!

4

3 回答 3

3

您的问题是您使用 -INFINITY 和 +INFINITY 作为赢/输分数。您的赢/输分数应该高于/低于任何其他位置评估分数,但不等于您的无穷大值。这将保证即使在无可救药的位置上也会选择移动。

于 2012-03-01T07:40:15.943 回答
2

自从我实现 minimax 以来已经有很长时间了,所以我可能是错的,但在我看来,如果您遇到赢或输的举动,您的代码不会更新最佳变量(这发生在 (board.checkEnd() ) 方法顶部的声明)。

此外,如果您希望您的算法尽可能多地获胜,或者如果无法获胜,则尽可能少地失败,我建议您更新您的 eval 函数。在获胜的情况下,它应该返回一个较大的值(大于任何非获胜情况),您使用该值赢得的越多。在失败的情况下,它应该返回一个很大的负值(小于任何非失败的情况),你损失的越多,值越少。

在我看来(没有尝试过),如果您以这种方式更新您的 eval 函数并完全跳过检查 if (board.checkEnd()),您的算法应该可以正常工作(除非它有其他问题)。祝你好运!

于 2012-03-01T07:23:39.290 回答
0

如果您可以检测到一个位置是真正赢了还是输了,那么这意味着您正在解决残局。在这种情况下,您的评估函数应该返回游戏的最终得分(例如,64 代表全胜,31 代表险胜),因为这可以准确计算,与您将在中局评估的估计不同。

于 2012-03-01T08:55:28.897 回答