直接用minimize跑还行,要是用朴素的递归下降很难跑出又快又好的结果。要么learning rate太大,导致无法收敛,要么得跑个十万次才能收敛到能接受的结果(还是实现了变长learning rate的前提下) 一度以为我代码有问题……
直接用minimize跑还行,要是用朴素的递归下降很难跑出又快又好的结果。要么learning rate太大,导致无法收敛,要么得跑个十万次才能收敛到能接受的结果(还是实现了变长learning rate的前提下)
一度以为我代码有问题……