損失関数は一般には凸では無くて局所最小を多数持つとされる。
その局所最小が沢山あっても(そのうちの1つ、あるいは複数かもしれないが、は真の最小)
それらの各位置における損失関数の値がどれもたいして変わらないのなら、真の最小に
拘るのは意味が無い。そもそもモデル化の段階で作り出した損失関数に厳密な最小化を
要求することにどれほど意味があるのだろうか。値が似たりよったりならどの最小点でも
区別することには(それが数学的なモデルなら別だが)意味がないのではないか?
しかし極小値が似たりよったりであっても、その極小を与える点(極小点)の座標は
それぞれある程度違っていて位置にあるかもしれない。
 それはこう考えられる。同じことを上手くやるやり方にもいろいろあり得るという
ことだ。だったら、そのような極小点をいくつか見つけたらその中の一つだけを残して
後を棄てるのではなくて、それらの極小点にパラメタを固定した学習機を複数用意して
それぞれで予測をさせて多数決をとるなどのやり方で総合したらどうだろうか?
1つの点にパラメタを固定した学習器はあることに対しては得意だが別のことについては
不得意かもしれない、そういうパラメタの選び方の違いから生じる特性の異なる学習器に
合議をさせれば、運の悪い場合に予測が大きく外れることがなくなるのではないだろうか?