人気ブログランキング | 話題のタグを見る

人生の局面は計算しきれない、そこでどう動くか 人間ってナンだ?超AI入門 第5回「勝負する」






囲碁や将棋で人間を超えたAI

「運」や「ツキ」の正体とは?人工知能と人間で菖蒲の読み方に違うがあるのか?人間の勝負にかける行動原理とは?

ゲストはプロポーカー選手木原直哉。

ポーカーは運の要素も多く、一晩ならわからないが、一か月単位では強い人間が勝つ。

バックギャモンでは2000年にAIが人間を逆転したが、AIを人間が学んで人間のプロも強くなり2000年のAIよりは今の人間は強くなっている。

囲碁や将棋はすべての情報が明らかになっている完全情報ゲーム。麻雀やポーカーは相手の手が分からない不完全情報ゲーム。

アラン・チューリングはチェスのAIを考えた。その後チェスのディープブルーや完全情報ゲームで一番高度な碁のAlphaGoが人間に勝った。

偶然の要素が入る世界では運やツキを捕まえるセンスで人間に分があるのか?

探索木(ゲームで起き得る曲面を現した図)をつくって一番良さそうな手を考えるのがゲームをAIが攻略する方法。

囲碁や将棋は強化学習で今の状況からどう動けばいいかスコア付けし、AIは学ぶ。

将棋のポナンザはまず過去の棋譜を学ばせていたが、それだけでは足りないと、AI同士で対戦させて未知の局面を学ばせた。その数1兆局面。この膨大な経験をフィードバックした。

人間の勝利の定石が時に足枷になることが起きるようになった。

勝負勘を説明するのは難しい。プロはAIみたいな考えをして、より正しいプレイを心掛けている。

麻雀とかは「流れ」が話されるが、木原さんがいうにはそれは過去を語る話。けれど「流れを意識してのプレイ」で未来に影響を及ぼすことがある。”流れ”は人間が作り出した現象。

AIはどう偶然に立ち向かう?

将棋は手持ちの駒と駒の配置に点数を付けて評価しているが、麻雀はインターネット上に乗っているゲームデータから、局面ごとの相手の手牌を推定することから機械学習を始める。

ゲームのAIは「現在の状態」から「次の手の展開」を推測し、その探索木の先に「勝ち」「負け」を読む。
分岐数が5で50手先だと、5の50乗。とてもじゃないが計算できない。これが将棋だと10の226乗局面あるといわれており、これは2017年の最高のコンピューターでも138億年かけても解析しきれない数。つまり事実上すべての探索木を解析するのは不可能。

ゴールの100点から逆算して局面に点数を付け、良さそうなのを選ぶ。一見すると悪いけれど先読みすると良い手もある。

点数は将棋なら手駒から計算する。完全情報ゲームは評価点が付けやすい。けれど不完全情報だと難しい。

麻雀だと「こういう捨て牌ならこう」と限られた情報から相手の手を予測して計算。何を切ると上がりやすいかを選択。

プレイヤーは見えている情報から見えない情報を評価することが必要。膨大な対局データから確率を予測し評価点を算出。AIは期待値が高い手を選ぶ。

ポーカーはベッティングラウンドという勝負に乗るか降りるかを選ぶタイミングが4回あるのでそこで感覚を掴む。

不完全情報ゲームの究極は人狼。ウソをつきあい騙し合うゲーム。最近研究対象として取り上げられている。

AIが会話で人間の信頼を勝ち取る

会話が成り立つには「自分が何を思い相手にどう思われているかを把握する」ことが必要。なので「人間とは何か」「世界とは何か」を理解する事が必要。また主語が省略されるとAIは理解が難しい。この「心のモデル」をシュミレートするには小さい頃から心の理論を学ぶ。ここが要。

ビジネス上で交渉する時も相手の欲しいものを考えて一致点を探る処が重要。

人狼は言葉を使うために選択局面が無限大。ここで人工知能が行ったのはモンテカルロ木探索。サイコロを振ってまずその結果に従う事から始める方法。これは2006年以降に囲碁や将棋のAIで劇的な効果を上げた。

人狼では相手の役職を決める上で使う。ランダムに仮定して、ゲーム終了まで何度も予測する。その結果から自分が取った選択から勝利につながった探索木がわかる。勝つために必要な行動を後から評価する。

しかし人狼の選択は言葉のみ。過去に行われた局面にならないことも多く、攻略は困難。

選択肢が膨大でもランダムな選択を活かし勝つ確率の高い一手を取るのがモンテカルロ木探索。名前のモデルはモナコのカジノ・モンテカルロ。ギャンブルも科学も答えはルーレットに聴け?

人狼をみると「AIの人間性」を想う。なぜ人間が「人間性」を持っているかは、社会的な動物なので協力した方が得な場面では協力し、争った方が良い場面では争う、環境において一番合理的な選択は何かを取るように生物として仕組まれている。

AIが苦手なゲーム、人間が得意なのは「転移学習」。新しいルールが追加されることがゲームの世界では増えてきている。知らないルールを追加して新しいゲームで勝負するとAIはなかなか勝つことが出来ない。ラスベガスでは常に新しいゲームが入れられてくる。

人間は抽象化能力が高い。総合的な判断ができる。AIは局所的。だからこそAIには価値判断のために大量のデータが必要となる。

人生は不完全ゲーム。”あの時あの選択をしていたら…ああ話せば、あの時動いていれば”それが一つ縁起の味になっていると想います。様々なポイントで探索木が分岐する。

完全情報ではないし、完全情報だとしたって計算なんてできない膨大さ。言葉をはじめ選択肢は無限大だから、モンテカルロ木探索のようにえいやと賭けて動きながらOODAしていかなければならない、静的でなく動的な思考身体性が人生では求められます。

私は「心のモデル」が幼稚な場面が多く、意思疎通に失敗したり、踏み出せなかった悔恨があったりすること結構あって。それでも、閉じこもるのでなく理解を開いて、PULLそしてPUSHの働きかけをしないと人生が詰んでしまうなと。

浅い合理性を超えて真の人間理解の為のヒトの鋒が抽象化であり転移学習なのだなと。と、同時に棋士がやっているようにAIがビッグデータを用いて分析した戦略から学んで人生という樹を登る援けにすることはありだなとも思いました。










by wavesll | 2018-11-08 01:37 | 小ネタ | Comments(0)
<< 旅音▲▲ - otomoni ... かんばらけんたの車椅子Danc... >>