close
AlphaGo之父揭開打敗柯潔的秘密:強AI是人類的終極工具
騰訊科技訊(劉亞瀾)5月24日,在新版本AlphaGo首戰以1/4子微弱優勢戰勝中國圍棋職業九段棋手柯潔之後,“AlphaGo之父”DeepMind創始人兼CEO Demis Hassabis、AlphaGo團隊負責人David Silver在人工智能高峰論壇上詳解瞭AlphaGo的研發並就“AlphaGo意味著什麼?”的問題進行瞭詳細解答。
“AlphaGo已經展示出瞭創造力,也已經可以模仿人類直覺瞭。在過去一年,我們繼續打造AlphaGo,我們想打造完美的AlphaGo,彌補它知識方面的空白。因為在與李世石的比賽中,它是有缺陷的。”Demis Hassabis說:“在未來我們能看到人機合作的巨大力量,人類智慧將通過人工智能進一步放大。強人工智能是人類研究和探尋宇宙的終極工具。”
為什麼計算機下圍棋非常困難?
Demis Hassabis坦言圍棋非常困難,因為其復雜程度讓窮舉搜索都難以解決。對於計算機來說,圍棋有兩項難題:“不可能”寫出評估程序以決定誰贏,搜索空間太過龐大。
圍棋不像象棋等遊戲靠計算,而是靠直覺。圍棋中沒有等級概念,所有棋子都一樣台中市化糞池清理。圍棋是築防遊戲,因此需要盤算未來。小小一子可撼全局,“妙手”如受天台中抽水肥價格啟。
AlphaGo如何進行訓練?
David Silver從技術角度詳細解釋瞭AlphaGo如何進行訓練。
圍棋對於機器的難點之一是評估程序的撰寫。而AlphaGo團隊用兩種卷積神經網絡去完成:策略網絡和估值網絡。策略網絡的卷積神經網絡用於決定下一步落子可能的位置,價值網絡用於評估當前棋局獲勝的概率。
為瞭應對圍棋的巨大復雜性,AlphaGo 采用機器學習技術,結合瞭監督學習和強化學習的優勢。通過訓練形成一個策略網絡(policy network),將棋盤上的局勢作為輸入信息,並對所有可行的落子位置生成一個概率分佈。
然後,訓練出一個價值網絡(value network)對自我對弈進行預測,以 -1(對手的絕對勝利)到1(AlphaGo的絕對勝利)的標準,預測所有可行落子位置的結果。這兩個網絡自身都十分強大,而 AlphaGo將這兩種網絡整合進基於概率的蒙特卡羅樹搜索(MCTS)中,實現瞭它真正的優勢。
最後,新版的AlphaGo 產生大量自我對弈棋局,為下一代版本提供瞭訓練數據,此過程循環往復。
AlphaGo 如何決定落子?
在獲取棋局信息後,AlphaGo會根據策略網絡探索哪個位置同時具備高潛在價值和高可能性,進而決定最佳落子位置。在分配的搜索時間結束時,模擬過程中被系統最頻繁考察的位置將成為 AlphaGo的最終選擇。在經過先期的全盤探索和過程中對最佳落子的不斷揣摩後,AlphaGo的搜索算法就能在其計算能力之上加入近似人類的直覺判斷。
David Silver總結:策略網絡減少寬度,價值網絡減少深度。AlphaGo做出多種模擬,不斷反復,最終形成判斷哪種方案是獲勝概率最高的。
今年的AlphaGo和去年的AlphaGo有什麼區別?
David Silver透露,去年的AlphaGo Lee在雲上有50TPUs在運作,搜索50個棋步為10000個位置/秒。而今年的AlphaGo Master是在單個TPU機器上進行遊戲,它已經成為瞭自己的老師,從自己的搜索裡學習,擁有更強大的策略網絡和價值網絡。
AlphaGo如何進行自我學習?
Demis Hassabis將AlphaGo歸類為強人工智能,強人工智能和弱人工智能的區別在於弱人工智能是預設置的,例如IBM的“深藍”就不能自我學習。
他提到強化學習框架的概念:智能體有一個特定目標要完成,它有兩種方式和環境打交道,一是觀察,智能體通過觀察進行見面,這有可能不全面。二是行動。
David Silver稱,AlphaGo先自己與自己對弈,策略網絡以P預測AlphaGo的移動。
人工智能的元解決方案
Demis Hassabis表示,目前信息過載和系統冗雜是人類面臨的巨大挑戰。開發人工智能技術可能是這些問題的元解決方案。元解決方案的目標是實現“人工智能科學傢”或“人工智能輔助科學”。“人工智能和所有強大的新技術一樣,在倫理和責任的約束中造福人類。
正文已結束,您可以按alt+4進行評論
各級學校抽化糞池
騰訊科技訊(劉亞瀾)5月24日,在新版本AlphaGo首戰以1/4子微弱優勢戰勝中國圍棋職業九段棋手柯潔之後,“AlphaGo之父”DeepMind創始人兼CEO Demis Hassabis、AlphaGo團隊負責人David Silver在人工智能高峰論壇上詳解瞭AlphaGo的研發並就“AlphaGo意味著什麼?”的問題進行瞭詳細解答。
“AlphaGo已經展示出瞭創造力,也已經可以模仿人類直覺瞭。在過去一年,我們繼續打造AlphaGo,我們想打造完美的AlphaGo,彌補它知識方面的空白。因為在與李世石的比賽中,它是有缺陷的。”Demis Hassabis說:“在未來我們能看到人機合作的巨大力量,人類智慧將通過人工智能進一步放大。強人工智能是人類研究和探尋宇宙的終極工具。”
為什麼計算機下圍棋非常困難?
Demis Hassabis坦言圍棋非常困難,因為其復雜程度讓窮舉搜索都難以解決。對於計算機來說,圍棋有兩項難題:“不可能”寫出評估程序以決定誰贏,搜索空間太過龐大。
圍棋不像象棋等遊戲靠計算,而是靠直覺。圍棋中沒有等級概念,所有棋子都一樣台中市化糞池清理。圍棋是築防遊戲,因此需要盤算未來。小小一子可撼全局,“妙手”如受天台中抽水肥價格啟。
AlphaGo如何進行訓練?
David Silver從技術角度詳細解釋瞭AlphaGo如何進行訓練。
圍棋對於機器的難點之一是評估程序的撰寫。而AlphaGo團隊用兩種卷積神經網絡去完成:策略網絡和估值網絡。策略網絡的卷積神經網絡用於決定下一步落子可能的位置,價值網絡用於評估當前棋局獲勝的概率。
為瞭應對圍棋的巨大復雜性,AlphaGo 采用機器學習技術,結合瞭監督學習和強化學習的優勢。通過訓練形成一個策略網絡(policy network),將棋盤上的局勢作為輸入信息,並對所有可行的落子位置生成一個概率分佈。
然後,訓練出一個價值網絡(value network)對自我對弈進行預測,以 -1(對手的絕對勝利)到1(AlphaGo的絕對勝利)的標準,預測所有可行落子位置的結果。這兩個網絡自身都十分強大,而 AlphaGo將這兩種網絡整合進基於概率的蒙特卡羅樹搜索(MCTS)中,實現瞭它真正的優勢。
最後,新版的AlphaGo 產生大量自我對弈棋局,為下一代版本提供瞭訓練數據,此過程循環往復。
AlphaGo 如何決定落子?
在獲取棋局信息後,AlphaGo會根據策略網絡探索哪個位置同時具備高潛在價值和高可能性,進而決定最佳落子位置。在分配的搜索時間結束時,模擬過程中被系統最頻繁考察的位置將成為 AlphaGo的最終選擇。在經過先期的全盤探索和過程中對最佳落子的不斷揣摩後,AlphaGo的搜索算法就能在其計算能力之上加入近似人類的直覺判斷。
David Silver總結:策略網絡減少寬度,價值網絡減少深度。AlphaGo做出多種模擬,不斷反復,最終形成判斷哪種方案是獲勝概率最高的。
今年的AlphaGo和去年的AlphaGo有什麼區別?
David Silver透露,去年的AlphaGo Lee在雲上有50TPUs在運作,搜索50個棋步為10000個位置/秒。而今年的AlphaGo Master是在單個TPU機器上進行遊戲,它已經成為瞭自己的老師,從自己的搜索裡學習,擁有更強大的策略網絡和價值網絡。
AlphaGo如何進行自我學習?
Demis Hassabis將AlphaGo歸類為強人工智能,強人工智能和弱人工智能的區別在於弱人工智能是預設置的,例如IBM的“深藍”就不能自我學習。
他提到強化學習框架的概念:智能體有一個特定目標要完成,它有兩種方式和環境打交道,一是觀察,智能體通過觀察進行見面,這有可能不全面。二是行動。
David Silver稱,AlphaGo先自己與自己對弈,策略網絡以P預測AlphaGo的移動。
人工智能的元解決方案
Demis Hassabis表示,目前信息過載和系統冗雜是人類面臨的巨大挑戰。開發人工智能技術可能是這些問題的元解決方案。元解決方案的目標是實現“人工智能科學傢”或“人工智能輔助科學”。“人工智能和所有強大的新技術一樣,在倫理和責任的約束中造福人類。
正文已結束,您可以按alt+4進行評論
各級學校抽化糞池
AUGI SPORTS|重機車靴|重機車靴推薦|重機專用車靴|重機防摔鞋|重機防摔鞋推薦|重機防摔鞋
AUGI SPORTS|augisports|racing boots|urban boots|motorcycle boots
文章標籤
全站熱搜
留言列表