快捷搜索:  

无需调控而胜任不同任务 这种AI更接近人类思考方式

纽约【大】【学】心理【学】与认知科【学】教授马库斯最近【和】【人】【工】智【能】企业“深层思维”(DeepMind)杠【上】【了】。继【前】【不】久【在】推特(Twitter)【上】质疑米【国】通【用】【人】【工】智【能】研究组织OpenAI【的】解魔【方】机械手【之】【后】,近【日】【他】【又】【对】“深层思维”新推【出】【的】《星际争霸2》智【能】体“阿尔【法】星”(AlphaStar)【进】化版提【出】六【大】质疑。此次,【他】【的】质疑点并【不】【是】游戏表现【本】身,【而】【是】指向【了】更高【的】层【面】:将【来】通【用】智【能】研究【的】意义。

近【年】最酷【成】果【都】【来】【自】深度强化【学】习

此次OpenAI推【出】【的】解魔【方】机器手,并【不】【是】像【以】往【一】【样】使【用】专业算【法】【来】解决某【一】【个】特【定】任务(如果换【一】【个】任务,【还】需【要】重新编程),【而】【是】通【过】某【种】【学】习【方】【法】,【对】机器【人】【进】【行】训练,让机械手具备类【人】手【的】解决【问】题【的】【能】力。但马库斯却认【为】【这】【个】【成】果描述【有】误导,更恰当【的】描述应该【是】“【用】强化【学】习操纵魔【方】”【可】【能】者【是】“【用】灵巧【的】机器【人】手操纵物体【的】【进】展”。

“马库斯【过】【于】强调‘【用】强化【学】习操纵魔【方】’【有】点挑剔字眼,其实OpenAI魔【方】机器手【和】‘深层思维’【发】布【的】《星际争霸2》智【能】体‘阿尔【法】星’【进】化版【都】使【用】【了】深度强化【学】习技术。深度强化【学】习【是】目【前】公认【的】【在】现【有】技术【中】最【有】【可】【能】达【成】通【用】【人】【工】智【能】【的】技术。”【天】津【大】【学】智【能】与计算【学】【部】软件【学】院副教授郝建业解释【说】,目【前】机器【学】习【有】【三】【大】【分】支,监督【学】习、非监督【学】习【和】强化【学】习,深度【学】习属【于】监督【学】习【里】目【前】最【主】流【的】【一】类技术。深度强化【学】习【是】深度【学】习与强化【学】习【的】融合,【是】将深度神【经】网站整合【到】强化【学】习框架当【中】。

“近几【年】,深度强化【学】习【发】展迅猛,它【在】处理复杂、【多】【方】【面】【和】决策【问】题【方】【面】显示【出】巨【大】【的】潜力。目【前】深度强化【学】习技术【主】【要】应【用】【在】【一】些游戏、比赛【中】。”郝建业介绍,2016【年】,谷歌【的】“阿尔【法】围棋”(AlphaGo)击败【了】世界顶级围棋选手李世石、柯洁,轰【动】【一】【时】,【成】【为】【人】【工】智【能】领域【的】【一】【个】【里】程碑。“阿尔【法】围棋”【的】核心【就】【在】【于】使【用】【了】深度强化【学】习算【法】,使【得】计算机【能】够通【过】【自】【对】弈【的】【方】式【不】断提升棋力。此【后】【又】【有】脸书(Facebook)【在】DOTA2游戏【中】打败【了】顶级职业选手;CMU团队研【发】【的】德州扑克AI冷扑【大】师轻松击败顶级玩【家】。

此外,“深层思维”【还】运【用】深度强化【学】习优化【了】数据【中】心【的】耗【能】;谷歌则利【用】深度强化【学】习完【成】深度神【经】网站【的】【自】【动】架构搜索,提【出】【了】AutoML服务,借此将机器【学】习【作】【为】【一】【种】服务推广【到】千【家】万户。【在】【我】【国】,【对】【于】深度强化【学】习技术【的】应【用】【也】【不】少,阿【里】、腾讯、百度等【国】内团队将深度强化【学】习应【用】【到】搜索、推荐、营销、派单【和】路径规划等实际【问】题【的】决策【中】。

最【有】【可】【能】达【成】通【用】【人】【工】智【能】【的】技术

【人】【工】智【能】【发】展【到】现【在】【的】高度,技术【上】较【大】【的】功臣应该属【于】深度【学】习算【法】。深度【学】习利【用】【多】层神【经】网站,【从】海量【的】数据【中】【学】习,【从】【而】达【成】【对】将【来】【的】预测,并使【人】【工】智【能】系统越【来】越智【能】。目【前】【我】【们】应【用】【的】安防监控、【自】【动】驾驶、语音识别、百度【地】图等【都】【是】深度【学】习技术【在】图像视觉、语音识别、【自】然语言理解等领域【的】应【用】。

【而】强化【学】习【也】【是】目【前】机器【学】习领域【的】热门技术,与基【于】已知标签训练模型【的】监督【学】习【不】【同】,强化【学】习【能】够【在】【没】【有】计算机【的】明确指示【下】,像【人】【一】【样】达【成】【自】【主】【学】习。当达【到】【一】【定】【的】【学】习量【之】【后】,强化【学】习系统【就】【能】够预测【出】正确【的】结果。“强化【学】习【的】基【本】思想【是】,【学】习【在】【不】【同】环境【和】【不】【同】状态【下】,哪【种】【行】【为】【能】够使【得】预期利益最【大】化。”郝建业介绍,新版“阿尔【法】星”智【能】体【就】采【用】【了】强化【学】习【的】【自】【对】战技术,其【学】习【过】程【不】需【要】数据标注,【而】【是】由奖励函数【进】【行】【主】导。智【能】体获【得】奖励【得】【分】【可】【能】赢【得】【一】场比赛,它【会】【得】【到】积极【的】反馈,智【能】体【就】【会】根据【对】战【的】【成】绩【好】坏,【来】调整【行】【为】【动】【作】。【这】犹如婴儿【学】走路,【会】根据【产】【生】【的】结果【好】坏【来】调整【行】【为】【动】【作】。

目【前】【对】通【用】【人】【工】智【能】【的】【定】义【主】【要】【有】【两】【个】特点,【一】【是】端【对】端【的】【学】习,【二】【是】任务【自】适应, 无需【人】类参与调控【而】胜任【不】【同】【的】任务。深度强化【学】习【可】【以】将深度【学】习【的】感知【能】力【和】强化【学】习【的】决策【能】力相结合,直接根据输入【的】信息【进】【行】控制,【是】【一】【种】更接近【人】类思维【方】式【的】【人】【工】智【能】技术。【在】与世界【的】正常互【动】【过】程【中】,强化【学】习【会】通【过】试错【法】利【用】奖励【来】【学】习,【这】跟【自】然【学】习【过】程非常相似。比如单手解魔【方】机器手,它【可】【能】需【要】利【用】深度【学】习【的】识图技术等【看】【到】魔【方】,【而】【后】【还】需强化【学】习【的】模型让机器手【在】【不】断【的】试错【过】程【中】【自】【主】【学】习。【在】强化【学】习【中】,【可】【以】使【用】较少【的】训练信息,【这】【样】做【的】优势【是】信息更充足,【而】且【不】受监督者技【能】限制。深度强化【学】习朝构建【对】世界拥【有】更高级理解【的】【自】【主】系统【又】迈【出】【了】【一】步,【这】【也】【是】【为】什么【说】深度强化【学】习【是】目【前】公认【的】【在】现【有】技术【中】最【有】【可】【能】达【成】通【用】【人】【工】智【能】【的】技术。

将【来】通【用】【人】【工】智【能】【还】需依托脑科【学】【发】展

“虽然【说】深度强化【学】习技术最【有】【可】【能】达【成】通【用】【人】【工】智【能】,但【是】并【不】【能】【说】【就】【一】【定】【能】够达【成】,【我】【们】离真正【的】通【用】【人】【工】智【能】【还】【是】【有】很【大】差距【的】。”郝建业表示,深度【学】习【和】强化【学】习结合【的】【时】候,【对】现实情况【的】枚举【就】变【成】首先需【要】【对】现实情况【进】【行】模式识别,然【后】【进】【行】【有】限模式【的】枚举,【从】【而】减少计算【的】压力,但【是】【所】需【的】数据将比其【他】机器【学】习算【法】【要】【大】【得】【多】。如果将场景扩展【到】【多】智【能】体【的】深度强化【学】习,【那】么需【要】【的】数据【和】算力【是】呈指数级【上】升【的】,目【前】【还】【没】【有】平台【能】够提供强化【学】习【所】需【要】【的】海量数据,无【法】穷举现实【中】【可】【能】遇【到】【的】【种】【种】复杂情况。【这】【种】数据需求【在】很【多】现实领域【中】【都】【是】无【法】达【成】【的】。

举例【说】明,比如强化【学】习需【要】【大】量【的】试错,如果【把】单手解魔【方】机器手应【用】【到】做饭【的】现实场景,【那】么它【可】【能】【会】【把】食材弄【一】【地】,【也】【可】【能】【把】【一】整袋盐倒【到】锅【中】,【还】【有】【可】【能】引【起】火灾。因此通【过】试错【学】习【的】模式,【在】现实场景【中】【是】无【法】达【成】【的】。

此外,深度【学】习【和】强化【学】习【都】【是】机器【学】习领域【中】最难调试【成】功【的】,它【的】【成】功案例其实【不】算很【多】,但【是】【一】旦推【出】,【都】【会】引【起】轰【动】。并且,【这】【是】【一】【个】连随机【种】【子】【都】【会】【大】【大】影响【学】习效果【的】模型框架。【同】【样】【的】模型,训练10次【可】【能】7次【是】失败【的】,3次【是】【成】功【的】。【还】【有】【一】点,深度强化【学】习极其容易【过】拟合【到】智【能】体当【前】交互【的】环境【中】,【所】【以】环境稍【有】改变,【之】【前】【看】【起】【来】表现【出】色【的】智【能】体,很【可】【能】【就】【会】犯低级错误。

“【人】类认识【事】物【的】【时】候,【一】般【都】【是】通【过】数据【进】【行】因果推理【和】判断,才【得】【出】相应【的】解决【方】案。【而】目【前】【的】【人】【工】智【能】系统却并【不】【能】达【成】【这】【种】因果推导。”郝建业表示,【可】【能】将【来】通【用】【人】【工】智【能】【的】【发】展,【还】需【要】依托【于】脑科【学】【的】【发】展,目【前】【我】【们】【对】【人】脑【的】认知【还】处【于】非常初级【的】阶段。【大】脑【对】【事】物【的】认知【过】程、解决【问】题【的】【过】程【以】及思考【的】【能】力等机制【还】【都】【不】清楚,因此,目【前】【人】【工】智【能】【的】【发】展,离【这】【种】真正【能】模拟【人】类智【能】思考【的】通【用】【人】【工】智【能】【还】【有】很【长】【的】路【要】走。

延伸阅读

延伸阅读

【人】【工】智【能】晋级《星际争霸2》玩【家】最高等级

【一】项【在】《星际争霸2》欧洲服务器【上】开展【的】“盲测”显示,谷歌旗【下】“深层思维”公司开【发】【的】【人】【工】智【能】程序“阿尔【法】星”【在】游戏【中】超越99.8%【的】【人】类玩【家】,【在】游戏【的】【人】族、神族【和】虫族排名【中】均达【到】最高【的】“宗师”级别。“深层思维”研【发】团队【在】【日】【前】【出】版【的】英【国】《【自】然》杂志【上】报告【了】【这】项【成】果。

据介绍,【在】《星际争霸2》官网欧洲服务器【上】,“阿尔【法】星”使【用】与【人】类玩【家】相【同】【的】【地】图【和】条件匿名参与游戏,并【能】【在】无【人】干预情况【下】持续【自】【我】改【进】。【为】【了】让测试更公平,团队【还】根据【人】类玩【家】【的】水平限制【了】机器【的】某些【能】力,比如将“阿尔【法】星”【的】【动】【作】频率降低【到】与熟练【人】类玩【家】接近,并【把】它【的】视野限制【在】摄像头范围内。

“深层思维”研【发】团队认【为】,训练“阿尔【法】星”【的】先【进】【方】【法】【以】及算【法】架构将【来】【有】望【用】【于】解决复杂【的】实际【问】题,包括【天】气预测、气候模型计算【以】及语言理解等。但【也】【有】【学】者【对】现阶段【人】【工】智【能】挑战战略游戏【的】【能】力持保守态度。加拿【大】纽芬兰纪念【大】【学】【人】【工】智【能】【学】者戴夫·丘吉尔认【为】,“阿尔【法】星”仍【有】许【多】弱点,比如无【法】抵御【以】【前】【从】未【见】【过】【的】战略等。

陈 曦 【编辑:叶攀】

人工智能,魔方,郝建业,强化,深度

您可能还会对下面的文章感兴趣:

最新评论 查看所有评论
加载中......
发表评论