Meta开发出懂谈判的人工智能,可“忽悠”人类玩家
·游戏《外交》中,忽悠人工智能Cicero具有对他人的出懂信仰、目标和意图进行推理的谈判能力,可以通过表现出同理心、工智使用人类语言交流并建立人际关系获胜。人类
Meta的忽悠人工智能团队(AI)11月22日宣布开发出Cicero,第一款在战略棋盘游戏《外交》中打出人类级别表现的出懂人工智能,这款游戏需要深厚的谈判人际谈判技巧。
早在1997年深蓝在国际象棋比赛中击败加里·卡斯帕罗夫之前,工智棋盘游戏就已经成为衡量人工智能成就的人类一个有用指标。2015年,忽悠AlphaGo击败围棋大师李·塞多尔,出懂将此类AI带到一个新的谈判高度。象棋和围棋都遵循一套相对清晰的工智比赛规则,但这些单纯的人类对抗性环境不需要AI与一同参与的玩家有语言交流。Cicero则可以在特定环境下,通过对话说服玩家、建立关系,从而获取胜利。
游戏《外交》的画面。
Cicero可能比人更会聊天
人工智能领域的一个主要长期目标是建立能够用自然语言与人类进行规划、协调和谈判的智能体。尽管目前模仿人类语言的模型取得了很大进展,但有效的AI谈判必须超越这一点,需要了解伙伴的信念、目标和意图,规划符合多人参与的联合行动,并有力地传达这些建议。
《外交》可能是最适合AI进行语言学习的培养皿之一,这款游戏很大一部分玩法涉及社交技能,玩家在游戏中扮演不同国家进行合作对抗,类似简化版的《文明》、《三国志》或《欧陆风云》。这是一个涉及合作和竞争的战略游戏,强调七个玩家之间的自然语言谈判和战术协调。AI必须表现出同理心,使用人类的语言交流,建立人际关系才能获胜,这对AI玩家来说是一项艰巨的任务。
考虑到这一点,Meta提出:“我们是否可以建立更有效、更灵活的AI,他们是否可以使用语言进行谈判、说服和与人合作,以实现与人类类似的战略目标?”
根据Meta的说法,答案是肯定的。Cicero通过《外交》学习了自己的技能,随着时间的推移成为游戏高手。Cicero将语言模型的规划和强化学习算法相结合,可以通过对话推断玩家的信念和意图,并根据其计划生成对话。
在《外交》游戏的40场匿名在线比赛中,Cicero的平均得分是人类选手的两倍多,在72小时的比赛中,它发送了5277条信息,在不止一场比赛中排名前10%。
AI也要学习“黑暗森林”法则
此前,AI的成功主要体现在纯粹的对抗性环境中,如国际象棋、围棋和扑克。在这些环境中,与对手交流没有价值,AI可以不断和自己进行游戏来学习,即通过具有足够计算和模型能力的自我游戏能力来解决问题。
但《外交》并不一样,在这款模拟各个国家进行合作对抗的游戏中,每个玩家都处于《三体》作者刘慈欣所说的“黑暗森林”法则中,玩家彼此之间并不信任。任何只考虑一时利益而不考虑人际关系的行为都将招致怀疑。哪怕是在没有语言交流的版本中,如果AI自我学习到与潜在人类盟友的规范和期望不符的策略,也同样发挥不佳。
游戏中的信息通常涉及协调精确的计划,任何沟通失误都可能导致失败。AI发送的每一条消息都必须基于上下文的对话历史、游戏状态和目标来规划。如果信息不准确,人类可能会要求AI解释其错误,这是一项更具有挑战性的任务,可能会导致进一步的错误。此外,重复的消息传递会产生反馈循环,例如,语言模型模仿其自身先前消息的风格,发送简短或不连贯的消息,这将增加未来此类消息在游戏中出现的可能性。
《外交》中的每一轮行动都是在谈判之后同时发生的。要想成功,AI必须考虑到玩家可能不信守诺言的风险,或者其他玩家可能怀疑自己信用的风险。因此,对他人的信仰、目标和意图进行推理的能力,以及通过对话说服和建立关系的能力是《外交》中必须掌握的技能。
“可控对话模式”是Cicero的核心
对此,为了培养Cicero,Meta将用于战略推理(类似于AlphaGo)和自然语言处理(类似于GPT-3)的人工智能模型整合在一起,放入一个AI代理中。在每场比赛中,Cicero都会查看游戏板的状态和对话历史,并预测其他玩家的行为。它可以计划玩家如何协调以实现他们的共同利益,并将这些计划转化为自然语言信息,也就是人类可以理解的语言。
Meta将Cicero的自然语言技能称为“可控对话模式”,这是Cicero的核心所在。Cicero从网络上抓取大量互联网文本,并从中提取可用信息构建对话。为了建立一个可控的对话模型,研究人员从一个有27亿参数的语言模型开始培养AI,该模型在互联网文本上进行了预训练,并针对40000多人进行了微调。
由此产生的模型掌握了游戏的复杂玩法,且很难被人类识别出来。Meta说:“例如,Cicero可以推断,在游戏后期,它需要取得某个特定玩家的支持,然后制定策略以赢得该玩家的青睐,它甚至可以从其他玩家的视角出发,看到风险和机会。”
但Cicero目前仍只能协调玩家在当前回合的行动。它没有能力模拟对话在游戏的长期过程中如何影响与其他玩家的关系。换言之,AI可以通过预测整局比赛走势制定发言计划,但却很难预测发言后对游戏内人际关系的长期影响。尽管研究人员用一套过滤器筛选出某些错误信息来维持文本的正确率,但AI还是会偶尔犯错。考虑到这一点,下一步Meta可能会为Cicero部署更具战略性的对话能力。不过,这些错误并未让其他玩家怀疑自己的对手或友军是人工智能。
Cicero在游戏中与人类对话。
至于更广泛的应用,Meta表示,Cicero研究可以“缓解人类与AI之间的沟通障碍”,例如保持长期对话以教授某人新技能。它还可以为电子游戏提供动力,让NPC(非玩家角色)可以像人类一样说话,了解玩家的动机并在游戏过程中进行调整。
但此项技术也被视作双刃剑。它可以用来操纵人类,通过模仿人类并根据上下文发言,以危险的方式欺骗人类。对此,Meta希望研究人员能够“以负责任的方式”构建代码,并表示已采取步骤检测和删除“这个新领域中的有害信息”,这可能是指Cicero从摄入的互联网文本中学习到的对话,这对于大型语言模型来说是一个风险。
目前Meta的Cicero研究发表在《自然》杂志上,标题为“通过将语言模型与战略推理相结合,在《外交》游戏中进行人类水平的游戏”。
(责任编辑:热点)
-
金智教育由科创板转战创业板:定位又遭问询,旗下“今日校园”APP屡遭通报
江苏金智教育信息股份有限公司简称:金智教育)再度冲击上市!金智教育是国内高校信息化服务提供商,以自主研发的基于私有云和公有云架构的智慧校园运营支撑平台产品、应用系统产品为基础,为高等院校和中职学校提供 ...[详细]
-
南方财经全媒体集团 记者 郑嘉意 北京报道,6月24日,天津银保监局网站局领导页面显示,银保监会财会部偿付能力部)主任赵宇龙已经出任天津银保监局党委书记、局长。公开信息显示,现年51岁的赵宇龙毕业于上 ...[详细]
-
【#上海警方通报公交车坠河#:车上仅驾驶员一人,已救出】据上海@警民直通车-浦东 通报,6月28日10时47分许,浦东公安分局接报警称:人民东路南祝路附近,一辆公交车滑入路边河道。公安、消防部门迅速赶 ...[详细]
-
记者 陈佩珍近期,裁判文书网公布的一则刑事判决书披露了兰州银行原监事长李玉峰向中国人民银行兰州中心支行原党委书记、行长杨明基行贿细节。为获得杨明基对其事业关照行贿9次杨明基于2020年12月被查,彼时 ...[详细]
-
新浪财经公众号 24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注sinafinance) ...[详细]
-
“货币政策将继续从总量上发力以支持经济复苏。同时,也会强调用好支持中小企业和绿色转型等结构性货币政策工具。”6月27日,央行行长易纲的最新表态,透露了中国货币政策方向。就在4天前,央行副行长陈雨露刚刚 ...[详细]
-
过度包装就是让消费者多掏了钱近日,上海市嘉定区市场监管局在日常监督抽查时发现,一家超市销售的两款冰糖燕窝饮品,存在过度包装嫌疑。执法人员表示,两款燕窝饮品的售价均为198元,净含量都是70ml×6瓶。 ...[详细]
-
来源:中国市场监管报位于上海传统商业街淮海中路651号的H M店铺近日悄然撤店。据悉,该店为H M品牌在中国内地市场开出的首店,开业时间长达15年。财报显示,截至去年年底,H M在中国已有60家门店关 ...[详细]
-
11月22日,银保监会副主席周亮在2022年金融街论坛和亚洲金融高峰论坛上表示,要深化跨境监管合作,健全跨境风险监测、预警和响应机制。完善区域流动性合作和危机救助安排,维护主权货币稳定。强化金融监管, ...[详细]
-
乐居财经讯 赵微 6月28日,的新城·云漾滨江项目推出“西瓜换房,最高抵10万元”活动,以10元一斤的价格冲抵房款,活动时间自2022年6月28日至7月15日。据查阅,新城云漾滨江项目开发商为南京 ...[详细]