手机版
首页 >> 科学>> 正文

与绝悟的强化学习不同,从目前腾讯ACL入选论文清单来看

2020-05-23 15:16来源:互联网编辑:小狐

与绝悟的强化学习不同,从目前腾讯ACL入选论文清单来看(图1)

出品AI科技大本营(ID:rgznai100)

与绝悟的强化学习不同,从目前腾讯ACL入选论文清单来看(图2)

国际计算语言学协会(The Association for Computational Linguistics)于1962年成立,在AI领域已经发展成为影响力最大、最具活力的国际学术组织之一,其会员遍布世界各地。而且尤其值得一提的是,随着国内企业在AI领域不断取得突破,百度基础技术首席科学家王海峰曾经担任在2013年-2018年担任ACL的主席,也成为该组织历史上第一位华人主席。

而且最近在AI领域突破不断,先是王者荣耀的“绝悟”吊打了一众玩家,而本次又在自然语言处理方面取得突破,充分展示了其全栈AI的实力。与“绝悟”的强化学习不同,自然语言处理方面主要的AI模型还是神经网络。从目前ACL入选论文清单来看,有20篇来自AI Lab团队,7篇来自AI团队,CSIG智能平台部和研究团队也分别有论文入选,研究方向涵盖对话及文本生成、机器翻译及对话、多模信息抽取多个自然语言处理的重点领域。

如果将数据比作这个数字时代的石油,那么丰富的业务场景与庞大的用户基数,就为其AI团队了世界上最大的原油储存基地,这些都为前沿的AI研究成果了令整个业界都非常羡慕的绝佳“训练场”而拥有了这样高的训练水平,在AI方面能够取得顶级成果也就不足为奇了。下面笔者就带大家来深度解读一下这30篇论文背后丰富的技术内涵。

多模与对话-的主

正如前文所述本次的论文主要集中文本生成、机器翻译及对话、多模信息等领域,先带大家来解读一下这个几领域的基本情况:

文本生成:这个领域之所以会抱得大名,主要还是因为《权力的游戏》第八季崩盘,在一片“烂尾结局”的评价声中落下帷幕。而随后,便有极客便用 OpenAI 提出的 GPT-2 文本生成模型进行了实践。模型学习的是《冰与火之歌》原著,最终输出了一个大结局,结果得到很多网友的好评,这也让人们不禁惊呼,原来AI还能写小说。

多模态特征提取与翻译:目前尤其是90后,在对话当中经常使用表情图、动态图等方式来表达情感,而将这些非语言信息的语义提取并翻译出来,就是多模态提取的任务了。

在自然语言处理领域有天量数据的加持,比如智聆每天处理超过 4 亿条语音,识别准确率为 97%,服务于内外超过 100 项业务。而且AI团队,还语音输入转文字、扫一扫的扫码 / 封面和翻译、聊天机器人、摇一摇 - 音乐 / 电视、声纹锁等功能,每项业务的日均使用次数都近十亿的量级,这也造就了在多模态和对话等方面的领先地位。

自回归与自编码-自然语言处理的少林与武当

自然语言处理分为两大门派一个是以OpenAI的GPT为代表自回归(AR)另一个是以谷歌BERT为代表的自编码(AD)在我们正式解读代表论文之前,我们先对这两大流派进行一下介绍。

自回归模型:通俗的讲自回归就是使用自身做回归变量的过程,一般说来记为以下的形式。

也就是说自回归模型假定t时刻的序列(Xt)可以利用前期若干时刻的随机变量的线性组合来描述。

因式分解:我们来说一下什么是自然语言处理中的因式分解,先复习一下贝叶斯公式,它描述随机事件 A 和 B 的条件概率,其中P(AB)是在 B 发生的情况下 A 发生的可能性。

假设我们I、love、you三个单词分别对应向量:X_1、X_2、X_3, 那么如果我们要建模”I love you”这句话,其实就要通过贝叶斯公式解出,在自然数据这个序列出现的联合概率分布 P(X_1,X_2,X_3)

根据词语之间的相互,我们除需要统计P(X_1)P(X_2)P(X_3)三个概率是不够的。因为X_1还依赖于其它变量存在条件分布 P(X_2X_1) 和 P(X_3X_1)对于X_2和X_3也是一样,我们可以将这三个模型组合起来获得期望联合分布 P(X_1,X_2,X_3)=P(X_1)P(X_2X_1)P(X_3X_1,X_2)

与绝悟的强化学习不同,从目前腾讯ACL入选论文清单来看(图3)

一般来说,变量的每个可能的排序都存在自回归因式分解。在有N个变量的问题中,就存在 N! 个因式分解。在上面提到的三个变量的例子中,我们可以列举出六个自回归因式分解,当然在AR模型中都考虑了顺序信息,不会计算所有的因式分解,读到这里可能读者也就明白了,AR模型其实就是通过贝叶斯因式分解的方式来计算输入序列的概率密度。那么其劣势也就比较明显了,由于输入序列有方向性,所以AR模式只能拉收正向或者反向单向信息。而后面我们后面解读到的论文中也会提到,对这方面的改进,也是的一个创新点。

自编码模型:自编码思想是利用被人为损坏的输入序列重建原始数据。比如BERT,它利用一个特殊符号【MASK】替换特定部分,并训练模型从损坏的版本中恢复原始的信息,如果以图像处理类比,自编码就是先用计算机为图像打上马赛克,再通过训练使计算机掌握去掉马赛克的算法。那么自编码的优势就是他完全可以利用双向的信息,来建构模型,不过劣势也非常明显,就是在真实环境下是不存在MASK部分的,这让自编码模型的训练集与预测数据集存在差异,而且自编码模型也无法计算概率密度。

比如在AI团队的《Learning to Recover from Multi-Modality Errors for Non-Autoregressive Neural Machine Translation》论文中,就提出了非自回归神经机器翻译的模型,不但能预测目标句子中的所有词,还能够显著加速预测过程。

正如我们上文介绍的那样,非自回归神经机器翻译模型往往会忽略输出结果中词与词之间的依赖信息,以致存在多峰问题,经常表现出重复词和缺词的情况。

因此AI团队提出一种半自回归模型,该模型将目标句子分成多个段,在进行预测测时,同时生成这些段,而每个段则是逐词生成。通过动态控制每个段的长度和删除重复段,该模型能够从重复词和缺词错误中恢复。实验结果表明,这种方法在取得至少4倍加速效果,为进一步缩小非自回归/半自回归模型与自回归模型的效果差异了一种有益的解决方法。

到底是聊天机器人还是男友本尊

大概是今天这篇文章写作时间正值“521”期间,而且是有关聊天机器人的,因此我家领导强烈要求,我在文章结尾,加上如何分辨男友是否正在使用机器人的攻略。

这个问题无独有偶,其实随着多模态和对话的发展,互联网上由AI创造的虚拟人物越来越多,比如一位在顶级智库工作的女政治家Katie Jones,她拥有由一批专家和权威人士组成的关系网。她与一名助理国务卿、一名参议员的高级助理以及经济学家 Paul Winfree 都有,而且搜索引擎上也能查到相应的新闻报道,不过这位女士其实并不存在,对此美联社已经作出确认,其面部信息是合成的,其相关新闻都是AI捉刀写的,而令人恐怖的是,这样的人造人在脸书上还有几万个。

与绝悟的强化学习不同,从目前腾讯ACL入选论文清单来看(图4)

不过与上述静态的虚拟人物不同,聊天机器人是需要实时互动的,那么在互动中就必然会露出一定的破绽,而且聊天机器人学习了那么多的聊天套路,肯定会比绝大多数男性的嘴更甜,更会照顾他人的情绪,所以当妹子们感觉到程序员老公的话突然不那么直男,变得顺耳了,可能反而要提高警觉了,下面把一些原则给大家。

一、求生题:在求生题中比较经典的如“妈妈和女友都跳河里了,先救谁”等等类似的题目,可是根本就难不倒机器人的,或者说机器人长期接受这种求生题的训练,所以这种题就是机器人最擅长的,所以如果男友对于这种题都特别轻松的给出答案,那么其使用机器人的概率恐怕不低于80%。

二、话外音:一般男性的思维方式比较直接,而女性相对比较含蓄,所以绝大多数的男人都不太听得出女友的话外音,不过正如我们前文所述,聊天机器人对于多模信息的提取是吊打绝大多数男性的,可以轻松得从表情图、动态图中提取到说话者的意思,因此如果男友能接得住你的话外音,那么其使用机器人的概念就不低于90%了。

三、事实题:机器人毕竟是机器人,对于一些事实的问题,还是不在机器训练集中的,比如生日、纪念日、工作地点等信息问题,机器还是无法直接告诉你正确答案的,因此在谈到这些有准确答案的事实问题时,如果男友都是回避掉事实答案,转而维护你的情绪,那么基本上可以肯定他是使用了机器人了。

本文相关词条概念解析:

模型

模型是所研究的系统、过程、事物或概念的一种表达形式,也可指根据实验、图样放大或缩小而制作的样品,模型一般用于展览或实验或铸造机器零件等用的模子。对于现实世界的事物、现象、过程或系统的简化描述,或其部分属性的模仿。在一般的意义下是指模仿实物或设计中的构造物的形状制成的雏型,其大小可以分为缩小型、实物型和放大型。

网友评论Translation

推荐文章

案例精选,助力推动家家悦集团供应链协同平台的建设
案例精选,助力推动家家悦集团供应链协同平台的建设
关于家家悦家家悦集团股份有限公司是以超市连锁为主业,以区域一体化物流为支撑,以发展现代农业生产基地和食品加工产业链为保障,以经营生鲜为特色的全供应链,多业态的综合性零售渠道商。拥有直营连锁门店760多
查看详情>>
百度无人车不会分拆,并进行100%的投入,百度的回应是
百度无人车不会分拆,并进行100%的投入,百度的回应是
自动驾驶要“攀登珠峰,沿途下蛋”这句话被多个公司多次强调,意思是要攀登无人车的技术珠峰,而在商业化上应沿途下蛋。也就是说,技术突破和商业变现对现阶段自动驾驶公司来说同等重要。6月3日下午,百度集团副、
查看详情>>
模拟芯片生命力长久,独受华为青睐呢
模拟芯片生命力长久,独受华为青睐呢
撰文丨黄依婷几乎所有的电子产品里,都缺不了一块小小的芯片—模拟芯片。它将自然界中的声、光、电磁波等模拟信号,为数字世界里机器能读懂的“0”“1”形式的信号,在信息传输中起到了不可或缺的作用。毫不夸张地
查看详情>>
苹果今年的iPhone,苹果仍旧没有对Lightning开刀
苹果今年的iPhone,苹果仍旧没有对Lightning开刀
苹果今年的iPhone 12(暂称)都还没问世,再下一代新机就有传闻开始爆出。根据知名爆料网站最新,释出一组声称是iPhone 13模型机的照片,提前揭露苹果可能进行中的重大改革。媒体表示,本次来自于
查看详情>>
假以时日,也许你的小鹏已经是1年前的老车
假以时日,也许你的小鹏已经是1年前的老车
标杆的力量总是强大,在纯电动车领域,特斯拉已经用MODEL 3证明了自己在市场中最强的品牌力和号召力。特斯拉虽然靠着优秀的外观设计、超长的续航里程在目前的市场中呼风唤雨。但花无百日红,如今中国纯电动车
查看详情>>
就到处找货,在卡车司机的认知中
就到处找货,在卡车司机的认知中
本文根据《中国卡车司机调查报告 NO.3》整理形成亚当·斯密说,“人类无时无刻都在依赖着他人的存在”卡车司机也不例外。把货物运输到全国各地,“物流商”和“装卸工”是卡车司机在日常工作中需要密切合作的两
查看详情>>
索尼5G新旗舰在核心的处理器方面,支持120Hz刷新率,所以近些年的索尼手机都是作为绿叶
索尼5G新旗舰在核心的处理器方面,支持120Hz刷新率,所以近些年的索尼手机都是作为绿叶
作为当下最繁荣也最残酷的手机行业,不少的手机厂商在手机市场上栽了不少的跟头,比如说索尼这件厂商,虽然广大的消费者知道索尼并不是一家以手机作为立身之本的公司,可是近些年在不断的新手机,可是索尼的工业美学
查看详情>>
但你有想过手机也能当测温枪使吗,荣耀Play4,4,Pro还能满足多种生活场景,可隔空测量体温
但你有想过手机也能当测温枪使吗,荣耀Play4,4,Pro还能满足多种生活场景,可隔空测量体温
由于疫情的影响,出入公共场合扫健康码、量体温早已成为了我们的日常。作为必要的防疫手段,测温枪从一个小众的医疗器械,变的随处可见,大家对它也非常熟悉了。但你有想过手机也能当测温枪使吗?6月3日下午,荣耀
查看详情>>
路演,众应互联,积极拓展创新业务
路演,众应互联,积极拓展创新业务
全景网6月5日讯 众应互联(002464)2019年度业绩网上说明会周五在全景网举办,公司副总经理孙铁明表示,公司未来将结合自身优势,与新的市场机会相结合,在巩固原有业务基础之上,积极拓展创新业务。1
查看详情>>
手机拍摄的再思考,把云台缩小成微云台并放入手机,Pro
手机拍摄的再思考,把云台缩小成微云台并放入手机,Pro
vivo的技术之路而且vivo一直非常擅长从结构入手来改变手机的性能表现,比如早在几年前,vivo第一个尝试去把HiFi芯片缩小做到手机里,创造了极致的手机音乐HiFi体验,甚至到现在还有很多人还在用
查看详情>>
广易科技网(www.gooyi.net)| 手机版