Skip to main content


字根科技总经理:田春峰

错别字在线检查
错别字检查是一项特别需要耐心的工作,我们正在努力中 ...

错别字在线检查使用说明
返回
天津海河传媒中心

搜狗王小川:人工智能主播利用AI合成的虚拟主播


人工智能主播利用AI合成的虚拟主播

搜狗发布AI合成主播 背后技术“搜狗分身”同时浮出水面
互联网腾讯科技


腾讯科技讯(孙宏超)11月8日消息,在11月7日开幕的第五届世界互联网大会上,搜狗宣布其与新华社合作开发、全球第一个全仿真智能合成主持人——“AI合成主播”正式亮相,同时搜狗未来人工智能的核心技术“搜狗分身”也获得了广泛关注。

据介绍,观众只要向“AI合成主播”输入一句既有的新闻文本,屏幕上就会出现一位合成的新华社新闻主播,他不仅会用和真人一样的声音进行播报,连唇形、面部表情也能完全吻合。这样的视频效果,无论看上去还是听起来,都与现实中的新华社主播的本人播报没有太大差别。

在合成主播的开发过程中,搜狗公司的相关技术人员同新华社的新闻主播一同进行了各种探索尝试,在“搜狗分身”技术的支持下,通过人脸关键点检测、人脸特征提取、人脸重构、唇语识别、情感迁移等多项前沿技术,并结合语音、图像等多模态信息进行联合建模训练后,“AI合成主播”正式诞生。

同时,据搜狗公司智能语音事业部总经理王砚峰介绍,“搜狗分身”技术是搜狗人工智能的核心技术之一,诞生于搜狗“自然交互+知识计算”这一人工智能理念之下。该技术能够利用搜狗的AI能力,从图像表情,声音语言习惯,逻辑思维等层面对AI进行拟人化训练,然后克隆制造人类的AI分身,进而帮助人类提高信息表达和传递的效率。该技术是支撑“AI合成主播”正常运转的核心。

会后,搜狗公司CEO王小川接受腾讯科技等媒体采访,以下为部分采访实录(在不改变原意情况下有所删减)

媒体:像刚刚主持人说的,会不会他就失业了?

王小川:首先AI技术分为了感知技术和认知技术。感知是有声音的、有图像的,感知技术方向上,机器基本有机会可以做到跟人一样好。但是在认知技术方向上,机器背后的推理、知识、思考,以语言为核心的逻辑性的东西,机器的处理能力是有限的,这种情况下,涉及到人的高级活动的时候,机器现在是做不到的。

媒体:以后有可能做到吗?

王小川:现在没有这个技术。如果是在垂直领域里,特别细分的特定领域,像法律或者医疗,面越窄,机器更有机会在这个特定的领域里做到更接近人类。不能把AI当成大的词儿,AI里面有很多内涵。在这种情况下,把AI上升到跟人们认知相关的事情,机器在里面只能做辅助,是没有办法取代人类的。但如果只是听个声音,看个图像,现在像Face++ 或者商汤做的事情,机器就已经能取代一部分感知上的事情了。对于人类的高级活动,现在机器取代人类是没戏的。高级活动叫认知,低级活动叫感知,目前的机器可以做到感知,这是先给大的框。

媒体:您怎么看AI合成主播,人类跟机器是怎样的关系?取代还是配合?

王小川:名字我们跟新华社定了,叫AI合成主播。这项技术里面涉及三个合成:声音合成、表情合成、唇型合成,特别是唇型合成。因为本身虚拟这个词,画个卡通画也叫虚拟,如果叫虚拟主播的话别人容易较真,说这个东西怎么叫虚拟,所以我们叫AI合成主播。AI合成主播和人类的关系是取代还是配合这个问题的话,如果只是感知问题,不涉及到后面的语言组织、撰写深度稿件的话,它是可以去跟真人接近的。

媒体:意思是人可以做写新闻稿的人,剩下的事就交给它?

王小川:如果想做到惟妙惟肖,比如什么地方该发怒,什么地方该柔情,这样的事情机器很难做到,因为稿子的内容机器是不懂的,它不理解真正的含义。如果只用视觉和听觉表达,AI合成主播可以接近真人,一旦与内容有高度相关性,机器的作用就会弱一些。

媒体:搜狗的AI合成主播跟微软小冰做的主播有什么差异?

王小川:搜狗的AI合成主播是真人的形象,小冰给的是虚拟形象,声音跟真人不一样,也没有表情和唇型的变化。AI合成主播真的是合成之后,能够起到真人的替身作用。

媒体:这个技术除了在主播领域,还有哪些其他场景的应用?

王小川:比如说现在我们跟凯叔讲故事谈,以前是凯叔去讲故事,以后可能就会变成你的爸爸妈妈给你讲故事。在我们大的理念下,主播是其中一块,之后要把它个性化,变成其他的人。

媒体:搜狗现在有考虑进一步怎么去做么?

王小川:未来搜狗输入法的方向,我曾经讲过是叫辅助对话,就是帮你去说话。去年搜狗上市的时候,我一天收到三千条祝福的微信,如果我用语音回,我也要说三千条,而且发信息的人不一样,有的是记者朋友,有的是老同学,那么回复内容也不一样,这个时候你就需要个分身了,它能用你的个性帮你去说话,帮你去做机械性的、重复性的劳动。搜狗有两个理念,一个理念就是让机器能够成为你的分身,一个是让机器成为你的助理。搜狗搜索做问答就是要成为你的助理。这是搜狗AI两个核心的方向。

媒体:在语言这块,门槛并不高?

王小川:语言这块门槛挺高,高德地图合成林志玲的声音的时候,林志玲是读了非常多句话的,不是固定的“向左转向右转”的句子。搜狗现在只要求十几分钟的数据量就够了,可以用很小的数据合成一个人的声音。

媒体:为什么?是有什么算法的突破吗?

王小川:所谓小数据其实也是离不开大数据的,机器要看很多声音,然后找到这个人的声音特征跟别人有什么不一样,所以小也是大。我们以前说婴儿学习很快,看一张图片就会了,其实他是看了很多图片之后再看一张图片。所以对特定领域来说,数据越小越好,但是要掌握足够多的通用领域的数据。因此这里涉及到的技术,既要有海量声音的训练,同时能做到用更少的声音数据训练特定人的声音,这是有技术壁垒的。

媒体:合成主播商业化的节奏会不会比之前做的其他AI落地的项目要快一点?

王小川:最快的话,第一是翻译,翻译是刚需。不只是翻译宝,搜狗搜索支持用中文搜索全球信息,用中文阅读全球信息,这是应用了翻译技术的。翻译是搜狗的使命之一,输入法输入中文转成外文,搜索能搜外文转成中文。我们本身是做信息桥梁的公司,所以翻译是很重要的,这也是最快落地的技术。首先是语音、图像,然后是翻译,翻译之后是分身,训练一个人的数据之后,帮助他去做表达。最后是问答,就是个人助理,帮你回答问题。对于消费者而言,这是技术演进的路线。

媒体:搜狗做通用训练的时候,语音素材是怎么拿到的,是平常语音输入的时候的语音吗,还是怎么样的?

王小川:我们有很多合作,很多标注。比如现在我们跟喜马拉雅有合作,他们读的东西我们可以拿过来用,尽可能多的采集不同的语音。

媒体:除了医疗以外,搜狗也在做法律相关的内容搜索,对这种领域的选择标准以及下一步扩展垂直搜索的规划是什么?

王小川:首先最大的是医疗,法律是中间有明显的知识结构化能力在,这个知识边界是相对有权威和规范的,在这种情况下,我们可能去做一个选择。但是医疗还是远远优于法律的。

媒体:搜狗还会扩展其他领域吗?

王小川:其他领域,百科我们还是想努力能把它做得更加权威和真实。总之有些领域,互联网的信息不够好,我们希望能够在里面能用新的方法做好,用AI技术或者用不同的方式。

媒体:为什么要做搜狗号,这块内容是怎么样的,为什么要介入这个市场?

王小川:因为今天做平台,就像头条或者像抖音,一头是用户在里面去消费,一头生产方是合作关系,这种合作不是光签合同的,确实能够做个平台,把它放进来了,但搜索引擎不是,搜索的模式是抓来的,头条号或者说像这样的搜狗号很大意愿是希望增加内容的合作比例,是更规范,比如这里大家广告做多少,有一定的互相的共识,这样能够提升合作的内容和质量,让用户体验更好。

媒体:会觉得做得晚吗?

王小川:再早对我们讲也不会成为战略上的突破点。

媒体:这种信息流的改变会给搜狗带来更大的营收吗?

王小川:会有一些,信息流广告主要是基于APP,搜狗APP或者浏览器,能有些补充。如果APP量特别大,收益是大的。

媒体:之前您说一直刷抖音,刷头条,很容易沉迷进去,搜狗号能不能改变这件事情?

王小川:我们做搜狗号很大层面是为搜索服务的,而不是只说为做信息流这件事情。第二,有些东西改不改变,比如游戏,我们就不做了,对我们而言,从我们兴趣爱好经验上不是游戏,游戏一样,满足你沉迷在里面,一直获得虚拟世界,有太虚幻景表达这样的概念,人是需要的,但是怎么去引导,我们没有这方面创造引导能力,我们愿意把我们的优势发挥在我们自己擅长的地方上,我们让信息表达更加简单,我们做翻译,我们在中间去做问答技术。

媒体:搜狗搜索以后在流量渠道或者获客层面有什么样的想法?

王小川:渠道方面有两个事是要突破的,一个地方是利用自有的流量渠道,比如用户在输入法输入的时候,如果甄别到他有这样的意图,我们能直接给他提供更好的信息满足他,甚至给别人做分享,这个事情上我们还有大的空间提升的,搜索跟输入行为的连接,第二我们希望在搜索结果里,能有更好的差异化或者权威性,就像之前做的微信内容,现在我们是着力在强调医疗健康内容,希望内容上有差异化,使得用户变成主动使用,而不是靠合作的,QQ浏览器或者手机厂商,这样的话成本会降下来。

媒体:搜狗AI方面战略还是比较聚焦的,有没有考虑相关多元化或者更多AI的软件或者科研或者硬件?

王小川:不考虑,我觉得我们已经张得很开了,我们在信息文明时代核心就是对知识或者对语言的理解,做AI我认为要满足几条,今天说AI是属于大公司做,大公司有几个,第一个有场景,有数据,所以你做AI,如果你没场景,没有数据,只做技术,这件事情是很困难的,我们数据和场景是在用户表达和信息获取里,在输入和搜索里,所以我们围绕场景做这件事情。第二,中间是需要在这里面有持续的投入,投入里很多创业公司或者没有商业模式的公司,它今天投这样,如果哪天市场没打开,那可能这个东西就掉下去,我们是有足够资金去投,但是也希望跟可见的商业价值去匹配,我们做翻译已经没有考虑商业,已经在拓展,我们最近一共支持500场同声传译,我们已经努力往外拓展的时候,往外拓展不是考虑商业问题,还是围绕我们的使命来进行,就是表达和获取信息更简单,以及未来让机器部分取代人或者给人提供服务。

媒体:单纯同传这个问题,机器有没有可能取代人?

王小川:不能,做不到。如果用好的人,机器是赶不上的,但是有很多地方是因为你没有优秀的同传或者出国旅游没法给一个人配一个人,这种情况下,机器可以去作用,翻译往简单走是重复性劳动,但是真的好的翻译是有知识,有思考的,你让他思考的东西,机器就没人强,开放性思考,如果只是棋盘上封闭思考,机器下围棋,可以干,但是开放性的环境,机器是不够的。

媒体:会考虑在多媒体搜索上有一些布局吗?

王小川:搜索核心是以语言为核心的,如果离开了文字,只是画图,这是不够的。我们是有图像搜索能力,有声音去做搜索,但核心要点是在阅读理解,这个事情不是我们最受益或者是我们突破点最大的地方。我们突破是在语言的理解里面,这个更难,比5G还难。

媒体:从硬件的产品上,未来有可能做OEM吗?

王小川:有可能,但是现在通过自己的东西把它给做透了,再开放,就像亚马逊一样,之前做echo的音箱,也是自己做,自己做才有机会跟别人一块玩,否则第一天就是B2B2C,你不知道客户在哪儿,或者跟客户没有形成正面的习惯,to C公司不够的,先把自己做透,然后发现能力不够了,再开放。

媒体:要到达真正的AI个人助理,还要多久,还要突破哪些东西?

王小川:我们之前20年,我们称之为信息时代,每个时代都有它的起点,就像最早轮子发明,有了农业时代,轮子发明,可以推着小车去种地了,这是原始走过来。后来有蒸汽机,进入工业时代,后来有了计算机和互联网,我们进入信息时代,信息时代大的特点就是能够跨地域,跨时间,时空跨越进行信息的传递。像e—mail或者IM就能跟大家进行远程的交流,或者把信息放在网上,然后你用搜索检索到,在这种情况下,输入法、搜索引擎和通讯软件是对新时代最核心的应用,你刚才问的问题是AI个人助理往下20年里很重要的事情。

媒体:它真的到能够很好地帮助人,协助人的阶段,还要多久?

王小川:垂直领域慢慢就有了,真的辅助人,给普通人做翻译,也是AI助理,以前靠真人,现在靠机器能做一部分了,再往下,像我们垂直场景里,我们也在做机器帮你做自动回复,给销售公司或者客服公司在用。他已经开始在做,但是他需要领域支持,是要靠人把这种知识进行训练之后再做,不是只有思考能力。所以往下是靠数据驱动做这件事情,你让它只会帮助人,他现在没有取代人,现在看不到技术取代人,但是帮助人的事已经开始发生了。

媒体:这里是卖解决方案吗?

王小川:我们是to C,我们会把它用到消费者,让消费者使用更方便。

媒体:AI合成主播或者未来做的AI合成影像,未来的使用场景是什么样?

王小川:合成主播,今天给我们核心能力要做对话和问答,同时可以互动的,因此在医疗,在法律,在一些人机交互里,承担了一个让人更友好沟通的角色,但真正服务内容是去要面对内容的,就是把服务带进去。另外一种场景就是今天看到一种,交给新华社,他们有编辑在里面写出稿子来,机器只是读的角色,是单向的,不是双向的,所以他只是自然交互,在知识计算里还没有把这个能力放进去。

媒体:搜狗未来的战略是AI+IoT(物联网),可以这么理解吗?

王小川:IoT只是一个界面,我不能把IoT放在这么高的高度去,AI是核心,去帮助人表达获取信息,IoT只是中间帮助你表达获取信息的入口。

媒体:搜狗为什么不做智能音箱?

王小川:这个产品的核心点在于足够低价便宜,不是靠技术驱动的,没有这方面的能力,只能靠资金驱动,没啥AI在里面。相当于亏着钱卖,像打车外卖是烧钱的活,我们其实是不会做的,没那个能力。

媒体:人工智能赚钱的拐点是什么时候?

王小川:人工智能是项技术,你说技术赚钱,这个词是不成立的,你要变成某个业务才能变成赚钱的事情。而且人工智能技术尤其还需要数据驱动,所以小公司更困难。它是一个场景,能做附加的东西,这个不是从拐点上来看的。所以这是社会大分工、让数据交换,让小公司给大公司提供技术服务,看现在的趋势,人工智能还真是大公司的事。另一条,如果政府做了很大的数据开放,可能会带来新的投资机会,等于小公司有机会获得数据了,如果政府开放数据,可能会带来新的机会,这个事不知道会不会发生。

媒体:科创板块有一个新的进展,会不会投资一些公司?会不会自己上。

王小川:我们模式不会变的,我们不会投资赚钱,这不是我们干的活,我们做不过其他专业机构的。谈到我们自己,因为我们在美国已经上了,国内环境,科创板块如果做成功了,有巨大的意义。但是这东西就看政策,只知道这个事发生了,但是最后怎么演化,希望它成功,对中国是革命性的意义在。

媒体:在选择2C智能硬件的产品的时候,您觉得现在还有哪些场景不被满足的?

王小川:第一,需要有更好的录音笔,真的是给老师,自媒体的人做演讲的时候或者双方谈合同的时候,只要有商务活动都能用到,这是需要做的一件事情,但还不是品牌性的产品,要是能力上有升级,会有新的产品,我认为努力带来大家一起新的技术的思考,也可能是跟硬件厂商合作。

媒体:在数据及隐私保护这块有什么新的变化吗?

王小川:第一尊重隐私,保护隐私这是属于很严肃的话题,得去做遵守,是符合法律和用户的文化,但是我们知道如果一边倒,隐私不可侵犯,这个视角是特别有害的,因为只有别人了解你的个性,才能给你更好的服务。所以这种情况里,从社会整体的价值看,个人能够把自己一些数据开放开,让企业知道,可以提供更好的服务,这种事情在安全情况下,该去倡导的一件事情,所以欧盟的做法,最后会把自己坑死掉的,用户消费者也不买账,最后没能服务升级,倒变成整体落后了。

媒体:当搜狗新开一项业务的时候,什么是取决于这个业务要不要开,最大的思考维度是什么?

王小川:第一个,我们知道未来趋势是什么,这个得知道,这是一个源头。但是第二个事情为什么是我们做,我们在做这事的时候,跟我们价值观也好,跟我们的能力也好,跟我们当前的状态也好,有什么样的关系。为什么是我,这个事情也是很严肃的事。这个事最好有全局的使命,如果这是在趋势里,在你的使命里,你会努力去做。

媒体:在搜狗公司您对自己的定位更像职业经理人还是联合创始人?

王小川:其实我双重属性都有,我同时承担着创始人的精神作用和引领方向,但是因为股权关系,我又得像职业经理人干活,这个是挺独一无二的状态。