导读: 2023年,在ChatGPT火爆出圈的带动下,AI又一次站在了科技舞台的C位。但彼时的生成式AI能力仅局限于“文生文”。赢博体育 2024年2月,OpenAI又向科技世界扔下一枚“核弹”,推出了“文生视频”大模型Sora。Sora可以根据用户的文本提示创建最长60秒的视频,该模型了解这些物体在物理世界中的存在方式,可以深度模拟真实物理世界,能生成具有多个角色、包含特定运动的复杂场景。继承了D
2023年,在ChatGPT火爆出圈的带动下,AI又一次站在了科技舞台的C位。但彼时的生成式AI能力仅局限于“文生文”。赢博体育
2024年2月,OpenAI又向科技世界扔下一枚“核弹”,推出了“文生视频”大模型Sora。Sora可以根据用户的文本提示创建最长60秒的视频,该模型了解这些物体在物理世界中的存在方式,可以深度模拟真实物理世界,能生成具有多个角色、包含特定运动的复杂场景。继承了DALL-E 3的画质和遵循指令能力,能理解用户在提示中提出的要求。Sora的问世开启了大模型应用的新时代。
除了Sora的问世以外,过去的近5个月时间内,大模型在行业侧、产业侧的应用不断涌现,可以说今年注定是行业大模型快速落地的一年。对于直播行业,多模态大模型加持下的数字人也将拉开直播行业新时代的大幕。
而这历史性的一刻已经发生。4月16日,由京东云言犀打造的“采销东哥”AI数字人开启直播首秀,同时亮相京东家电家居、京东超市采销直播间,开启了AIGC式的电商直播3.0时代。京东云言犀负责人告诉钛媒体,采销东哥首秀后就有超百个企业CEO数字人定制需求赢博体育,正在加紧训练中。
如果说2023年是AIGC“卷”算力、“卷”参数的一年,那么从2024年开始,往后的几年间就是AIGC“卷”应用、“卷”能力的时代。京东云言犀负责人对钛媒体表示,工程性的作用将会越来越重要,这些技术最终还是要在应用中体现真正的价值。“我们希望一个技术出现以后,最终是能切实的落地到一个或多个场景上,而不仅仅是停留在demo上,数字人直播就是我们发掘出价值的应用场景之一。”京东云言犀负责人对钛媒体表示。
针对基于大模型打造的数字人在直播带货领域的发展前景,京东言犀负责人告诉钛媒体,目前来看,数字人直播带货有很大的机会成为直播领域的一个“爆点”,“主要是因为数字人在内容层次上达到了一个新的水准,言犀又在运营方法论层面形成了深度积累,人们对数字人的接受度和信任度也较高。”该名负责人如是说。
谈及当下数字人应用时,京东云言犀负责人对钛媒体表示,当下数字人在直播带货方面的价值,更多表现在人机协作共生方面。根据京东云方面统计,人机接档的直播间,数据表现明显优于纯人或纯数字人的直播间,“现阶段,数字人的价值不是取代真人,而是通过与真人接力的形式,打造‘日不落’直播间,挖掘闲时直播价值,”该名负责人指出,“目前,言犀数字人提高闲时转化率超30%。”
要知道数字人虽好,但真正做到实时的,赢博体育具有交互能力的,且栩栩如生的数字人,可远比利用Sora生成一个一分钟的视频需要的技术更难。
据了解,为了打造出逼真度更高的数字人,言犀早在2年多前就选择了端到端的技术路线,即建模-驱动-渲染一体化,而巧合的是,Sora也是选择端到端的技术路线。
从目前端到端的技术路线看,主要分为两大类:一类是完全的端到端;另一类是针对个别数据进行建模的。
而针对部分素材建模的方式会根据人脸额度素材进行建模,然后再控制数字人的表情、唇形,最后再进行纹理的渲染,“这两种方案京东云会根据不同的场景进行选择,但都会用到。”京东云言犀负责人指出。
而在整个数字人建模的过程中,如何实现人物大姿态动作,是最难的一点。对此,京东云言犀负责人对钛媒体表示,不能够有大幅度的活动是现在很多数字人看着不像真人的主要原因之一,要让数字人看起来和真人一样,赢博体育实现大姿态动作是必需的。
针对此,言犀数字人在训练过程中,从数据采集、数据清洗等各个方面都进行了精细化聚焦,并对模型代码进行了压缩、量化,修改了模型精度。通过种种技术手段,让最终呈现出来的数字人实现了可以像真人一般活动的能力。
除此之外,言犀数字人与Sora的不同之处还在于——言犀数字人需要进行实时同步的语音播报。对此,京东云言犀负责人告诉钛媒体,京东云为了训练言犀数字人使用了超过5万小时的多种多样的素材语音,从而让底层的基础模型具备人类发音的基本模式,建立好语音模型,“通过超过5万小时的数据训练后,基础模型已经具备了模仿任何人说话的能力,而且这种能力不仅局限于中文,甚至可以流利的说英语。”该名负责人强调。
值得一提的是,经过5万小时语音数据训练后的基础模型,仅需要再提供部分被模仿人的语音片段,不需要再对模型进行训练,就可以直接合成被模仿人本来的音色和说话的表达方式,这也是为何“采销东哥”能够将京东集团创始人、董事会主席刘强东“宿迁普通话”学的惟妙惟肖的关键所在。
有了语音和视频双重加持,让“采销东哥”数字人在近期的几次直播中毫无破绽,算是成功通过了图灵测试。
虽然数字人具备强大的能力,但在京东云言犀负责人看来,直播带货的本质还是要强调运营,“运营要以效果为导向主导规划,从形象、表演、装修、互动、展示等全面的进行每场直播的策划,而产品和技术都必须紧密围绕这套规划来开展自己的设计和打造工作。”该名负责人指出,“也是出于落实运营为王的核心方法论,言犀在今年也开始给一些重点品牌合作伙伴提供代运营服务,就是为了以这些头部品牌为支点,摸索并快速扩散有效的数字人直播运营经验,帮助行业能够快速成长,快速裂变。”
大模型制作出的数字人虽然好用,但好用仅仅是开始,成本、门槛才是决定一个技术能否大规模应用落地的关键。随着AIGC快速的发展,业内已经有不同声音——模型不是越大越好。
百度创始人、董事长兼首席执行官李彦宏曾公开指出,未来大型的AI原生应用将主要采用大小模型混合使用的方式。他解释说,这种模式被称为MoE,即不依赖单一大模型来解决所有问题,而是根据不同场景选择适合的模型。“在一些特定场景中,经过精调后的小模型,其使用效果甚至可以媲美大模型。”李彦宏如是说。
无独有偶,360集团创始人、董事长周鸿祎也曾指出,在具体的落地场景上,在把大模型做“大”的同时,做“小”也是一个重要的趋势,使大模型能够搭载在手机、电脑,各种物联网设备上,尤其是智能网联汽车,2024年将更多的搭载大模型。
IBM大中华区首席技术官、研发中心总经理谢东也曾公开表示,对于企业而言,应用模型的目的是希望其能以较低的成本,解决特定的问题,“对于企业级应用而言,模型反而是越小越好,因为越小越灵活,越小成本越低。”谢东指出。
上述行业大佬的言语不难看出,大模型虽然具备一定的能力,但是其应用成本、应用门槛较高,一般企业难以负担应用大模型所产生的高昂成本。与此同时,相较于大模型而言,较小的模型能让AI真正做到“术业有专攻”,以最低的成本,实现最大的价值。
值得注意的是,京东云言犀算法总监告诉钛媒体,目前言犀数字人可以支持云上与本地部署两种形式,其中,本地部署不仅支持GPU,也支持仅CPU部署,且效果不会打折扣。这与目前市面上常见的大模型产品必须需要GPU能力加持相比,无论是在芯片采购成本,还是后期运营成本方面都有着明显的优势,降低了品牌商的使用门槛。“京东云提出的模型可以精确预估人物的姿态,以及对每个形象个性化的纹理建模和联合优化,即便采用轻量化的模型,也能够生成自然逼真的效果。”京东云言犀算法总监如是说。
“目前,行业内也有很多轻量化的办法,比如量化或进行模型压缩,但京东云言犀可以直接做到CPU推理,这对于成本的节约非常重要。”京东云言犀算法总监进一步指出。
而对于本身就采用言犀大模型的用户而言,可以直接在云端使用言犀数字人,京东云言犀负责人告诉钛媒体,数字人是直接通过训练生成式网络模型实时生成的,“可以同时支持上千个直接间在云端同步直播,进一步降低开播成本30%。”该名负责人强调。
谈及未来,京东云言犀负责人对钛媒体表示,如果将数字人分为三个等级,第一级是像真人看齐;第二级是媲美真人;第三极是能融合真人的思想、文化背景等,“目前言犀数字人已经达到媲美真人的级别,但对于数字人来说,还有很多路要走,要实现让数字人具备真人的文化背景、思维逻辑,成为真正的数字分身还有很长的路要走。这也是言犀大模型将继续尝试的一个重要方向。”该负责人指出。