您现在的位置: 首页 资讯 > > 正文
清华领衔多模态人机交互与AIGC,让“元宇宙GPT”落地千行百业
发布时间:2023-03-30 17:46:59 来源:36氪

清华AI技术走出实验室,走进元宇宙。

文|许璧端

ChatGPT带来了2023年第一个大爆的风口。无论是强大的写诗、撰文、编码等内容生成能力,抑或是语义推理、情绪分析、识别非法与偏见等对话能力,都让大众眼前一亮,也给ChatGPT所代表的AIGC技术应用带来无限想象空间。


【资料图】

时隔几个月,更新迭代的ChatGPT4.0面世,在原有的文本层面交互上,新增了接受图像输入和输出图像、音乐、视频回答的功能,开启了人机交互新时代。这背后涉及的“多模态技术”是人工智能行业近年来的研究热点。

多模态指的是多种模态的信息,包括文本、图像、视频、音频等,多模态技术就是将这些不同形式的数据融合在一起进行分析和处理的技术。以前的媒体信息处理模型往往只针对某种单一形式的媒体数据进行推理分析,但人类的感知是多模态的,“就像与人面对面进行交谈时,我们既听到他的声音、观测他的表情,同时也看他的手势。那么通过这样的多模态识别,就可以传递更多的信息。”

在清华大学电子系教授王生进看来,要想实现真正的人工智能,让人机交互还原人与人般自然的互动,就需要机器具备视觉、听觉和触觉等强大的感知能力,可以说多模态交互是未来AI技术的一大发展趋势。

专攻多模态交互技术,让人机交互跨越感官

王生进1985年毕业于清华大学无线电电子学系,1997年在东京工业大学获博士学位,2003年回国至今在清华大学电子工程系任教,现任清华大学媒体智能与自主系统研究中心主任、北京信息科学与技术国家研究中心跨媒体智能创新团队负责人,先后参与了十多项国家纵向项目和数十项企业横向项目的研究和开发工作,多次获得国家及省部级和学会奖,2020-2022连续3年入选“爱思唯尔中国高被引学者”。

王生进教授(图源:「紫为云」)

王生进所带领的清华AI实验室团队主要研究方向定位为人工智能、计算机视觉和机器学习,具体包括媒体大数据认知计算、跨媒体智能和多模态协作机器人三大方面。而多模态融合就是跨媒体智能研究中的一项重要技术。

在跨媒体智能方面,清华AI实验室主要研究面向新一代人工智能的跨媒体数据认知计算,对文字、图像、语音等多种媒体进行统一的协同感知和计算,最终实现获得媒体所承载信息的识别和分析更加准确的结果。

细看当下较为普及的人工智能产品,其感知能力较为单一,即使具备多种感知能力也无法互通。例如智能音箱只能实现语音层面的交互,人脸支付在图像层面进行信息采集与识别,扫地机器人则通过机器视觉感知到环境信息。“对于智能机器来说,提高视觉、听觉、触觉等多种生物感官复合能力与信息复用能力,是增强智能化水平的一个重要研究方向,跨媒体智能便是其中的一项重要技术。”早在2017年国务院发布的新一代人工智能发展规划中,“跨媒体协同处理”就已经是人工智能五大发展重点之一。

王生进介绍,经过多年深耕,目前团队突破了跨媒体信息的高效特征学习和统一语义表达,例如输入一段包含视觉信息、语音信息、字幕信息的视频,智能机器能够把这些信息统一表达出来。相比单一媒体,智能机器利用这三种媒体信息去理解同一事件或内容,提高了信息理解的准确性。

“跨媒体智能不仅仅是让智能机器拥有更多的感官能力,更是打破这些能力之间的物理隔离,让信息在更高维度层面进行融合和复用,真正让机器的感官能力‘动起来’。”因此,如何让多模态信息之间的融合互通成为多模态交互智能的难点,“即怎么把智能机器看到的和听到的关联起来”。

通过机器学习的方法,清华AI实验室让智能机器能够在海量、复杂的多元异构跨媒体数据里,准确即时地感知环境、推理信息并做出决策。“例如我对机器说一句‘请把桌子上的杯子递给我们’,机器能够听懂,并通过视觉识别技术看到桌子、找到桌子上的杯子,自主决策拿杯子的姿态、位置,像人一样握住把手递给我。”

然而受到复杂环境的制约,多模态交互技术目前无法达到100%的识别准确性,这也是清华AI实验室未来的研究重点:进一步提升识别性能和环境适应能力,“让机器能听懂方言,在弱光线环境下也能看清目标物”。

同时,清华AI实验室将视觉感知、语音识别、融合理解、动作交互等媒体大数据认知算法和跨媒体智能能力放到机器人身上,相当于为其安装一个智能大脑。王生进希望这样的多模态协作机器人实体未来能够面向家庭服务、医院护理、战场救护,或是太空实验等特殊场景提供技术支撑。

基于自主研发的多模态感知一体化的智能机器人平台,清华AI实验室开发了面向老年人的喂饭机器人。就在3月23日,实验室团队刚刚带着这一项目在英特尔中国研究院发起的室内机器人学习全球挑战赛中夺得一等奖。

清华教授成立智能交互公司,让AI技术走出实验室

在深耕科研的同时,王生进也花费不少力气让AI技术走出实验室。除了清华大学教授外,王生进还有一个重要身份:广州紫为云科技有限公司(以下简称「紫为云」)的首席科学家。基于跨媒体智能研究成果,清华AI实验室在多模态智能人机交互以及元宇宙系统等方面展开应用研究,并通过技术产业化公司「紫为云」落地产品。

2017年,作为清华大学首批人工智能产业化孵化项目的「紫为云」正式成立,这是王生进及其团队实现跨媒体智能科研成果迈向产业化的重要一步。自此,清华AI实验室和「紫为云」开始协同合作,向着虚实智能交互的方向进军,专注交互式人工智能技术,打造AR虚实交互的技术底座。王生进负责从未来技术发展方向的角度出发,确定公司未来的技术路线,将高校科学研究和企业产品研发紧密地结合在一起。

成立之时,王生进就提出打造一个连接虚实世界的沉浸式AI引擎。“要能够感知到人的行为意图、语言动作等等,然后还要让人能与虚拟世界里的物品、场景进行互动,就需要一个沉浸式的AI引擎。”基于王生进及清华AI实验室团队近30年的技术沉淀,「紫为云」很快打造出连接虚实世界的“新一代人机交互智能技术引擎”。

新一代的人机交互智能要求强大的多模态信息感知能力,随着要处理的模态增多,对算力的要求也在提高,在算力有限的情况下,算力优化成为多模态交互技术的关键之一。此外,新一代人机交互智能技术体系的一大特点在于利用大数据和算法去驱动虚拟场景的生成,“虚拟空间里所有的驱动都是靠数据”。

“新一代人机交互智能技术引擎”相当于一个多技术集成站,将多模态、算力优化、虚拟引擎、数据智能、人机交互等技术赋能给机器,机器成为有感官、能思考的智能体,让人和虚拟世界的交互体验更自然、真实、温暖。

同时,清华AI实验室团队持续攻关前瞻性核心技术,例如三维姿态的识别技术、通用的人工智能内容生成技术,以及小样本的处理技术等等。王生进介绍,成立至今,「紫为云」经过两次技术迭代:从多模态算法向交互智能算法发展,这属于算法侧的结构升级;此外,清华AI实验室团队还实现了识别技术从二维向三维的跃迁,尤其是基于单目的二维手势识别和三维交互手势识别。

将相关技术融入到产品后,「紫为云」目前已推出AR元宇宙交互智能终端、AR元宇宙互动屏和互动平板等硬件产品,以及AR交互平台与AI应用系统、元宇宙虚拟云应用系统平台等软件产品。

一项前沿科技走出实验室,能否为用户和企业带来真正效益,还需要市场的验证。目前,「紫为云」产品已广泛应用于数字乡村、数字教育、数字医疗、数字文旅等场景中,为客户提供基于AR真实世界的元宇宙技术型解决方案。

以数字体育场景为例,「紫为云」和豪群炼盟(林书豪-李群篮球学校)正在合作开发“AR原地空手投篮动作纠偏”专用程序,解决篮球学员在校外练习投篮动作的标准化难题。学员在家训练时,通过手机摄像头采集其身体姿势图像,投屏到家用电视机作为体育教学的辅助工具。学员能看到全身各关节的夹角是否在高命中率的标准范围内、动作是否变形偏差;教练则可基于采集的数据分析来给学员更科学的指导,纠正不规范动作,提高了在家训练的效率和质量。

在去年6月,「紫为云」更是和国际屏显巨头「京东方」合作,联合开发“AR元宇宙互动屏”,将「紫为云」轻量化算法模型和虚实交互内容移植到成熟的智能硬件系统上。在广州市黄埔区,借助这块AR元宇宙互动屏,农业农村局为迳下村打造了一个AR元宇宙互动宣传窗口,互动屏可以捕捉真人的手势和身体动作,映射到屏幕中,村民可以在互动屏上体验拟真的3D虚拟体育内容,与3D麒麟共舞,或者咨询虚拟医生线上问诊。

广州市黄埔区迳下村AR元宇宙互动宣传窗口(图源:「紫为云」)

使能万千企业,放大人工智能的想象空间

人所处的现实世界是有限的,我们难以亲临每一个想去的真实场景,但无论是出于科研还是娱乐需求,我们又希望能接触这些遥远的现实世界,因此人们希望构建一个随时能在眼前展开的虚拟世界,体验遥不可及或是新奇的场景。这也是为什么人类甘愿投入巨大成本创造一个可以产生互动的虚拟世界。

在王生进看来,未来一段时间内虚实交互技术的研究热点仍会是利用多模态技术提高机器感知和认知人类意图的准确度,同时构建一个更加真实的虚拟空间,连接真实世界进行即时、多感官互动。而要实现极致沉浸体验的虚实交互,除了感知识别技术,实时通信、高仿真显示、人机交互等相关技术也必不可少。

基于这一人机交互发展方向,王生进介绍,未来「紫为云」将持续聚焦开发基于自然交互的新一代人机交互智能技术,不仅仅关注AIGC的通用内容生成,还研究支撑通用内容生成的底层算法和算力;同时重点开发数据智能技术和平台技术,“因为基于元宇宙场景的数据要素是非常重要的,我们是把研究重点放在数据智能上,希望构建类脑的智能系统,让智能跃迁为智慧。”

AlGC高清图片内容生成技术(图源:「紫为云」)

人机交互是元宇宙的重要入口。新一代人机交互智能技术体系将算法算力、渲染引擎、数据通讯等技术深度融合后,试图打造一个开放的元宇宙使能平台,将清华大学多年来积累的科研成果进行开放共享,使能合作伙伴打造低成本、低算力、低延时的高性价比元宇宙产品,加速各行业人工智能的研究,放大元宇宙的想象空间。

实际上,在人工智能产业链上的众多企业当中,真正具有从研发到应用的技术链条的并不多,甚至说只有大厂有能力去构建自己的技术团队,研发算法等核心技术。人工智能中小企业迫切需要这些智能化技术,但是他们很难去构建一个自己的团队。王生进分析,这背后的主要原因在于人工智能领域人才的短缺,“一方面是人数不多,另一方面人力成本还是很高的”。「紫为云」希望能为中小企业提供AI底层技术的使能。

在「紫为云」董事长顾友良看来,“「紫为云」做的虚拟场景应用,它不是独立于现实世界的,而是回归便捷、轻量化技术,让元宇宙飞入寻常百姓家”。怀着使能、开放、合作共赢的理念,「紫为云」通过新一代人机交互智能技术引擎,牵引“元宇宙GPT新基建”高速列车,使能万千企业,探索场景落地,让元宇宙不再只是金字塔少数人才能享受的“黑科技”。

标签:

深圳“双创”综合指数连续6年排名第一 创业密度稳居全国第一

双创由众而积厚成势,因创而破茧成蝶。今年5月,在深圳发布的《大众创业、万众创新研究报告(2021)》显示...

一线工作近22年的缉毒警:我知道坏的是毒品不是人性

  “影子”般的缉毒警:一线工作22年,我知道坏的是毒品不是人性  如果我不继续干,别人也要干,缉...

广东肇庆“毒驾连撞5车致1死”肇事司机被批捕

  1月5日14时30分许,广东肇庆市端州区一男子赵某毒驾连撞5车,致一人死亡。  1月10日,澎湃新闻(ww...

江西最大文物倒卖案宣判:倒卖国家二级文物 9人获刑

  中新网南昌1月10日电 (冷峥嵘 张一怡)江西省共青城市人民法院10日发布消息称,近日,该院依法审结...

青海保障门源地震后生活必需品应急物资

  中新网西宁1月10日电 (记者 孙睿)记者10日从青海省商务厅获悉,青海海北州门源县6 9级地震灾害发...

广西东兴口岸恢复通关 入境需网上预约

  中新社防城港1月10日电 (翟李强)自2022年1月10日零时起,广西东兴口岸和边民互市贸易区恢复人员、...

呼和浩特:寒假期间有条件的学校要开展校内托管服务

  中新网呼和浩特1月10日电 (记者 张林虎)10日,记者从呼和浩特市教育局获悉,在暑假校内托管试点的...

“中国最后一个原始部落”翁丁老寨火灾原因公布

  “中国最后一个原始部落”翁丁老寨火灾原因公布:小孩玩火引起  中新网昆明1月10日电 (罗婕)近日...

北京市十五届人大五次会议胜利闭幕

  北京市十五届人大五次会议胜利闭幕   蔡奇陈吉宁李伟魏小东张延昆出席   张延昆齐静当选市人...

天津市委市政府致全市父老乡亲的慰问信:我们一定能够打赢

  中新网天津1月10日电 (记者 张道正)中共天津市委、天津市人民政府10日发布了“致全市父老乡亲的慰...

天津米面油存量由20天提高至30天 超市菜市场进货量翻倍

  天津米面油存量由20天提高至30天 蔬菜库存量、超市菜市场进货量翻倍  记者10日从天津市商务局获...

兰州名师话“美育”:“尚乐立人”分层培优 以“美”润教

  中新网兰州1月10日电 (记者 刘玉桃 高莹)“实际上音乐课作为一门非高考科目,一直以来没有受到足...

子夜直击,天津寒天战“疫”

  新华全媒+|子夜直击,天津寒天战“疫”  新华社天津1月10日电 题:子夜直击,天津寒天战“疫”...

重庆姐弟被生父扔下坠亡案上诉期结束 一审法院暂未收到两被告人上诉状

  重庆姐弟被生父扔下坠亡案上诉期结束,一审法院暂未收到两被告人上诉状  澎湃新闻记者 谢寅宗 ...

天津:划定封控区 全市开展全员核酸检测

  央视网消息:在各地的最新疫情中,奥密克戎变异株引发天津新增多例本土感染引人关注。截至1月9日下...

江歌母亲江秋莲:尊重法院判决,法律认定在我意料之中

  中新网青岛1月10日电 (记者 胡耀杰)山东省青岛市城阳区人民法院10日对原告江秋莲与被告刘暖曦生命...

中国边疆“北方第一所”:9名民警守护“生命禁区”

  中新网呼伦贝尔1月10日电 题:中国边疆“北方第一所”:9名民警守护“生命禁区”  作者 张玮 ...

辟谣!网传“封控区管控区相继解封”通知并非西安

  中新网1月10日电 据西安发布官方微博消息,1月9日,一则:“鉴于我市目前封控区、管控区相继解封,...

河南安阳9日12时至24时新增11例本土确诊病例

  1月9日12时至24时,河南安阳市新增本土确诊病例11例(汤阴县10例、文峰区1例)。  2020年1月22日至2...

老人5折环卫工8折生活困难免费 这家面馆背后有个暖心事

  老人5折,环卫工人8折,生活困难可以免费吃   这家面馆打折背后,有个暖心故事  见习记者 许...

铁路公安以110幅优秀书画作品庆祝人民警察节

  中新网北京1月10日电 (郭超凯 梁西征)1月10日是中国人民警察节。记者从公安部铁路公安局获悉,近...

本周中东部冷空气频繁 东北等地有降雪

  中国天气网讯 本周我国中东部地区冷空气活动频繁,其中,今天(1月10日)受冷暖空气共同影响,雨雪范...

河南新增本土确诊病例60例

  中新网1月10日电 据河南省卫健委网站消息,1月9日0—24时,全省新增本土确诊病例60例(郑州市24例,...

“打拐”民警眼里的百态人生:见证一份份不愿放弃的爱

  打拐者说   一位“打拐”民警眼里的百态人生  本报记者毛鑫、王瑞平   在公安系统里,“打拐...

迎腊八北京晴天上线 阵风6至7级体感冻人

  中国天气网讯 俗话说“腊七腊八冻掉下巴”,今天(1月10日)迎来腊八节,北京体感冻人,白天阵风六七...

多省份倡议春节“非必要不离开”,这地补贴1000元

伪造国家机关证件典型案例发布 有力打击制假贩假行为

15年照顾170多个新生儿 金牌月嫂“漂”到海外去看娃

江歌母亲江秋莲诉刘鑫案一审将于今日宣判

河南省安阳市两地划为高风险地区 一地划为中风险地区

员工迟到一次罚一千引争议 单位惩戒员工法律边界何在?

以体育人 秀出“青年范儿”

保安、厨师曾被竞业限制 企业滥用竞业限制让员工很苦恼

反诈老陈破圈:人民群众在哪 就把反诈宣传开展到哪

一所中职学校的育人实践

各地严惩恶意欠薪 保障农民工及时拿到工资

中学生成剧本杀行业潜在消费人群 多方助推行业“净化”

“这就是我最好的选择”

对餐饮浪费说“不”(百姓关注)

校园“直通车” 服务“零距离”

琉璃河遗址 两段铭文共证北京三千年建城史

千元修复个人征信报告?银行:“征信修复”都是骗局

琉璃河遗址 两段铭文共证北京三千年建城史

北京公交将开展无人驾驶道路测试

河南郑州调整五地为中风险区域 公路入郑需核酸检测阴性证明

“共享法庭”让金融消费者畅享“智慧司法”便利

《传奇2》网游著作权纠纷案峰回路转 最高法五份裁决四份改判一份发回重审

三代警察:从未放弃的28年

“胡叔叔”的寻亲工作室

天津津南本轮本土疫情第3—20例阳性感染者活动轨迹公布

“团圆”行动刑侦专家吕游 每一个案例都有单独的技术方案

河南“战疫”直面五重考验

开考古书店日均两三个顾客 流量时代她决心仍是只卖书

冬奥开幕在即 “双减”催热冰雪课堂

“不得以任何借口拒收患者”彰显生命至上

天津多站进京车票暂停发售

冷空气来袭广州气温骤降 广东多地发布寒冷预警

“电话发我”——“霸气回应”疫情求助背后的城市温度

天津津南区再增20例阳性感染者,详情公布

电影《农民院士》昆明首映 为观众呈现“把论文写在大地上”

南宁铁路警方春运期间将免费提供被拐儿童父母DNA检测服务

天津津南调整区域风险等级:1个高风险6个中风险!

天津全面加强离津管理 实施离津审批报备制度

口述|“郑州人张嘴做核酸采样的样子,熟练得让人心疼”

青海门源地震“震出”潜逃8年犯罪嫌疑人

天津出现感染奥密克戎本土病例 河南禹州全域为中高风险地区

河南郑州:10日在9个城区开展全员核酸检测

天津市津南区一地调整为高风险地区 多地调整为中风险地区

天津全面加强离津管理:广大市民群众非必要不离津

西安南小张村战“疫”记

河南通过“南水北调饮用水水源保护条例”

河南许昌累计报告143例确诊病例 呼吁16万在外务工者就地过年

重庆颁发中国统一公路养护资质管理后首批证照

“双向奔赴”!河南大学生志愿者为社区抗疫贡献力量

河南濮阳部分景点、剧院1月9日起暂停开放

x 广告
x 广告

Copyright ©  2015-2022 青年自然网版权所有  备案号:皖ICP备2022009963号-20   联系邮箱:39 60 291 42@qq.com