向善而生的AI助盲,让AI多一点,障碍少一点******
有人说,盲人与世界之间,相差的只是一个黎明。在浪潮信息研发人员的心中,失去视力的盲人不会陷入永夜,科技的进步正在力图给每一个人以光明未来。
AI助盲在人工智能赛道上一直是最热门的话题之一。以前,让失明者重见光明依靠的是医学的进步或“奇迹”。而随着以“机器视觉+自然语言理解”为代表的多模态智能技术的爆发式突破,更多的失明者正在借助AI提供的感知、理解与交互能力,以另一种方式重新“看见世界”。
新契机:多模态算法或将造福数以亿计失明者
科学实验表明,在人类获取的外界信息中,来自视觉的占比高达70%~80%,因此基于AI构建机器视觉系统,帮助视障患者拥有对外界环境的视觉感知与视觉理解能力,无疑是最直接有效的解决方案。
一个优秀的AI助盲技术,需要通过智能传感、智能用户意图推理和智能信息呈现的系统化发展,才能构建信息无障碍的交互界面。仅仅依靠“一枝独秀”超越人类水平的单模态人工智能比如计算机视觉技术还远远不够,以“机器视觉+自然语言理解”为代表的多模态算法的突破才是正确的新方向和新契机。
多个模态的交互可以提升AI的感知、理解与交互能力,也为AI理解并帮助残障人士带来了更多可能。浪潮信息研发人员介绍说,多模态算法在AI助盲领域的应用一旦成熟,将能够造福数以亿计的失明者。据世卫组织统计,全球至少22亿人视力受损或失明,而我国是世界上盲人最多的国家,占世界盲人总数的18%-20%,每年新增的盲人数量甚至高达45万。
大挑战:如何看到盲人“眼中”的千人千面
AI助盲看似简单,但多模态算法依然面临重大挑战。
多模态智能算法,营造的是沉浸式人机交互体验。在该领域,盲人视觉问答任务成为学术界研究AI助盲的起点和核心研究方向之一,这项研究已经吸引了全球数以万计的视障患者参与,这些患者们上传自己拍摄的图像数据和相匹配的文本问题,形成了最真实的模型训练数据集。
但是在现有技术条件下,盲人视觉问答任务的精度提升面临巨大挑战:一方面是盲人上传的问题类型很复杂,比如说分辨冰箱里的肉类、咨询药品的服用说明、挑选独特颜色的衬衣、介绍书籍内容等等。
另一方面,由于盲人的特殊性,很难提取面前物体的有效特征。比如盲人在拍照时,经常会产生虚焦的情况,可能上传的照片是模糊的或者没有拍全,或者没拍到关键信息,这就给AI推理增加了难度。
为推动相关研究,来自卡内基梅隆大学等机构的学者们共同构建了一个盲人视觉数据库“VizWiz”,并发起全球多模态视觉问答挑战赛。挑战赛是给定一张盲人拍摄的图片和问题,然后要求给出相应的答案,解决盲人的求助。
另外,盲人的视觉问答还会遭遇到噪声干扰的衍生问题。比如说,盲人逛超市,由于商品外观触感相似,很容易犯错,他可能会拿起一瓶醋却询问酱油的成分表,拿起酸奶却询问牛奶的保质期等等。这种噪声干扰往往会导致现有AI模型失效,没法给出有效信息。
最后,针对不同盲人患者的个性化交互服务以及算法自有的反馈闭环机制,同样也是现阶段的研发难点。
多解法:浪潮信息AI助盲靶向消灭痛点
AI助盲哪怕形式百变,无一例外都是消灭痛点,逐光而行。浪潮信息多模态算法研发团队正在推动多个领域的AI助盲研究,只为帮助盲人“看”到愈发精彩的世界。
在VizWiz官网上公布的2万份求助中,盲人最多的提问就是想知道他们面前的是什么东西,很多情况下这些物品没法靠触觉或嗅觉来做出判断,例如 “这本书书名是什么?”为此研发团队在双流多模态锚点对齐模型的基础上,提出了自监督旋转多模态模型,通过自动修正图像角度及字符语义增强,结合光学字符检测识别技术解决“是什么”的问题。
盲人所拍摄图片模糊、有效信息少?研发团队提出了答案驱动视觉定位与大模型图文匹配结合的算法,并提出多阶段交叉训练策略,具备更充分的常识能力,低质量图像、残缺的信息,依然能够精准的解答用户的求助。
目前浪潮信息研发团队在盲人视觉问答任务VizWiz-VQA上算法精度已领先人类表现9.5个百分点,在AI助盲领域斩获世界冠军两项、亚军两项。
真实场景中的盲人在口述时往往会有口误、歧义、修辞等噪声。为此,研发团队首次提出视觉定位文本去噪推理任务FREC,FREC提供3万图片和超过25万的文本标注,囊括了口误、歧义、主观偏差等多种噪声,还提供噪声纠错、含噪证据等可解释标签。同时,该团队还构建了首个可解释去噪视觉定位模型FCTR,噪声文本描述条件下精度较传统模型提升11个百分点。上述研究成果已发表于ACM Multimedia 2022会议,该会议为国际多媒体领域最顶级会议、也是该领域唯一CCF推荐A类国际会议。
在智能交互研究方面上,浪潮信息研发团队构建了可解释智能体视觉交互问答任务AI-VQA,同时给出首个智能体交互行为理解算法模型ARE。该研究成果已发表于ACM Multimedia 2022会议。该研究项目的底层技术未来可广泛应用于AI医疗诊断、故事续写、剧情推理、危情告警、智能政务等多模态交互推理场景。
眼球虽然对温度并不敏感,但浪潮信息的研发团队,却在努力让盲人能“看”到科技的温度,也希望吸引更多人一起推动人工智能技术在AI助盲、AI反诈、AI诊疗、AI灾情预警等更多场景中的落地。有AI无碍,跨越山海。科技的伟大之处不仅仅在于改变世界,更重要的是如何造福人类,让更多的不可能变成可能。当科技成为人的延伸,当AI充满人性光辉,我们终将在瞬息万变的科技浪潮中感受到更加细腻温柔的善意,见证着更加光明宏大的远方。
对话丨电竞“名嘴”管泽元:解说不能只在意金句******
“究竟什么样的结局才配得上这一路的颠沛流离?从差一点无缘季后赛,到最终杀进决赛。Deft最后一舞还在继续,他甚至站在了舞台的正中央!”
在英雄联盟S12半决赛第四局,DRX推掉GEN的水晶后,以黑马之姿闯进了S12决赛。管泽元的声音一如既往充满激情,尽管被淘汰的GEN是他喜欢的战队。
入行八年,管泽元和中国电竞一同成长。如今,他已成为中国电竞解说的招牌之一,“跨界”之旅更是颇受好评。这些经历,让管泽元对解说、对电竞有了更深刻的认识。
鸟巢
“小时候,从家一出来就能看到鸟巢,见证它从无到有,一点点建起来。鸟巢叫国家体育场,它就是咱们中华民族的体育象征。”
2017年,中国大陆地区第一次承办S赛,英雄联盟全球总决赛的冠亚军决赛在鸟巢举行。于管泽元而言,那是他解说生涯迄今颇为难忘的一场比赛,也是职业生涯的重要一环。
决赛开场环节壮观而热烈,周杰伦现场为观众献唱,场面之盛大不逊色于任何赛事。
但对于很多中国电竞观众来说,那是一段令人百感交集的回忆。因为最终在鸟巢登场比赛的,是两支来自韩国LCK赛区的战队。
S7决赛海报。图片来源:英雄联盟赛事官博。彼时,中国电竞正走在飞速发展的道路,以英雄联盟项目为例,更多资本进入职业战队,受众市场不断增大。次年举办的S8比赛中,iG在韩国为LPL赛区拿下了历史上第一个S赛冠军。
直至今天,英雄联盟仍是中国最受欢迎的电竞项目之一。此外,王者荣耀、和平精英等项目的赛事也日渐红火。过去十年,中国电竞行业迎来了飞速发展。
2014年开始解说生涯的管泽元身处其中,真切感受到了变化的发生。“第一是受众影响,大家对电竞的接受程度更高。其次出现了非常多伴生的产业。另外,中国电竞项目在全世界范围内的影响力,跟我刚入行那会是不一样的。”
解说
S12期间,管泽元的预测频频登上微博热搜。当然,LPL战队在S12的表现,没有几个人事前能预测正确。
管泽元为S12决赛解说之一。图片来源:英雄联盟赛事官博。“毒奶”是管泽元身上一张著名的标签,这起源于几次不成功但令人印象深刻的预测。实际上,他也有很多次预测正确,由于“幸存者偏差”,往往被人们忽略。
“大家把这个东西当成一个梗去玩,我也欣然接受。但认真讲,任何预测在没有出现结果前都是不确定的。现在为了避免再有类似情况,我尽量避免参与预测。”
“毒奶”这张标签只是锦上添花的点缀,管泽元一路走到今天,成为S赛决赛解说台上的常客,更多是因为专业、努力与热爱。
就如同S12半决赛GEN被DRX淘汰后,管泽元那番解说词所展现出来的——他有着自己支持的战队,更在工作中保持着超出战队、赛区局限的纯粹热爱,这正是电竞行业很多从业者所缺少的。
图片来源:英雄联盟赛事官博。尽管解说时金句频出,但管泽元对此并没有刻意追求。“解说工作,在一局甚至一周的比赛里,90%的时间需要稳定地娓娓道来,不出问题。或许有10%是高潮,但不可能满脑子想着这10%。”
伴随着电竞赛事日渐红火,站在台前的从业者们逐渐成为公众人物,赞美与争议也不可避免地接踵而至。管泽元对此看得很谈,在他眼中,既然是表达者,就要接受被误解。“这个世界上这么多人,不可能所有人都理解你,更不可能所有人都认同你。”
破圈
无论是欧冠、NBA的解说台,抑或少年偶像参加的运动综艺,如今在很多地方都能看到管泽元的身影。
“年轻时也是在天上摘星星的人,到这个时候宁愿在泥地里打滚也要把球给救回来。”客串NBA解说时,管泽元形容格里芬的这番话,深深触动了很多老球迷。
受访者供图。在中国电竞行业追求大众化、追求“破圈”的时候,管泽元成为了走在最前面的人之一。他跨界的成功,更多是由于自身职业素养过硬。其他领域的观众喜欢他不因为他是“电竞解说”管泽元,而因为他是对这些项目“了解而热爱”的管泽元。
涉足篮球、足球等崭新领域,让管泽元有了横向对比的机会。“在中国,电竞的实力以及整个全球范围内的影响程度都是最好的那一批。我去解说其他项目的比赛,更多还是别人的比赛,本土化方面的区别是非常大的。”
在他看来,目前中国的电竞赛事直播制作已经达到较高水平。“在制作跟直转播的规模以及质量上,我觉得电竞现在是最牛的。以英雄联盟电竞转播规模和制作水准举例,比起很多传统项目要好太多了。”
尽管如此,与历史久远的传统体育行业相比,电竞在文化底蕴方面有着天然的劣势。管泽元认为,以电竞的运行方式和年限,很难出现像传统体育那样的文化,也很难通过单一项目产生文化层面的东西。
北京,夜色中的国家体育场“鸟巢”点亮绚丽灯光。中新社记者 易海菲 摄“电竞作为一个概括词,包含了太多不同的内容、不同的项目,电竞的单一项目很难持续较长时间。”他说,电竞行业从业者们目前主要在做的,还是服务眼前的观众和赛事。
采访摘要
Q:你的解说生涯伴随着中国电竞行业的发展,你觉得其改变最大的是哪方面?
A:第一是受众影响,大家对电竞的接受程度更高,电竞赛事赞助商的阵容越来越强大、直转播的覆盖面越来越广、各个平台渠道以及媒体都在做跟电竞相关的事情。
第二就是出现了非常多伴生的产业。第三是全世界范围内,中国在电竞这个项目上的影响力,跟我刚入行那会是不一样的。
Q:你认为LPL的“周末饭堂夜”这类节目,是不是关于电竞文化的有益尝试?
A:我个人认为以电竞的运行方式和年限,很难出现像传统体育那样的文化,也很难通过单一项目产生文化层面的东西。
电竞作为一个概括词,包含了太多不同的内容、不同的项目,电竞的单一项目很难持续较长时间。我们这些节目在努力,但是目前真正的意义还是服务观众和赛事。
Q:你曾解说NBA、欧冠等比赛,是电竞“破圈”的代表。你觉得传统体育和电竞之间差异最大的是什么?
A:我个人而言,解说工作的差异并没有那么大。电竞解说是所有项目解说中最困难的,也是要求最高的。
在中国,电竞的实力以及全球范围内的影响程度都是最好的那一批,我去解说其他项目的比赛,更多还是别人的比赛,本土化方面的区别是非常大的。
在制作跟直转播的规模以及质量上,我觉得电竞现在是最牛的。以英雄联盟电竞转播规模和制作水准为例,比起很多传统项目要好太多了。
Q:电竞项目解说在光鲜背后,是否也有不为人知的困难?
A:任何事情你想把它做好,背后一定要付出相应的努力和代价。应该去学会接受所有它带来的好的和坏的,没有觉得有那么多行业辛酸。
你要接受你是表达者,被误解就是表达者的使命,这个世界上这么多人,不可能所有人都理解你,更不可能所有人都认同你。
Q:你觉得电竞解说和电竞选手之间应该是什么样的关系?
A:应该处于一种稍有配合但尽量不要有过多接触或者连带的关系。
毕竟解说是剥离于赛场之外的职业,并没有参与到竞技本身。可以有轻度的关联,比如说有一些专业性的问题,私下请教一下选手,或者说通过官方节目,跟一些选手建立比较良好的交流,但是在解说这份工作当中,你对他们应该是一视同仁的。
Q:在你解说过的比赛中,印象最深刻的是哪场?
A:应该就是2017年在鸟巢解说比赛。我是北京人,家在四环边上。小的时候,从家一出来就能看到鸟巢,能看到它从无到有,一点点建起来。
申奥成功后,作为一个北京人就有那种自豪感——北京要承办奥运会了。鸟巢叫国家体育场,它就是咱们中华民族的体育象征。有一天,你因为工作做得不错,有机会可以在里面去工作。那是你从小看到大,一直仰慕的东西。
Q:你的解说语录有很多,自己最满意的是哪一句?
A:解说工作本身是很难复制的。我会去避免说同样内容,哪怕我觉得它真的很好,但我最多说两次。如果作为一个解说,你在意的是所谓的金句,你很难把工作做好。
解说工作,可能一局游戏甚至一周的比赛里,90%的时间需要做的都是稳定地娓娓道来,不出问题,可能有10%是高潮,但不可能满脑子想着这10%,更需要注意的是怎么让观众舒服。
Q:对于自己所谓的“毒奶”体质,你如何看待?
A:大家把这个东西当成一个梗去玩,我也欣然接受,但认真讲,任何预测在没有出现结果之前都是不确定的。
最开始出现这个事的时候,我确实预测错的比较多,其实我之后也很多次预测对,但没有人注意。现在为了避免再有类似情况,我尽量避免参与预测。
Q:你也是资深足球迷,卡塔尔世界杯马上开幕了,有没有支持的球队?
A:这还真没有。世界杯肯定最支持的是自己国家,但是在世界杯咱没有国家队。我可能就都看看,没有说特别支持的队伍。
跟最喜欢的俱乐部相关,所以皇马球员肯定会格外关注,要硬说我觉得今年巴西可能会多关注,也是因为它有比较多皇马年轻一代的球员。加之我在足球启蒙的时候巴西强,是比较喜欢巴西国家队的。
Q:很多年轻人想做职业电竞解说,你对他们有什么建议?
A:如今,入行电竞行业是比较简单的事情。现在电竞项目、经纪公司都有非常固定且公开的面向社会、校园的招聘,不太会求职无门。
你要做的就是加强自己,无论是学历,还是专业能力。
Q:一些青少年梦想成为职业选手,你作为职业解说和玩家,想给他们什么建议?
A:时代的发展已经不太会出现你想打职业,实力够,但你没有门路这种情况。
任何竞技游戏现在都有其自己的排行榜,只要你的实力够,甚至可以通过自己玩游戏就能找到工作,因为只要排名够高,就会有人来问你要不要去打职业。
如果你现在想打,努力一段时间,还没有任何人接触你,没有找到所谓的门路,可能你真的不适合这件事。
(记者 王昊)
中国网客户端 国家重点新闻网站,9语种权威发布 |