发布日期:2024-10-31 03:30 点击次数:133
10月28日至11月1日,2024海外多媒体会议(ACM International Conference on Multimedia 2024,简称ACM MM 2024)在澳大利亚墨尔本举行。中国东谈主民大学高瓴东谈主工智能学院宋睿华团队代表王希华受邀进行理论呈文爱操操网,分享了和值得买科技结伴开展的多模态范围研讨放肆《TiVA:时序同步的视频到音频生成》(TiVA:Time-aligned Video-to-Audio Generation),详备阐释了TiVA研讨经由、框架及杀青旅途,并指出该项研讨为当下多模态范围视频到音频同步生成的工夫穷困提供了一套高效科罚决策,进步了AIGC内容生成方面的速率、质料和智能化水平。
ACM MM大会由海外臆测机协会(ACM)发起,是海外多媒体处理、分析与臆测范围最具影响力的海外顶级会议,亦然中国臆测机学会(CCF)保举的多媒体范围惟一的A类海外学术会议,涵盖了多媒体研讨的整个范围,包括多样媒体花样、科罚工夫和执行挑战。
值得买科技与东谈主大高瓴东谈主工智能学院结伴开展的AIGC研讨自2023年6月发起,衔尾值得买科技的集群算力、历史数据和应用场景才智,以及东谈主大高瓴的科研和东谈主才才智,在AI内容创作、多模态生成等方面共同开展AI前沿研讨,加速工夫探索和应用。这次在ACM MM大会上进行呈文的TiVA研讨放肆也曾赢得国度发明专利授权,专利权为值得买科技和中国东谈主民大学共同领有。
在ACM MM2024大会的呈文中,王希华先容,TiVA框架为AIGC内容生成带来了新器具,不仅能杀青从视频到音频的高质料生成,速率还加速了约40%,“况且在语义匹配和时候同步的精度上,TiVA还打败了面前滥觞进的工夫。”其中枢在于音频布局的改动使用,通过低分辨率的Mel频谱图来提供毛糙的音频结构布局,匡助模子更好地证据和展望声息的肇始和收尾时候,从而杀青更精确的时候对都。
在具体杀青旅途方面爱操操网,通过新的音频信息表征容颜Audio Layout,即极低分辨率的梅尔谱,来暗示音频的粗粒度语义和时候信息。在一个无声视频中,先对其视觉语义进行编码并展望Audio Layout,然后诓骗语义编码和展望的Audio Layout看成条款信息,学习一个扩散模子生成音频。
除TiVA外,值得买科技与东谈主大高瓴东谈主工智能学院合营的另外两项研讨放肆也已面世,分离是面向电商范围的分享基座检索增强架构(BSharedRAG:Backbone Shared Retrieval-Augmented Generation for the E-commerce Domain)、多模态常识增强的视觉信息查询架构(MuKA:Multimodal Knowledge Augmented Visual Information-Seeking)。其中,《BSharedRAG:面向电商范围的分享基座检索增强架构》在本年9月已被海外学术会议EMNLP2024托福,该大会是当然言语处理和东谈主工智能范围顶级海外会议之一。
值得买科技CTO王云峰先容,与东谈主大高瓴的结伴研讨主要聚焦在多模态内容与电商搜索增强两大范围,恰是与值得买科技的业务标的径直关系。“前者能助力探索优质滥用内容的更多可能性,此后者能推动整个这个词电商的进一步提效。”
具体而言,在检索增强生成RAG(Retrieval Augmented Generation)方面,电商范围存在多数长尾的用户查询信息且更新连续,因此检索增强生成系统在用户意图识别、问答着力进步上的作用极为伏击。而面前大多数系统选拔检索和生成的孤立模块,检索任务和生成任务无法相互受益和进步性能。针对此问题,值得买科技与东谈主大高瓴结伴研讨团队提议了一种新的分享基座参数的RAG框架,即BSharedRAG架构。在此架构中,检索器和生成器分享一个范围特定的分享基座模子,以确保两个组件八成灵验地协同职责。
▲BSharedRAG架构的检修和推理概括
通过这种缱绻,BSharedRAG框架八成杀青检索和生成任务之间灵验的常识滚动,从而提高在特定范围的性能,尤其是在需要多数范围特定常识和连续更新信息的场景中;同期,检索器八成提供对生成器有用的信息,而生成器的输出又八成响应给检索器,以此酿成正向响应,对往日的检索效果进行优化。
少妇白洁全集在具体检修经由中,研讨东谈主员领先使用范围特定的语料库对基础模子进行抓续预检修,看成范围特定的基座模子;然后基于分享的基座模子检修两个即插即用的低秩相宜(LoRA)模块,分离最小化检索和生成的赔本。实验放肆标明,BSharedRAG在两个数据集的检索评估中相较基线模子分离进步了5%和13%的Hit@3(检索内容前三位的保举灵验率)发扬,并在电商问答范围对比基线模子进步了23%的文本生成质料等。
王云峰暗示,BSharedRAG框架也曾在什么值得买APP中进行了应用,尤其是在自研AI购物助手“小值”中,不仅提高了商品内容检索的准确性,还能凭证用户提议的历史问题进行更精确的意图识别,从而提供更贴合需求的商品保举,“不错说在信息丰富、检索着力、个性化保举和当然交互方面都起到了提效提质的作用,让用户的滥用决策着力更高、体验更粗浅、保举更个性化。”
值得一提的是,在发布BSharedRAG架构时,两边结伴研讨团队还开源了一个电商范围的评测集,匡助研讨者在和洽基准下进行不同研讨职责的效果对比,且该评测集将抓续更新。将自己的科技放肆和脱敏滥用数据对外开源,这也与值得买科技AI计谋中洞开、结伴、分享的精神相契合。
王云峰暗示,“咱们觉得AI是一件值得且需要弥远插足的事情,它不仅为企业构建工夫壁垒、竞争上风,更能带动整个这个词行业的茂密与升级。因此,值得买科技不仅把稳进步自己的AI才智,还与更平淡的合营伙伴共建高质料AI生态,抓续推动行业的共建共赢。”
往日,值得买科技将推动全面AI计谋稳步落地爱操操网,杀青对业务的提质增效和改动增长,同期还将联袂更平淡的合营伙伴,在产学研用一体中抓续鼓动AI工夫的研讨与落地,为创造滥用信息解放流动的好意思好寰宇作念出孝敬。
王云峰东谈主大LayoutTiVA范围发布于:江西省声明:该文不雅点仅代表作家本东谈主,搜狐号系信息发布平台,搜狐仅提供信息存储空间业绩。Powered by telegram 偷拍 @2013-2022 RSS地图 HTML地图
Copyright Powered by365建站 © 2013-2024