元宇宙英语论文
⑴ 大模型量化感知训练开山之作:LLM-QAT
近日,Meta的元宇宙部门 Reality Labs 提出了针对大模型的量化感知训练,该论文被认为是大模型量化感知训练的开山之作。本文将深入探讨该论文的技术原理、实验效果、数据选择策略、量化方法对比、知识蒸馏方法的消融实验。
摘要指出,目前针对大模型的训练后量化方法在低至 8 比特的情况下也能表现出良好效果。然而,作者发现这些方法在较低比特精度下存在缺陷。因此,本文研究了大模型的量化感知训练(Quantization Aware Training,QAT),以进一步提升量化水平。同时,提出了数据无关的蒸馏方法,利用预训练模型产生的生成数据,可以更好地保留原始输出分布,允许独立于其训练数据来量化任何生成模型,类似训练后量化方法。文中创新性地量化了 KV 缓存,这对于提高吞吐量和支持当前模型规模的长序列依赖至关重要。
论文通过在低至 4 比特的量化级别上对 LLaMA-7B/13B/30B 模型进行实验,显示相对于训练免费方法,该训练感知量化对模型效果有显著改进,尤其是在低比特场景下。
序言部分介绍了大模型的诞生证实了随着模型参数规模的增加,模型能力的提升。然而,由于需要大量算力和显存,服务如此大规模的模型对用户来说仍面临挑战。因此,针对大模型的量化研究变得尤为重要。文中指出现有工作主要集中在针对权重和激活进行 8 比特的训练后量化,但在 LLaMA-65B 这类大模型中,即使模型权重仍然需要大量的 GPU 内存,KV 缓存的内存需求也非常高。这使得上述工作并未考虑对 KV 缓存的量化。然而,较低比特的量化方法在 LLaMA-65B 等大模型上会导致模型质量急剧下降。因此,有必要采用 QAT 来提高量化水平。
在现有针对大模型量化感知训练研究相对空白的背景下,该论文的出现填补了这一空白。首先,QAT的实施对大模型的训练提出了技术挑战和算力要求。其次,QAT需要训练数据,但对于大模型来说,获取这些数据非常困难,预训练数据的庞大规模和多样性本身就是一个障碍,数据预处理也面临挑战。此外,法律限制和多阶段复杂训练过程也影响了 QAT 的实施。本文提出了一种数据无关的蒸馏方法,利用大模型本身生成的数据进行知识蒸馏,解决了上述问题。实验结果表明,这种方法能够更好地保留原始模型的输出分布,且仅使用少量采样数据就能提取量化模型,保证计算成本合适。所有实验都在单个 8-GPU 训练节点上完成。
该论文将 QAT 应用于 LLM,产生了第一个精确的 4 比特量化 LLM。同时,证实了在量化权重和激活时同时量化 KV 缓存对于缓解长序列生成的吞吐量瓶颈至关重要。通过新颖的数据无关蒸馏方法实现,这使得 QAT 对于大型预训练生成模型非常实用。
在方法部分,论文深入探讨了 QAT 在 LLM 中应用的挑战,包括选择合适的微调数据集的重要性以及如何确保预训练模型在量化后保持其在零射击生成方面的表现。对于大模型的独特权重和激活分布,论文确定了适合 LLM 的量化方法。通过使用大模型本身生成的数据进行知识蒸馏,论文提出了数据无关的量化感知训练方法,适用于任何生成模型,无论原始训练数据是否可用。
在数据无关蒸馏部分,论文介绍了从原始预训练模型生成下一个 Token 数据的方法。通过在词汇表中随机化第一个 Token,并让预训练模型生成下一个 Token,然后将生成的 Token 附加到起始 Token 以生成新的输出,重复这一过程直到达到句子 Token 的结尾或最大生成长度。通过测试三种不同的采样策略,论文发现基于预训练模型的 SoftMax 输出的随机采样策略能够产生更丰富的句子,提高微调学生模型的准确性。
在 QAT 部分,论文研究了线性量化和基于裁剪的量化方法。对于大语言模型,论文观察到权重和激活都存在显著的异常值,这些异常值对量化过程有显著影响。然而,通过保留这些异常值而非裁剪它们,论文证明了在 QAT 过程中能够实现更好的性能。同时,论文针对具有门控线性单元(GLU)的模型发现激活权重大多是对称分布的,因此选择对称 MinMax 量化作为量化方法。论文还介绍了如何在等式 3 中采用 Per-token 量化来量化 KV 缓存。
在知识蒸馏部分,论文采用基于交叉熵的 logits 蒸馏从全精度预训练教师网络训练量化的学生网络。论文建议利用预训练模型的预测作为软标签,这为指导学生模型的训练提供了更多信息的目标。
实验部分通过在 LLaMA-7B/13B/30B 模型上进行实验并展示各种任务的结果,评估了提出方法的有效性。实验结果表明,使用 LLM-QAT 的 4 比特模型优于类似大小的 8 比特模型。论文通过消融实验分析了数据选择策略、量化方法和知识蒸馏方法对最终性能的影响,结果表明,利用生成数据进行微调的模型在零样本任务中表现出优异的通用性,并且与现有数据相比,采样生成的数据具有更大的多样性,这显著提高了所有任务的性能。
结论部分强调了针对 LLM 的数据无关的量化感知训练的重要性,以及该方法的广泛适用性,包括在多阶段训练模型上的应用。论文为大模型的量化提供了理论基础和实践指导,推动了该领域的发展。
⑵ 一篇看懂国内大厂元宇宙布局
元宇宙国内大厂布局新就业风口来了
一、腾讯
国内元宇宙产业布局先锋,目前战术,通过资本(收购&投资)+流量(社交平台)组合拳,在底层架构(引擎UnrealEngine)、后端基建(云服务、大数据中心)、内容与场景(各类型内容产品与成熟的社交网络互通生态)这三大方向上均着力布局,未来将像搭积纤历木一样探索与开发元宇宙。
1、底层架构:腾讯通过投资EpicGames、Snap占据VR、AR生态的有利地位UnrealEngine帮助渲染虚拟世界、Snap协助打造镜像世界,布局XR硬件。腾讯于2012年花费3.3亿美元投资EpicGames48.4%股份,Epic Games目前有三大块业务,自研游戏,游戏平台,游戏引擎。
2、后端基建:ToC端,腾讯打造全周期云游戏行业解决方案,为用户提供全链路云游戏平台与生态。ToB端,腾讯云布局全场景IDC能力,目标是做新基建的“基建”,例如Roblox的G轮融资跟投,独家代理Roblox中国区产品发行。迷你玩科技,旗下游戏《迷你世界》核心玩法是线上堆积木,引导玩家创作虚拟作品,目前月活超过1亿。
3、内容与场景:腾讯在社交(微信+00)、游戏(全球最大游戏公司)、娱乐内容(阅文集团)等领域的优势地位稳固,例如社交型产品Soul、虚幻引擎4驱动的3D升级版OO秀等。
腾讯在智慧零售、企业服务方面等也紧抓企业数字化浪潮推进,以“云服务”为主要抓手,构建腾讯会议、腾讯文档、小程序服务等通信与效率办公Saas工具,支持企业客户内部及其与外部用户的协作。
4、元宇宙技术层面:根据公开数据显示,腾讯在全球126个国家、地区中,共有24000余件元宇宙领域的已公开专利申请,其中,发明专利占99.74%。
腾讯在该领域的专利布局主要集中于数据处理、区块链、服务器、人工智能、图像处理、虚拟场景等专业技术领域。同时,腾讯在元宇宙的布局也包括数据中心的支撑,上海松江为腾讯提供了236亩的土地,助力腾讯数据中心加速落地,进而助推腾讯元宇宙基建顺利实施。
二、阿里巴巴
阿里的业务核心在于电商,将围绕某宝、TM等电商平台以及支付亮棚宝支付平台为主,逐渐打造自身的元宇宙平台。其根本原因在于这两大平台,都为阿里巴巴聚集了大量的用户体系,和内容生态体系。
1、某宝的VR购物Buy+计划
Buy+是利用计算机图形系统和辅助传感器,生成可交互的三维购物环境。用户可以直接与虚拟世界中的人和物进行交互,甚至将现实生活中的场景虚拟化,成为一个可以互动的商品,增强线上购物的体验感。携手虚拟数字人AYAYI推广营销,并为商家提供虚拟数字人的解决方案。
2、达摩院XR实验室
阿里趁着元宇宙这波风潮,在旗下的达摩院研究所中建立了XR实验室,该实验室所展示的Demo中,包括了和tm合作的全息店铺的案例。在该场景中,XR实验室通过三维重建的技术构建出线下店铺的VR模型。此外,XR实验室也与松美术馆合作开发AR艺术展,成功研制应用于IDC机房的智能运维机器人。
三、网络
2021年12月网络推出的第一个,主打元宇宙的APP产品希壤宣布正式定向内测,希壤打造了一个跨越虚拟与现实、永久续存的多人互动空间。主会场是一个具有未来感的城市场景,在主会场之外的空间布局方面,希壤引入大量中国元素。
功能主要分为虚拟空间定制、全真人机互动、商业拓展平台,希壤打造的世界由无限连接的虚拟空间组成,每个虚拟空间都是一座独一无二的城市。在希壤虚拟世界里,每个用户都有一套Avatar3D角色形象。通过虚拟形象,可以跟客户或者合作伙伴进行即时的语言、互动和交流。
2022年7月,网络智能云推出数字人直播平台,可实现超写实数字人24小时纯AI直播。2020年网络核心研发费用占收入比例达敬竖则21.4%,研发投入强度位于中国大型科技互联网公司前列。在探索下一代互联网的过程中,网络的努力方向是成为元宇宙引擎,为希壤以及其他元宇宙产品提供AI和云计算能力。
四、字节跳动
字节跳动基于“硬件+内容”的逻辑,以社交与娱乐为切入口,基于短视频流量优势在海内外市场同步发力,同时斥资90亿元收购国内规模最大的VR软硬件制造商Pico。
从硬件及操作系统(收购Pico)、底层架构(投资代码乾坤、维境视讯)、内容与场景(短视频、游戏、VR社交)这三大组件发力着力布局元宇宙。
今年1月,字节跳动推出社交App“派对岛”,主打沉浸式社交,是一个实景化的实时线上活动社区,用户在这里可以随时以自己的虚拟形象化身和朋友一起闲逛,还可以一起实时聊天互动、共同参与线上活动,并获得意想不到的陪伴与参与感。不过“派对岛”是一个仍在小范围内测的社交产品,必须有邀请码才可以使用。
五、网易
网易作为游戏大厂,具备元宇宙先天优势。除了在自家游戏中探索元宇宙之外,还积极推出了元宇宙基础设施的软件框架,网易称之为下一代互联网技术架构。
1、推出下一代互联网技术架构
去年年12月,网易首次公布其面向“元宇宙”的下一代互联网技术架构,并推出其虚拟人SDK(软件开发工具包)“有灵”、沉浸式活动系统“瑶台”。
1)有灵虚拟人SDK,包括3D智能捏脸、3D动画合成、语音合成等多个模块,使用户能够制作虚拟数字人,降低使用门槛。
2)沉浸式活动系统瑶台,目前主要面向活动、会展、会议等应用场景,使参会者可以定制自己专属形象,进行动作和表情迁移,获得沉浸式的虚拟活动体验。
3)网易伏羲推出虚拟人“林么”,首次亮相网易严选6周年庆代言人征集活动,并穿越至三次元世界打卡严选实体店。
2、游戏结合元宇去年10月,在《逆水寒》中举办了第二届国际分布式人工智能学术会议。全球300多位学者换上古风服装、梳起发髻,在大宋皇宫中讨论人工智能前沿技术,采用瑶台提供支持,PPT入式播放、分会场自由切换和文字及语音群聊等会议功能,其中最受好评的要数定制化的“墙展”功能。
参会学者可以阅读墙展论文,像线下一样对话、交流,充分还原了学术会议中最有魅力的交流环节。
六、京东
京东首次提出了“产业元宇宙”的概念,并重点阐释了去发展布局和基础实践。京东探索研究院院长陶大程认为,产业元宇宙不止强调数字世界的构建,而是更加重视数字世界对现实世界的再创造能力,着力提升人类在现实世界、实体经济中认识和改造世界的能力。
基于此,京东构建了OmniForce开放生态平台的体系,提供一体化中台解决方案,向开发者提供数字挛生的复刻能力、数字伴生的仿真优化能力,以及数字原生对现实世界的改造能力,夯实产业元宇宙的云底座。
七、华为
积极布局元宇宙的后端基建,在5G、芯片领域具有优势。华为河图拥有先进的“3D地图+空间计算+视觉识别”技术,能够为移动终端用户带来全新的交互模式和视觉体验。
华为河图已经落地了一些初步应用场景,比如和北京首钢园合作的“首钢园元宇审”项目、华为AR地图开启敦煌“飞天游”等。在硬件设备方面,2021年11月,推出了VRGlass6DoF游戏套装。