元宇宙——关键技术

元宇宙——关键技术1 元宇宙技术架构 元宇宙这一概念近年来备受瞩目 成为技术和产业界讨论的热点 元宇宙代表着在当下数字时代 一个由数字世界和物理世界相互交融的虚拟空间

大家好,欢迎来到IT知识分享网。

1 元宇宙技术架构

元宇宙(Metaverse)这一概念近年来备受瞩目,成为技术和产业界讨论的热点。元宇宙代表着在当下数字时代,一个由数字世界和物理世界相互交融的虚拟空间。在这个空间中蕴含着无限的可能性和资源,使用户可以进行创造、社交、学习和娱乐。元宇宙融合了交互传感、区块链、人工智能、机器视觉、虚拟现实和增强现实等多种技术,本章将重点介绍元宇宙的关键支撑技术。如图1所示,元宇宙的五大支撑技术包括:计算、感知、生成、协同和交互。这些技术共同支撑构成了元宇宙生态系统的核心功能,共同构成了元宇宙虚拟环境的基础架构,支持了人们在虚拟世界中进行沉浸式体验和协同工作。图2揭示了上述元宇宙五个支撑技术的关系。

元宇宙——关键技术

计算技术是实现元宇宙构想的基础,并为上述其他技术提供重要支撑。元宇宙是一个庞大的、持续运行的虚拟世界,需要处理大量的实时渲染等数据,这要求高性能的计算能力和数据处理能力,用于支撑虚拟世界中大量信息的实时处理和复杂场景的模拟。分布式并行计算是支撑元宇宙复杂计算需求的核心技术之一,可以实现计算资源的高效利用,并显著缩短计算时间。元宇宙高效构建、仿真演化和自然交互均建立在计算能力的基础之上,通过智能化云计算、广域计算、边缘计算和光计算将物理世界与数字世界无缝融合。在强大计算技术支撑下的人工智能和大模型技术,则能通过智能化的内容生成用户行为预测,提升用户的沉浸感和交互体验。通过不断创新和提升,计算技术将计算技术是实现元宇宙构想的基础,并为上述其他技术提供重要支撑。

元宇宙是一个庞大的、持续运行的虚拟世界,需要处理大量的实时渲染等数据,这要求高性能的计算能力和数据处理能力,用于支撑虚拟世界中大量信息的实时处理和复杂场景的模拟。分布式并行计算是支撑元宇宙复杂计算需求的核心技术之一,可以实现计算资源的高效利用,并显著缩短计算时间。元宇宙高效构建、仿真演化和自然交互均建立在计算能力的基础之上,通过智能化云计算、广域计算、边缘计算和光计算将物理世界与数字世界无缝融合。

在强大计算技术支撑下的人工智能和大模型技术,则能通过智能化的内容生成用户行为预测,提升用户的沉浸感和交互体验。通过不断创新和提升,计算技术将计算技术是实现元宇宙构想的基础,并为上述其他技术提供重要支撑。元宇宙是一个庞大的、持续运行的虚拟世界,需要处理大量的实时渲染等数据,这要求高性能的计算能力和数据处理能力,用于支撑虚拟世界中大量信息的实时处理和复杂场景的模拟。

分布式并行计算是支撑元宇宙复杂计算需求的核心技术之一,可以实现计算资源的高效利用,并显著缩短计算时间。元宇宙高效构建、仿真演化和自然交互均建立在计算能力的基础之上,通过智能化云计算、广域计算、边缘计算和光计算将物理世界与数字世界无缝融合。在强大计算技术支撑下的人工智能和大模型技术,则能通过智能化的内容生成用户行为预测,提升用户的沉浸感和交互体验。通过不断创新和提升,计算技术将继续推动元宇宙的发展,使其逐步成为未来互联网的主要形态。

元宇宙——关键技术

感知技术在元宇宙的构建中发挥着关键作用,按照元宇宙应用的不同阶段分为内容生成感知和交互感知两大类。元宇宙感知技术通过将成像与传感技术结合,桥接了数字世界与物理世界,涵盖了多种形式,包括光、声、力、电、热、磁以及生化传感器,这些技术共同作用,使得元宇宙应用能够准确地捕捉和再现现实世界的各种信息。例如,光传感技术通过高精度摄像头和视觉雷达捕捉环境的视觉信息,并将其转化为高分辨率的三维图像。声传感技术通过传感器,记录并再现音频环境,提升用户的沉浸感;力和触觉传感器能够模拟物理触感,提供更为真实的交互体验;电和磁传感器可以用于提供更多传感信息,同时应用于监测和控制电子设备的运行;而热和生化传感器则能够获取环境的温度变化和化学成分,为虚拟世界的构建提供更为丰富和细致的细节。

通过这些感知技术的综合应用,元宇宙能够实现物理世界和数字世界之间的信息无缝连接,为用户创造一个高度互动和沉浸的虚拟体验。生成技术在元宇宙的发展中扮演着相当重要的角色,体现在其能够实现虚拟环境的高效构建、个性化定制和动态调整,提供更加丰富、个性化和沉浸的虚拟体验。例如,多模态数据(包括图像、视频、音频、文本等)驱动的生成技术,通过数据分析和处理,实现虚拟世界的内容生成和再现。

基于生成技术,不仅可以重构物质世界,还可以模拟和再现意识、情感等高级认知过程,从而使得元宇宙更加丰富和真实。同时,数字李生技术也是生成技术的重要应用,通过数字孪生技术对现实世界中的物体、系统或过程进行建模和仿真,能实现对其行为和性能的预测和优化,并利用AI技术实现对数字李生的构建和更新,从而实现对虚拟世界的动态调整和优化。此外,生成技术还可以实现对人类认知过程的模拟,实现对意识和情感等高级认知的再现,从而使得虚拟世界更加生动和智能。

协同技术是在元宇宙中进行实时多人协作与交流的技术,是元宇宙的链接协作模式。元宇宙常常被视为未来互联网的演化,将包括更多的虚拟商品和服务、完全虚拟的工作和生活空间,以及相应的社会和经济系统。作为一个多元化、互动性强的虚拟世界,元宇宙与现实世界、不同元宇宙之间信息的协同和安全,成为元宇宙技术中非常关键的话题。在这一领域,区块链的去中心化特性不仅确保了跨平台交互的透明性和安全性,为从现实世界到虚拟世界,以及不同环境之间的无缝连接提供了坚实的基础。

通过利用区块链,我们能够构建一个更加可信和可验证的数字身份系统,能够有效管理用户身份并保护其隐私。此外,区块链的智能合约功能自动化加强了合法交易的执行,从而确保了虚拟资产的准确所有权和流转,这些虚拟资产可以通过非同质化代币(NFT)独特标识,从而得到安全保护,加强了虚拟经济的健康运作。因此,区块链技术不仅增强了元宇宙的交互性和用户体验,同时也为整个虚拟环境的安全和稳定提供了必要的支撑。

交互技术对元宇宙至关重要,直接影响着用户与虚拟环境之间的沟通和互动方式。交互技术支撑起用户与元宇宙虚拟环境之间的交流方式,为元宇宙虚实融合提供了接口通道。多模态人机交互技术结合了视觉、听觉、触觉等多种感官,使用户可以通过语音、手势、触摸等方法,以更自然、便捷的方式,与元宇宙的虚拟环境进行沟通和操作,提升了虚拟体验的质量和沉浸感,进而更好地探索和参与元宇宙中的虚拟环境。

因此,如何实现有效的人机交互是元宇宙中重要的问题。AR和VR的交互技术则为用户提供跨越物理世界和虚拟世界的身临其境体验。前沿的显示技术(例如3D显示技术)为AR和VR环境中的交互带来更好的视觉体验和沉浸感。这些技术共同促进了用户与虚拟世界的深度互动,使得元宇宙的体验更加丰富、引人入胜。

2 元宇宙计算

元宇宙高效构建、仿真演化和自然交互均建立在计算能力的基础之上,通过智能化云计算服务和端侧感知将物理世界与数字世界无缝融合[6]。由于元宇宙需要原生支持大规模用户接入,其计算架构的基础特征是端云结合的分布式并行计算。云计算通过多计算节点并行、低延时网络传输处理元宇宙大规模数据和复杂演化计算。当前热点的大模型技术为元宇宙所提供的自然语言交互和生成式能力也通常通过云计算提供,以满足其算力需求并降低成本。

端侧计算设备的形式多样,包括智能终端、VR(Virtual Reality)/AR(Augmented Reality)、穿戴式设备、脑机接口(Brain-Computer Interface, BCI)等用户界面与使用者交互,负责用户行为或者其所处环境的基础感知计算,回传计算结果到云平台得到元宇宙反馈。因此,元宇宙的计算闭环需在端云甚至边缘协同发生,并以不同计算侧重点共同构建元宇宙相关应用,其主要计算场景包括三维图形渲染(3DRendering)、人工智能(ArtificialIntelligence,AI)、科学计算(Scientific Computing)、超高清流媒体(Ultra-High-Definition Streaming)等。以下是元宇宙计算的关键性技术

2.1分布式并行计算

分布式并行计算(Distributed Parallel Computing)通过将计算任务分布到多个节点,实现并行处理和协同工作,以提高计算效率、扩展性和处理能力,广泛应用于需要处理大量数据和复杂计算的场景。通过分布式并行计算,可以实现计算资源的高效利用,并显著缩短计算时间,是支撑元宇宙复杂计算需求的核心技术之一。分布式并行计算通常由计算节点、通讯网络、分布式资源管理系统等几个部分组成。在此之上,又有调度系统、负载管理系统、集群管理系统、运维监控系统等对基础资源进行统一的管理调度运维。

通过统一管理系统,分布式并行计算可以支撑包括三维图形渲染、人工智能、科学计算、超高清流媒体等元宇宙核心计算需求。元宇宙计算节点通常是由GPU(Graphics Processing Unit)主导,负责实际的计算任务,每个节点通常配备高性能的处理器和存储设备。计算节点可以是物理服务器、虚拟机(Virtual Machine)或容器(Container)。支持虚拟化技术,可以实现资源的灵活分配和隔离,提高资源利用率。计算节点之间通过高速网络互连,如InfiniBand、高速以太网等,以实现低延迟、高带宽的数据传输。

分布式资源管理系统负责管理和协调计算节点之间的资源分配和任务调度。它接收来自上层应用的计算任务,将任务分解为多个子任务,并将子任务分配给合适的计算节点执行。资源管理系统需要考虑负载均衡(LoadBalancing)、容错(FaultTolerance)、数据本地性(Data Locality)等因素,以实现高效的任务调度和执行。常见的资源管理多使用容器,常见的容器管理系统包括Kubernetes.Docker Swarm等。在分布式并行计算的基础上,元宇宙计算还需要一系列的优化技术,以进一步提高性能和可扩展性。这些优化技术包括:

(1)异构计算优化(Heterogeneous Computing Optimization):元宇宙计算通常涉及不同类型的计算任务,如图形渲染、人工智能、科学计算等。这些任务对计算资源的需求和特性不尽相同。异构计算优化旨在充分利用不同类型的计算资源,如CPU、GPU、FPGA(Field-Programmable Gate Array)等,将任务映射到最适合的计算资源上,以获得最佳性能。这需要设计智能的任务调度算法和资源管理策略,根据任务特征和资源状态动态调整任务分配。

(2)数据本地性优化(DataLocality Optimization):元宇宙计算涉及大量的数据处理和传输。为了减少数据移动的开销,需要将计算任务尽可能地调度到离数据最近的计算节点上执行。这就需要数据本地性优化技术,如数据感知任务调度、数据预取(Data Prefetching)和缓存(Caching)、数据压缩(Data Compression)和编码(Encoding)等。通过将数据和计算任务合理地放置在集群中,可以显著减少数据传输的延迟和带宽消耗,提高计算效率。

(3)通信优化(Communication Optimization):元宇宙计算中的许多任务需要频繁的节点间通信,如数据同步、模型更新、中间结果交换等。通信优化技术旨在减小通信延迟和带宽消耗,提高通信效率。这包括网络拓扑优化、通信协议优化、集合通信原语(Collective Communication Primitives)优化等。例如,使用高速网络互连技术,设计智能路由算法,采用轻量级通信协议,利用硬件加速器等,都可以显著改善节点间的通信性能。

(4)容错和故障恢复(Fault Tolerance and Recovery):在大规模分布式计算环境中,节点故障和网络中断是不可避免的。为了保证计算任务的可靠执行,需要采用容错和故障恢复技术。这包括检查点机制(Checkpointing)、故障检测与隔离(Fault Detection and Isolation)、任务重试与迁移(Task Retry and Migration)等。通过定期保存计算状态,快速检测和隔离故障节点,自动重试失败任务,将任务迁移到健康节点等手段,可以最大限度地减少故障对计算任务的影响,提高系统的可用性和鲁棒性。

(5)自适应调度优化(Adaptive Scheduling Optimization):元宇宙计算的工作负载具有动态性和不确定性。用户请求的到达率、任务类型、数据规模等都可能随时间变化。因此,需要采用自适应调度优化技术,根据系统的实时状态和历史数据,动态调整任务调度策略、资源分配方案和参数配置等。通过实时监控系统指标,预测未来的负载趋势,利用机器学习算法不断优化调度决策,可以实现计算资源的自适应分配和动态伸缩,提高系统的灵活性和自适应能力。

(6)低延时高速网络:元宇宙需要支持大规模用户的实时交互,这对网络的延迟和带宽提出了极高的要求。低延时高速网络技术,如5G、Wi-Fi6等,可以提供高达10Gbps的峰值速率和毫秒级的端到端延迟,满足元宇宙的实时交互需求。同时,网络切片(Network Slicing)、边缘计算(EdgeComputing)等技术可以进一步优化网络性能,提供差异化的服务质量保证。

元宇宙是一个全球规模的虚拟世界,需要跨地域、跨运营商的计算资源协同。最新提出的广域计算(Wide-Area Computing)技术可以认为是分布式并行计算的进一步拓展,其通过建立广域资源调度和任务编排机制,实现跨域计算资源的统一管理和调度。这需要解决资源发现、任务分解与映射、数据传输优化等挑战。区块链(Blockchain)、多方安全计算(Secure Multi-PartyComputation)等技术可以用于构建去中心化的广域计算平台,保证资源共享的安全性和隐私性。

2.2元宇宙典型计算场景

在分布式并行计算的支持下,元宇宙数字空间中的典型计算场景如下:

(1)云边端协同的三维图形渲染:在元宇宙场景下,计算任务在云端、边缘侧、终端设备之间动态分配和协同执行。云端提供强大的计算和存储能力,负责复杂的渲染,模拟、数据分析等任务;边缘侧提供低时延的本地计算和数据处理,负责实时交互、内容缓存、数据过滤等任务;终端设备提供个性化的交互和呈现,负责本地渲染、传感器数据采集、用户行为分析等任务。云边端协同计算(Cloud-Edge-End Collaborative Computing)需要统一的任务调度和资源管理机制,以及高效的数据同步和一致性维护技术。

为了满足元宇宙中超大场景的实时绘制要求,云边端协同绘制技术将整体场景的绘制分解为三个部分:云侧的海量存储与复杂光栅化计算、边侧的低时延数据传输与指令协同、终端侧的轻量绘制与交互式显示。这种绘制框架高效地利用了不同侧的硬件特点,实现了以往在单一终端无法完成的超大场景绘制任务。

以百亿级面片大规模场景为例:在绘制时,终端由显示或交互操作发出绘制指令;边侧负责将绘制指令传递到云侧并维持同步状态;云侧下发绘制指令到多张显卡,每张显卡负责部分场景的光栅化计算,并最终组合为整体场景的光栅化图形缓存数据(G-Buffers):轻量化的G-Buffers数据经由边侧的图形数据传输协议低时延地传输到终端侧,并更新同步状态;最终由终端侧负责解码与绘制G-Buffers数据并显示绘制结果。云边端协同绘制(Cloud-Edge-End Collaborative Rendering)需要统一的任务调动和资源管理机制,以及定制的资源传输协议与多卡绘制技术。

近年来,神经辐射场(Ncural Radiance Fields,NeRF)技术的出现,为三维场景的表示和渲染带来了新的突破。NeRF通过神经网络隐式地建模三维场景,可以生成高质量的新颖视图,并支持自由的视点导航。同时,高斯泼溅(GaussianSplatting)技术在点云渲染领域得到广泛应用。高斯泼溅通过将每个点表示为一个具有高斯分布权重的核,并将其投影到屏幕空间进行累积和混合,可以高效地渲染大规模点云数据。与传统的点云渲染方法相比,高斯泼溅可以生成更加平滑、连续的表面,减少了点云的空洞和锯齿现象。此外,高斯泼溅还支持多分辨率渲染、级别细节(Level of Detail, LOD)管理等优化技术,可以根据视点距离和点云密度动态调整渲染质量和性能。未来也需研究神经辐射场和高斯泼溅的云边端协同渲染技术,拓展这些表达在元宇宙大规模场景渲染中的应用。

(2)人工智能:元宇宙将包含大量智能化的虚拟助手、非玩家角色(Non-Player Character,NPC)、推荐系统等。人工智能技术,如机器学习(MachineLeaming)、知识图谱(Knowledge Graph)、自然语言处理(Natural Language Processing,NLP)等,可以赋予虚拟角色智能交互和决策能力,提供个性化的内容推荐和服务。

近年来,大语言模型(Large Language Models,LLM)技术取得了显著突破。LLM通过在海量文本数据上进行无监督预训练,掌握了丰富的语言知识和生成能力,可以支持问答、对话、创作等多种应用。GPT(Generative Pre-trained Transformer)系列模型不断刷新语言理解和生成的性能,使得AI助手能够进行更加自然、连贯、上下文相关的对话交互。同时,LLM与知识图谱、检索系统等技术相结合,可以提供更加广博、准确、个性化的知识服务。

多模态人工智能(MultimodalAI)是元宇宙中的另一个重要方向。多模态AI旨在处理和理解来自不同模态(如文本、图像、音频、视频等)的信息,并实现跨模态的信息融合和生成。视觉-语言预训练模型,如CLIP(ContrastiveLanguage-lmage Pre-training)、DALL-E(A 12-Billion Parameter Model of Natural Language)等,可以根据文本描述生成或检索相关的图像,实现跨模态的理解和创作。多模态学习也已经扩展到视频和音频领域,支持更加丰富和逼真的虚拟场景生成。

多模态交互技术,如视线追踪(Eye Tracking)、手势识别(GestureRecognition)、语音控制(VoiceControl)等,可以为用户提供更加自然和沉浸式的交互体验。AIGC(AI-Generated Content)是元宇宙内容创作的新范式。扩散模型(Diffusion Models)作为一类生成式模型,通过迭代式的去噪过程,学习数据的分布,并生成高质量、多样化的内容。Stable Diffusion、Midjourney等基于扩散模型的图像生成工具,让用户能够根据文本提示,自动生成风格多变的图像和艺术作品。Runaway、Stable Video Diffusion等扩散视频模型,则支持根据文本或图像生成连贯、高清的视频内容。Suno.Udio等人工智能应用则在声音及音乐领域取得了突破性进展。

此外,DiT(Diffusion in Transformer)等模型将扩散模型与Transformer结构相结合,在图像和音频领域取得了突出成果。DiT通过可逆的Transformer编码器将数据映射到潜在空间,并在潜在空间中进行扩散生成,实现了高保真、可控的多模态内容生成。这为元宇宙中的内容创作开辟了新的可能性。除了生成技术,AIGC还需要解决内容的知识性、一致性、安全性等问题。利用知识增强(Knowledge Enhancement)、主题规划(Topic Planning)、内容过滤(ContentFiltering)等技术,可以提高生成内容的质量和可靠性。

为了支持元宇宙中海量数据和模型的训练和推理,还需要研究分布式机器学习算法(Distributed Machine Learing Algorithms)和联邦学习(Federated Learning)架构。隐私保护(PrivacyProtection)、安全机制(SecurityMechanism)也是不可或缺的,以确保用户数据的隐私和生成内容的合规性。人工智能技术在元宇宙中扮演着至关重要的角色,它不仅赋予虚拟世界以智能和自主性,还为用户提供个性化、沉浸式的交互体验,并催生了新的内容创作范式。随着多模态学习、大语言模型、扩散生成等前沿AI技术的不断发展,元宇宙中的人工智能必将更加强大和普及,为虚实融合的数字世界带来无限可能。

(3)科学计算:元宇宙的建模和模拟离不开大规模科学计算。传统的科学计算主要依赖物理规律和数学方程,通过数值模拟(Numerical Simulation)和仿真(Simulation)的方法,研究复杂系统的行为和演化。物理引擎(Physics Engine)、流体动力学(Computational Fluid Dynamics)、分子动力学(Molecular Dynamics)等模拟技术,可以生成逼真的物理环境和现象。高性能计算(High-Performance Computing,HPC)技术,如并行算法优化(Parallel Algorithm Optimization)、向量化(Vectorization)、高速互联(High-Speed Interconnect)等,可以加速科学计算的执行。然而,随着问题复杂度的增加和对精度的更高要求,传统的科学计算方法面临着计算成本高、建模困难等挑战。

近年来,人工智能技术为科学计算领域带来了新的突破。通过将机器学习与物理模拟相结合,可以显著提高科学计算的效率和精度。一方面,机器学习可以用于加速传统的科学计算。例如,在流体动力学模拟中,可以使用机器学习模型预测湍流(Turbulence)、边界层(Boundary Layer)等复杂流动现象,从而减少对昂贵的直接数值模拟(Direct Numerical Simulation,DNS)的依赖。在分子动力学模拟中,机器学习力场(Machine Learning Force Fields)可以根据分子结构快速预测原子间的相互作用力,避免了繁琐的量子化学计算。

图网络(Graph Networks)则可以学习粒子系统的相互作用关系,预测复杂材料和结构的力学性能。此外,生成式模型如生成对抗网络(Generative Adversarial Networks,GAN)、变分自编码器(Variational Autoencoder,VAE)等,可以学习物理系统的概率分布,生成合理的状态样本,用于加速蒙特卡洛采样(Monte Carlo Sampling)和不确定性量化分析(Uncertainty Quantification)。强化学习(Reinforcement Learning)在优化控制、实验设计等领域也得到了广泛应用。将人工智能与科学计算相融合,不仅可以突破传统方法的瓶颈,还能发掘新的建模范式和计算模式。

在元宇宙中,AI驱动的科学计算将支持更加高效、精准、智能的物理模拟和仿真,为构建逼真的虚拟世界提供强大的技术支撑。同时,元宇宙也为科学计算提供了一个全新的应用场景。研究人员可以在虚拟环境中进行实验设计、数值模拟、可视化分析等,降低真实实验的成本和风险。通过虚拟现实(Virtual Reality)和人机交互技术,科学家可以身临其境地探索复杂系统,获得直观的认知和洞见。元宇宙将成为科学计算的新平台和新生态,促进学科交叉和协同创新。

当然,AI驱动的科学计算也面临着算法可解释性(Algorithm Interpretability)、数据质量(Data Quality)、计算效率(Computational Efficiency)等挑战。需要研究混合精度计算(Mixed-Precision Computing)、数据压缩(Data Compression)等节能优化技术,以降低能耗和成本。量子计算(Quantum Computing)、区块链等新兴技术也有望在元宇宙的科学计算中发挥重要作用。未来,随着人工智能与科学计算的不断融合和发展,元宇宙中的物理模拟和仿真将更加智能化、高效化,为人类认识和探索复杂世界开辟新的途径。同时,元宇宙也将成为科学计算的新兴应用场景和创新平台,推动科学研究模式的变革和发展。

(4)超高清流媒体:元宇宙中将产生和消费海量的视频、音频等流媒体数据。超高清视频编解码(Ultra-High-DefinitionVideo Coding)、传输优化(Transmission Optimization)、内容缓存(ContentCaching)等技术,可以提供身临其境的视听体验。同时,需要研究面向元宇宙的新型流媒体架构,如支持自由视点的沉浸式视频(Free-Viewpoint Immersive Video)、面向6DoF(6Degrees of Freedom)的空间音频(SpatialAudio)、体积视频(VolumetricVideo)等。

基于AI的流媒体内容理解、推荐、审核等技术,可以为用户提供个性化、安全、有序的内容服务。未来,随着技术的进一步发展和融合,元宇宙计算平台将不断演进和完善。一方面,新型计算硬件,如类脑芯片(Brain-LikeChips)、光子芯片(PhotonicChips)等,有望为元宇宙注入更强大的算力;另一方面,量子计算、区块链、融合智能(Integrated Intelligence)等前沿技术,将与元宇宙深度融合,开拓全新的应用场景和服务模式。可以预见,元宇宙计算平台的建设将是一个长期、复杂的系统工程,需要产学研各界的共同努力和协作。

(5)端侧用户交互计算:元宇宙需要提供沉浸式、交互式的用户体验。各种新型用户界面设备,如VR/AR头显、全息投影(Holographic Projection)、触觉反馈设备(Haptic Feedback Devices)、脑机接口等,可以让用户以更自然、直观的方式与虚拟世界交互。这对设备的渲染能力、传感器精度、人机交互算法等提出了更高的要求。同时,需要研究如何在保证用户体验的同时,最小化交互设备的能耗和延迟。例如,苹果的VisionPro拥有8个外部摄像头和4个跟踪眼球运动的内部摄像头,并配备了专门的R1感知计算处理芯片对摄像头数据进行实时处理,支持眼动追踪和手势选择等自然交互方式,使用户能够更加方便地与虚拟世界进行互动。

此外,混合现实(Mixed Reality,MR)技术的发展,为用户交互带来了更多可能性。MR将虚拟内容无缝地融入到现实环境中,用户可以与虚拟对象进行实时的交互和操作,同时还能感知和利用现实世界的信息。这对跨现实世界的元宇宙交互提供了重要支持。

2.3元宇宙感知

元宇宙感知按照应用的不同阶段分为内容生成感知和交互感知两大类,其中内容生成感知是指在沉浸式元宇宙内容生产过程中所使用的信息采集技术;交互感知是指在体验元宇宙内容过程中通过模拟人类的感知能力,使用户能够在虚拟世界中感受到真实的环境。当前业内研究的焦点主要集中在光场感知、音频感知、触觉感知等相关技术领域。

2.3.1微透镜阵列光场感知

基于透镜阵列的光场采集主要依靠在成像传感器与主镜头之间加入一片微透镜阵列,物体表面光线首先经过主镜头,然后经过微透镜,最后到达成像传感器(e.g.CCD/CMOS)。如图3所示,物体表面A点在FOP角度范围内发出的光线进入相机主镜头并聚焦于微透镜,微透镜将光线分成4×4束,并被成像传感器上对应的16个像素记录。类似的,空间中其它发光点,例如B点和C点,在其FOP角度范围内的光线都被分成4×4束并被分别记录。

元宇宙——关键技术

微透镜阵列的主要作用是将物体表面同一点在一定角度范围内的各个方向发出光线进行离散化解耦,图3中的微透镜将光线离散化为4×4束,离散化程度由微透镜光学参数、主透镜光学参数及微透镜与成像传感器之间的距离等多方面因素决定。

光场相机是基于微透镜阵列光场采集的原理,通过在主透镜与传感器元件间放置一块紧密排布的微透镜阵列,仅需单次曝光即可获得光线的空间、角度四维信息,经过后期算法处理可以得到场景处于不同视角和不同景深的图像以及深度信息,具有结构紧凑,体积小,采集效率高等优点。光场相机在工业检测领域具备广泛的应用场景和潜力。其能够提供更加准确和全面的图像数据,有助于实现精确的工业检测和质量控制。散焦型光场相机,微透镜阵列放置在主透镜像侧焦平面位置,因此微透镜阵列对主透镜所成的像直接成像。

对于散焦型光场相机系统,微透镜阵列与传感器元件的间距为一个微透镜焦距,为微米尺度,封装要求极高,需要采用高精度芯片级封装工艺,从而得到精度更高的深度计算结果。

聚焦型光场相机,微透镜阵列并不是放置在主透镜像侧焦平面位置,因此微透镜阵列实际上是对主透镜所成的像进行二次成像。根据聚焦型光场相机的成像原理,微透镜阵列的位置可以进行调整,微透镜阵列与传感器元件的问距为毫米尺度,封装要求较低,微透镜阵列易于封装。由于微透镜阵列光场感知技术受限于微透镜阵列基线的大小,光场相机通常只能对数米内的近景进行深度估计,在工业以外的应用场景有一定局限性。

2.3.2 计算光场成像

计算光场成像技术围绕光场及全光函数表示,旨在结合计算、数字传感器、光学系统和智能光照等技术,以及硬件设计、软件计算能力,突破经典成像模型和数字相机的局限性,建立光在空域、视角、光谱和时域等多个维度的关系,实现耦合感知、解耦重建与智能处理,具备面向大范围动态场景的多维多尺度成像能力。光场成像技术正逐渐被应用于生命科学、工业探测、无人系统和虚拟现实/增强现实等领域,具有重要的学术研究价值和广阔的产业应用前景。然而,伴随着高维数据的离散化采样,光场成像面临空间分辨率与视角分辨率的维度权衡挑战,如何对稀疏化的采样数据进行光场重建成为计算光场成像及其应用的基础难题。与此同时,受制于光场信号的高维数据感知量,光场处理面临有效数据感知与计算高效性的矛盾。

如何用光场这一高维信息采集手段,取代传统二维成像视觉感知方法,并结合智能信息处理技术实现智能化高效感知,是实现光场成像技术产业化应用的巨大挑战。

杜克大学的Brady教授课题组于2012年在《Nature》上发表了关于通过前端球透镜进行一次成像后,后端通过分视场相机阵列(约98个)进行采集的AWARE-2相机阵列的研究论文,如图2-4所示。AWARE-2相机阵列采用的是多重光学镜头的设计,受益于球透镜的成像单一光心特性,该设计避免了分视场相机之间的视差,大大降低了图像拼接的难度,可达到每秒几帧的10亿像素采集速度。尽管通过像感器阵列的拼接可初步验证动态10亿像素成像的可行性,但类似AWARE-2这种结构化的相机阵列受到均匀化采样、信号密度同分布,相邻像感器间遵从视场相互重叠的严格限制,相机阵列的装调和标定极其严格、复杂,其中大规模分视场像感器的引入对实际安装、标定和拼接均带来了极大的技术挑战,实现成本高、难度大且灵活性低。

传统的结构化像感器阵列,其成像感知遵从均匀化采样机制,每个像感器节点通过部分重叠区域连接到其相邻的像感器节点,所感知的数据遵循“图”连接结构。在均匀化采样的假设下,将拼接得到的全景图像/视频投影为矩阵形式并进行数据的表征与存储。此外,各个像感器均遵从双向图连接,单像感器的调整势必会影响其他所有像感器。图形结构的另一个问题是,由于其位姿估计严重依赖重叠区域的全局优化,随着像感器数量增加,复杂度急剧增加,鲁棒性显著降低,可扩展性严重受限。

元宇宙——关键技术

Yuan等提出了非结构化光场感知算法,构建了“多层异构-同层自适应”的树形感知模型。其中,“多层异构”一改传统结构化阵列像感器固有的图连接感知模型,解除了光学成像装置物理体积随数据通量线性增长(ScalingLaw)的制约,突破了现有多维多尺度感知对庞大复杂硬件系统的依赖。与此同时,“同层非结构”突破了现有像感器均匀化采样、信号同分布的假设,相邻像感器间无需受视场相互重叠的严格限制,各像感器面向场景内容独立感知、并行计算,突破了传统均匀化感知所面临的时空带宽积的瓶颈,实现了像感器阵列硬件复杂度、数据感知量(信息容量)、维度扩展性的联合优化。

该树形结构涉及分层架构,赋予层间异构互联、层内非结构化的特性。其中,分层架构的父层像感器与子层像感器之间自然重叠,同层内的各像感器之间则完全非结构化,无需遵守任何重叠限制,从本质上赋予像感器阵列极高的灵活性和可扩展性。

在此基础上,各个局部像感器的调整(移除/添加)不会影响其他像感器,亦不会对多像感器位姿的优化带来复杂度剧增和鲁棒性降低的问题。如图5所示的非结构化异构像感器阵列本质上是将多个极低成本的相机,以多尺度方式灵活地组合,基于先进的计算成像思想,将硬件的成本以算法替代,实现实用且性价比高的10亿像素视频相机。

基于该原理的相机系统通过分视场采集突破了空间带宽积的限制,同时通过引入全局尺度相机克服了分视场相机的像差与畸变,并通过跨尺度视频融合算法规避了复杂的相机系统的装配和标定,同时回避了紧密光学部件的设计和制造需求,极大地降低了系统的成本。但是,目前成像性能远未发挥多尺度成像带来的益处,多尺度成像原理和跨尺度映射与融合机制仍未被揭示,系统设计(包括全局低分辨相机和局部高分辨相机各自的设计)的灵活性仍未被充分挖掘,全局低分辨相机与局部高分辨相机的互补性未被充分优化利用,新型、高效、高性能的非结构化像感器阵列的研究具有广阔的空间。

元宇宙——关键技术

面向大场景多对象的十亿像素级光场智能感知,是智慧城市、无人系统、VR/AR等应用的核心共性技术。光场感知通量的爆炸式增长,对智能计算的算力与功耗提出了全新的挑战,亟需探索光场智能感知计算的新架构、新理论与新技术。近年来,以衍射神经网络为代表的光学计算架构,虽具有突出的速度与能效优势,但普遍结构简单、规模受限且不易扩展,难以支撑复杂场景中多维光场的智能感知计算。光场智能感知计算旨在实现大场景多对象“看得全”、“建得清”、“算得快”,是元宇宙智慧文旅、智慧城市建设等应用的核心共性技术。随着摩尔定律放缓,传统硅基电子计算芯片的算力和功耗严重受限,难以满足亿像素级高通量光场智能感知计算的急切需求。

探索新的感知技术与计算范式是未来光场视觉计算发展的必然趋势。近年来,以光计算为基础、通过光电融合的方式构建光电神经网络成为国际前沿的热点研究。发挥光电计算高算力、低功耗的特有优势,有望突破传统电子计算长延时、高功耗等瓶颈,实现算能效的颠覆性提升,引领新一代光场成像理论与技术的变革。

近年来以衍射神经网络为代表的各式光电神经网络不断涌现,然而现有光网络中的基本光学计算单元受制于固化结构与低扩展性,大多仅能实现简单的单通道前馈网络,难以支撑实际应用中的复杂光场智能感知计算。具体来说,现有光电神经网络无法电子神经网络一样轻易地部署几十到上百个“通道”以提取有效的特征,也缺少有效的光计算单元来融合多通道的信息,极大地限制了光网络的学习能力和推理性能。

清华大学电子工程系方璐课题组提出了多通道光电智能计算新架构Monet,如图6所示。其中,编码投影干涉计算单元IU,通过相位和偏振的编码调制以及通道间的光学干涉,实现了特征匹配、加权求和等多通道光学基本计算。提出了干涉计算单元IU和衍射计算单元DU交替级联的光电网络模型,实现了光场信息的多通道高效处理,突破了现有光电神经网络结构简单、通道受限等瓶颈,为构建大规模光电神经网络实现复杂光场智能算提供支撑。

元宇宙——关键技术

2.3.3 全景成像

随着高速通信和人工智能技术的快速发展,人类对现实世界场景的感知不再局限于使用小视场(FoV)和低维场景检测设备。全景成像作为下一代创新的环境感知和测量智能仪器应运而生。然而,在满足大视场摄影成像需求的同时,全景成像仪器有望实现高分辨率、无盲区、小型化、多维智能感知,并可与人工智能方法相结合,走向下一代智能仪器,使对360”真实世界周围环境的更深入理解和更全面的感知。幸运的是,自由曲面的最新进展,薄板光学和超表面提供了解决人类对环境感知的创新方法,提供了超越传统光学成像的有前途的想法。

全景成像技术旨在捕捉360°全方位的场景,以实对整个空间环境的全面感知。这一技术通过将多张图片或视频片段拼接成一个完整的360°视图来实现。全景成像技术广泛应用于虚拟现实(VR)、增强现实(AR)、360°视频制作、全景地图制作等领域。这些应用不仅提供了沉漫式的视觉体验,还为环境感知和测量提供了强大的工具。

全景成像发展到现在,己成为了一项相对成熟的技术,就目前而言,全景成像方法主要有三种:拼接式全景成像、鱼眼全景成像以及折反射全景成像。拼接式全景成像是全景成像技术刚提出时所采用的方法,通过用传统的相机拍摄得到场景的多幅图像,然后基于拼接、融合技术,合成得到场景的全景图像。拼接式全景成像的具体方法有两种,一种是采用一个相机,通过旋转相机对不同方向进行拍摄,从而获得多幅场景图像。这种方法简单易行,能够获得高分辨率的全景图像,但由于成像速度缓慢,不具有实时性;另一种是采用多个相机,同时对多个方向同时进行拍摄,从而获得多幅场景图像。这种方法能够满足实时性的要求,也能获得高分辨率的全景图像。

两种方法原理都是采集得到包含整个场景信息的多幅图像,最后再合成得到全景图像。鱼眼全景成像利用超广角物镜来实现全景成像,超广角物镜的焦距非常短,能够获得接近180°视场角的半球面场景。而且,由于它采用凝视方式进行拍摄,不需要旋转移动,因此具有较好的隐蔽性。然而,这种全景成像方法存在缺点,它拍摄获得的图像存在极大的桶形畸变,形成鱼眼效果。因此,想要对拍摄得到的鱼眼全景图像进行显示观察,需要事先进行畸变校正,将之校正为符合人眼观察习惯的全景图像。目前,鱼眼全景成像技术已经比较成熟,大量的鱼眼全景成像设备出现在市场。

折反射全景成像是将常规成像设备和反射光学元件相结合的成像技术,利用反射光学元件的反射特性来扩大成像设备的视场,从而能够获得水平方向360°和垂直方向一定角度的全景图像。这里的反射光学元件通常指的是各种类型的反射镜,如球面反射镜、圆锥面反射镜、椭球面反射镜、抛物面反射镜以及双曲面反射镜等。根据投影模型的不同,折反射全成像系统可分为基于透视投影成像模型的系统和基于平行投影成像模型的系统。根据是否满足单视点成像约束,又可分为单视点成像系统和非单视点成像系统由于折反射全景成像能够获得大于半球空间的大视场,同时系统结构较为简单,设计较为灵活,成本也比较低,近年来得到了越来越广泛的研究和应用,已经成为了当前全景成技术研究的主流方向。

2.3.4多视图立体成像

多视图立体视觉(MVS)一直是计算机视觉研究的一个热点。它的目的是从多个已知相机姿态的图像中建立密集的对应关系,从而产生稠密的三维点云重建结果。在过去的几年里,人们在提高稠密三维重建的质量上付出了很大的努力,一些传统的几何算法通过描述同一场景从不同视角下获取的多幅图像与物体之间投影关系的几模型进行三维重建,如PMVS、GIPUMA以及COLMAP等取得了令人印象深刻的效果。而近年来深度学习也在多视图重建中取得了非凡的性能,如MVSNet、CasMVSNet等。然而,在三维重建任务中,由于数据量大、弱纹理、遮挡、反射等问题,如何高效准确地实现多视图立体视觉仍然是一个具有挑战性的任务。

基于深度学习的三维重建最近几年取得了非常大进展,是当前计算机视觉领域比较流行的方法之一。学习系统是由多层卷积层和多层全连接层组成的卷积神经网络(CNN)进行学习图像的层次化特征表示,这种方法能够精确地重建出物体的几何形,与传统的三维重建相比较,基于深度学习的三维重建技术不需要进行特征提取与匹配以及复杂的几何运算,使用深度学习的方法更加方便,使得实时性和鲁棒性进一步提高。

基于语义的三维重建可以运用在移动的行人或车辆等大的场景,这种方法能够精确地对环境中的目标物体进行识别,而深度学习技术也是最近几年刚刚兴起的比较有优势的识别方法,因此,深度学习和语义相结合的三维重建是未来几年的研究趋势,也会受到该领域的研究者们广泛关注。Savinov等提出了一个稠密的语义三维重建方法。Blaha等提出了一个自适应多分辨率的语义三维重建方法。该方法的目的是在给定一组场景图像中进行3D场景稠密重建,并分割成语义目标类。Sunderhauf等提出面向对象的语义建图方法,该方法的主要目的是构建环境的3D点云地图,然后再通过卷积神经网络对关键帧图像中的物体进行识别检测,最后对3D目标物体进行点云分,从而在地图中更新或添加目标物体的3D点云等信息。

传统的基于明确表面的三维重建方法(MVS),尽管在获取大规模结构方面表现出色,但往往难以捕获场景的微观细节。这类方法在构建三维模型时依赖于高分辨率的离散化过程,这限制了它们在处理细微纹理和小尺度特征时的有效性。此外,这些技术通常使用UV映射来纹理化模型,但在复杂或广阔的场景中,UV映射易受到畸变影响,这会在渲染过程中产生可见的伪影和质量退化。

隐式体积表示方法(如基于神经辐射场的NeRF)提供了一种表达高空间分辨率的新途径,通过对整个体积场进行连续建模,能够从任意新视角渲染出细致的图像。然而,这些方法在实际操作中需要处理大量的体积数据,这不仅计算成本高,而且在大规模场景中效率低下。更重要的是,由于体积渲染依赖于沿视线对样本的积分,它在处理复杂场景中的视图不一致性时常常导致渲染质量下降,例如在边缘或细节处出现模糊和失真。

元宇宙——关键技术

为了解决以上挑战,XScale-NVS研究提出了哈希特征化流形的表示方法,通过对表面流形进行栅格化,显式地优先考虑多视角一致性,充分释放了体积哈希编码的表能力,如图7所示。同时设计了一个延迟神经渲染框架,以高效解码表示,并提出两种定制设计来更好地描述跨尺度细节。另外还引入了GigaNVS数据集,用于评估实大规模场景的跨尺度、高分辨率新视角合成,XScale-NVS在GigaNVS上相对于SOTA 平均 LPIPS降低了40%,将野生环境下跨尺度神经渲染的边界推向了前所未有的细节和真实感水平。

在人体光场感知领域,LightStage是当前数字人高真实感重建的一个标杆技术。它通过构建相机阵列,使用多角度、高精度照片来重建三维空间中的CG模型。这种技能够还原拍摄人物的三维结构,并获取面部的反射信息,从而在不同环境光下重构数字人模型光效。Light Stage技术已经应用于好莱坞电影渲染中,从第一代系统Light Stage1至今已经升级到Light Stage6,最新的一代系统命名为Light Stage X。

Google 研发的Lightstage系统采用了331个可编程光源以及一个90台12.4M像素的工业相机组成的相机阵列。每个光源包含有63个高亮LED灯珠,分为不同的颜色和不同的发散角。这个系统能够结合主动与被动传感器,以取得最佳的建模效果。相机系工作在60Hz,相机系统与灯光系统时序匹配,以获取三维模型和相应的材质贴图。这样的系统,每秒钟的数据量达到惊人的63.5GB。

元客视界研发了LuStage数字人元数据采集系统,如图8所示,系统包含776个6通道彩色LED光源阵列,16台RGB-D深度传感器以及150个视点的相机阵列,相机分辨率最高达8K,采集帧率最高达450fps。其中深度传感器采用近红外结构光重建技辅助实现至少30fps的动态稠密3D重建;多视点相机阵列用于采集各种模拟光照环境下人体的空间视频原始数据,以便采用3D高斯等技术进行空间视频重构;高帧率相机用于采集高速动态数据集,以采用OLAT技术对数据集进行重光照编辑,理论上支持数据集对环境光照变化条件的无限扩展。

系统还创新性地提出了全局动态积分光场成像技术,计算中控系统按照场景内的实时照度需求计算每个曝光周期内各个LED光源的积分光强,换算成LED的光通量和频闪脉宽,每个LED光源支持实时变通量变脉宽控制,以此实现分布视点动态HDR成像,大幅提升了系统对于明暗细节动态范围成像的能力以及对室内室外各种环境光照特别是日光环境的模拟能力。

元宇宙——关键技术

虚拟数字人技术的发展已经进入快速成长期,特别是NeRF和3DGS技术的出现,带动了数字人重构研究工作蓬勃发展,并将数字分身创作推向了应用的前沿。

2.3.5音频感知

音频感知是元宇宙多模态感知的重要一环,音频感知主要分为前端信号处理、语音识别、声纹识别、情感识别、语音合成等多个模块,如图9所示。

元宇宙——关键技术

语音前端信号处理对于提高音频感知的鲁棒性起到了非常重要的作用;通过语音增强模块抑制各种干扰,使待识别的语音更干净;语音增强模块通过回声消除、噪声抑制、去混响提高语音交互的鲁棒性;真实环境中包含着背景噪声、人声、混响、回声等多种干扰源,上述因素组合到一起,使得这一问题更具挑战性。语音前端信号处理模块与整音频感知的关系如图所示:橙色部分表示多通道处理模块,蓝色部分表示单通道处理模块,红色部分表示后端识别合成等模块。麦克风阵列采集的语音首先利用参考源对各通道的信号进行回波消除,然后确定声源的方向信息,进而通过波束形成算法来增强目标方向的声音,再通过混响消除方法抑制混响;需要强调的是可以先进行多通道混响消除再进行波束形成,也可以先进行波束形成再进行单通道混响消除。

经过上述处理后的单路语音进行后置滤波消除残留的音乐噪声,然后通过自动增益算法调节各个频带的能量后作为前端处理的输出,将输出的音频传递给后端进行音频感知。语音识别是音频内容感知的重要一环。语音识别系统主要包括四个部分:特征提取、声学模型、语言模型和解码搜索,具体如图所示。

自动语音识别的过程是先对前端采集的语音信号进行处理,以提取声学特征,再将声学特征作为声学模型的输入,计算声学得分,然后结合语言模型的语言得分,在解码空间中搜索最佳路径,从而识别出语音信对应的文本。经典的混合式(Hybrid)语音识别系统的构成,包括声学特征提取,声学模型,语言模型,以及解码搜索算法。信号处理模块将语音波形提取成更具有代表性的声学特征序列,以便后续处理。经典的声学模型基于隐含马尔可夫模型构建,其中隐含马尔可夫模型的观测概率通过高斯混合模型或深度神经网络估计。

语言模型估计给定前文的情况下,下一个词发生的概率。结合声学模型和语言模型给出的分数,解码器搜索出给定声学特征序列,概率最大的词序列。

以发音词典为桥梁,声学模型和语言模型被结合起来形成解码搜索空间。加权有限状态转换器是构建解码搜索空间的重要工具。除了基于隐马尔可夫模型的声学模型,相关技术基于联结主义时序分类的端到端声学模型,这种声学模型不需要逐帧对应的标签,而是直接训练神经网络。随着深度学习技术的发展,语音语言同时建模,联合优化的端到端语音识别系统已经成为可能。

目前典型的端到端语音识别系统是基于注意力机制的端到端语音识别模型和循环神经网络转换器模型。语音识别技术已经逐渐走向成熟,在特定领域、特定环境下已经达到实用化程度,端到端语音识别系统的性能已日趋接近混合语音识别系统。声纹识别是音频深度感知的重要研究方向,其主要目的是在语音中自动获取说话人身份。早期的声纹识别主要采用有效的声学特征参数和模式匹配的方法,匹配往往通过特征矢量之间的距离测度来实现。在说话人训练阶段,系统首先对训练语音进行静音别除和降噪处理,尽可能得到纯净有效的语音片段,然后再提取语音对应的声学特征参数,根据系统建模算法,得到说话人的特征模型,每个说话人的训练语音经过训练阶段后得到一个说话人模型。

随着深度学习的发展,基于深度网络的特征学习方法成为了声纹识别的主要方法,利用复杂非线性结构赋予的特征提取能力,能自动对输入的语音信号进行特征分析,提取出更高层、更抽象的说话人声纹表征,如d-vector.x-vector。而后,谷歌公司的Heigold等人提出了端到端声纹识别系统,端到端的网络包含两部分:预先训练好的特征提取网络和用于决策打分的判决网络,输入为不同说话人的语音信号,输出即为说话人识别结果,之后如注意力机制、自适应方法等在端到端系统中的应用进一步提高了系统的性能。

情感识别是实现深度音频感知不可或缺的关键一环,语音情感识别系统主要由三部分组成:语音信号采集、语音情感特征提取和语音情感识别模型训练。语音信号采集模块主要通过语音传感器(例如麦克风等语音录制设备)获得语音信号,并传递到下一个语音情感特征提取模块对语音信号中情感关联紧密的声学参数进行提取,最后送入语音情感识别模块完成情感的判断。基于深度神经网络的情感特征提取能够用于特征抽取,从而学习到数据的本质结构或分布,如自编码器、去噪自编码器、SoundNet等。深度神经网络可以替代传统分类器,从而捕获更加丰富的上下文信息,例如卷积神经网络和长短时记忆模型等。端到端的语音情感识别方法能够同时进行特征抽取和特征分类,直接从原始语音波形或语谱图中识别出情感状态。

语音合成是实现音频感知中的关键表达环节。随着深度学习的发展,目前语音合成技术已经发展相对成熟,且已取得了广泛应用,但仍然存在音色风格单一,数据成本,构建时间等诸多限制。一个好的语音合成系统建立在一个人工精心设计的语音数据库之上,一个音素均衡、高音质的语音合成数据库制作成本较高,要在专业录音环境下录制,同时需要具有相应语音学背景知识的专业人员进行标注,整体设计制作时间较长。较高的语音合成数据库门槛限制了语音合成的输出风格。就语音合成系统的声学模型而言,微软、IBM、谷歌、百度和讯飞等采用了几十个小时以上的训练数据。然而大多数语言的资源是有限的,标注成本也极其昂贵。为了丰富语音合成系统的音色,为了每个音色都花费较长时间对数据和模型进行定制是不经济也是不现实的。

为新的说话人快速搭建个性化语音合成系统时,首先面临的问题就是用来训练合成模型的数据较少,这导致不能用传统的方法去训练模型,如何用少量数据构建高性能的语音合成系统成为一个极富挑战的研究课题,同时也具有极为迫切的应用需求。为此,面向说话人自适应的预训练语音合成模型也研究逐渐成为研究热点,其旨在首先使用大量多说话人语料预先训练一个多说话人语音合成模型,然后再针对目标说话人定制差异化的专属语音合成模型,由于可用于训练的目标说话人语音数据通常是有限的,个性化语音合成仅利用目标说话人的少量标注数据和其他已积累的合成数据,实现高自然度与相似度的语音生成。

2.3.6 触觉感知

触觉传感器是人工触觉的基础。基于生物触觉的机理启示,目前已有多种传感方式开发的触觉传感器,如压阻式、电容式、压电式、电磁式、光学等。其中电子类触觉传感器具备薄而柔软的特性,可以加成各种形状,附着在人体、机器人、电子设备、衣服等载体的表面,模仿甚至超越人体皮肤的感官功能。然而电子类触觉传感器在触觉信息密度难以提高且信号扰严,因此近些年以光学图像表征触觉的视触觉传感成为了研究热点(如图0所示)。该传感方式以视觉模态为载体,将抽象的触觉信息可视化,以实现高密度、高分辨、高连续性、可学习性的触觉感知。Meta将视触觉传感(Digit)引入元宇宙(图11所示),旨在理解和复制物理世界中人类的触摸技能,使机器人更有效地与周围世互动。

元宇宙——关键技术

元宇宙——关键技术

视触觉传感器由接触模块、照明模块和成像模块组成。接触模块包含功能层、弹性体、亚克力和LED,其中功能层用于模拟皮肤感知功能,例如涂层用于纹理传感、标记层用于力传感和热致变层用于温度传感。研究者将标记的矢量信息与接触状态以神经网络的方式构建映射关系并与机器人的操作控制关联,其中对力信息进行隐式表达降低了机器人对交互状态的理解难度。以涂层和标记层为媒介,结合单目/多目视觉实现了基于光度立体法、深度标定法和光流法的物体三维重建。触觉深度信息帮助机器人理解物体的空间结构,进而获取物体的外在属性并推导出机械手和物体的几何约束关系,为操作策略制定和操作姿态微调提供先验知识。

元宇宙——关键技术

结合视觉信息提供的物体2.5D形状,以触觉探索的方式获取精细的局部重建。视触觉可以提供触觉点云,在元宇宙环境中结合物体空间姿态重构素化的3D物体形(图12所示)。触觉仿真是触觉迈向元宇宙的关键一步。Meta开发了一套在元宇宙中模拟视触觉的仿真平台TACTO,可用于生成大规模触觉数据来提高机器人技能学习(图13所示)。研究界还探索了有限元、物理仿真和材料点法来模拟弹性变形过程并结合光学渲染提高触觉模拟的真实性。

元宇宙——关键技术

Meta 开创了视触觉传感在元宇宙的应用先河。科学界普遍认为视触觉传感具备视觉和触觉模态信息同构的特性,对视触融合有独特优势。视触觉传感为触觉模拟提供可视化基础,进而提高仿真触觉信息与真实触觉信息的一致性。视触觉传感与各式机器人仿真平台具有较高的兼容性,为触觉在元宇宙的开发和集成提供了传感基础,有助于元宇宙中触觉生态环境的构建。

2.4元宇宙生成

数字化三维空间是元宇宙的基本形式之一,不仅可以三维重建现实三维世界并与其信息融合,服务于城市治理、工厂运维和智能交通等场景,而且可以通过人工智能技术生成和创造出新的数字化空间,为人类社会的未来形态提供想象空间。

与此对应,元宇生成技术也包括三维重建和智能生成两大类。三维重建是指通过各类光学传感器,包括图像、激光点云、深度相机或事件相机等,获取现实世界的视觉信息,通过传感器位姿计算注融合传感器数据,构建现实世界的精准数字化映射,其典型技术包括传统的运动结构重建(Structure from Motion)、多视点立体视觉(Multiview Stereo Vision)、光度立体法(PhotometricStereo)等。近年来,随着可渲染技术的发展,神经网络隐式表达成为了新的研究热点,该方法采用神经网络表达以三维位置为变量的三维颜色和密度场,集合可微体渲染和光度损失函数从拍摄图像中端到端的重建三维场景,极大地简化了三维重建的流程,并提高了渲染的真实感。

研究人员进一步提出采用空间离散点采样表达三维光场,代表性工作为最新的三维高斯泼溅(3DGS)技术,极大提高了神经隐式表达的渲染速度。三维重建以及现有的三维制作软件积累了大量的三维数据,为生成式人工智能模型自动生成三维内容奠定了数据基础。生成对抗模型(Generative Adversarial Network)、扩散模型(DiffusionModel)是典型的生成式人工智能模型,在学习数据分布上展现了强劲能力,在三维内容生成上应用广泛。通过在Stable Diffusion开源的Objaverse数据集上的训练扩散模型,已经出现了Craftsman3D、Rodin-Gen1等较高质量的三维生成模型,为元宇宙生成提供了新的动力。

2.4.1 三维重建

三维重建技术是利用二维投影或影像来恢复物体/场景的三维信息的数学过程和计算机技术,通过三维重建技术可以为元宇宙提供三维物体模型和生虚拟的三维空间,如图14所示。三维重建从技术上可以分为传统SFM&MVS构建和近年来被广泛研究的可微渲染引导(NeRF,3DGS)的三维重建两大类。

元宇宙——关键技术

(1)传统SFM&MVS重建

SFM的基本原理是通过分析多张不同视角的二维图像,基于多视角几何的原理恢复出场景的三维稀疏点云及相机的运动轨迹,主要包括特征检测与匹配、相机姿态估计和三维点云重建这几个过程。MVS是在SFM生成的稀疏点云基础上,通过密集匹配技生成稠密点云,包括图像对的选择、视差估计和点云优化几个过程。完成稠密点云估后,在元宇宙三维应用中,一般还需要通过Mesh提取和贴图技术实现应用生态中标准三维模型的输出,如图15所示。

传统SFM&MVS重建技术经过多年的发展已经比较成熟,在三维构建软硬件系统中有着广泛的应用,例如手持扫描仪、无人机倾斜摄影建模等,也出现了采用光滑性等各种验和分块等各种方法优化SFM&MVS来进一步提高其三维建模效果。在SFM&MVS重建的过程中,最重要的环节是图像之间点对的匹配问题,一般容易受到光照变化、重复纹理、光滑或无纹理表面的影响导致重建效果不佳,近年来有大量的基于深度学习特征匹配度方法例如SuperPoint、SuperGlue等来提升这方面的性能,但面对光滑或无纹理等问题仍然存在应用问题。为了解决这些问题,业界采用了各种方包括基于深度或激光点云融合的方案、基于辅助标记的方案等,这些方法可以有效减上述算法由于原理上的限制导致的建模效果不佳的问题,在大量三维扫描重建设备上被应用。

元宇宙——关键技术

(2)可微渲染引导的三维重建

可微渲染引导的三维重建(Differentiable Rendering based 3D Reconstruction)是一种近几年迅速发展的新兴的重建方法,它通过结合计算机图形学中的渲染技术和深度学中的自动微分技术,来改进三维重建的效果和效率,其与传统方法的区别如图16所示。该方法利用可微渲染器计算图像生成过程的梯度信息,从而在三维重建中进行更精确的优化,将三维重建任务从几何计算问题转化为一个学习训练的问题,改变了三维建模的范式,显著提高了三维重建模型的拟真度(Fidelity)。目前最为代表性的方法包括神经渲染辐射场(NcRF)重建和3D高斯辐射场(3DGS)重建这两种。

元宇宙——关键技术

· 神经渲染辐射场(NeRF)重建神经渲染辐射场(NeuralRadiance Fields,NeRF)是一种基于神经网络的三维重建方法。它利用神经网络来隐式表示场景中的颜色和密度信息,并通过体渲染技术将这信息转换为二维图像。其重建过程是通过优化神经网络参数,使得渲染生成的图像与输入图像匹配,从而重建出场景的三维结构,大致流程如图17所示。NcRF算法过程主要包括坐标采样、网络推理、体渲染、误差计算、梯度优化这几个关键步骤。该过程首先从三维空间中均匀采样点,这些点的坐标作为神经网络的输入,然后将采样点的坐标输入到神经网络中,网络输出该点的体素密度和颜色,再使用体渲染公式将密度和颜色沿射线进行积分,生成最终的像素颜色,将渲染生成的图像与输入图像进行对比,计算误差并通过反向传播算法,根据误差调整网络参数,逐步优化三维场景的表示。

元宇宙——关键技术

NeRF能够生成高分辨率和细节丰富的高拟真三维重建结果,特别是对于复杂纹理和细微结构的场景,但是通过NeRF建模好的三维模型是一个神经网络模型,不同于传统的点云和Mesh表示,它是一种隐式表示,因此不能和现有渲染引擎和软件生态兼容,在当前阶段影响了其广泛的应用。随着基于NeRF的大量的相关算法的研究和成熟和其高质量的优点,在未来有可能变成工业三维模型软件生态的一种,目前业界也有开发一基于nRcal和Unity的软件插件来实现兼容性渲染。

· 3D高斯泼建(3DGS)方法

3D高斯泼溅(3D Gaussian Splatting,3DGS)是一种新兴的三维重建方法。与NeRF构建的神经网络整体表达不同,该方法将三维空间中的点拓展为三维高斯分布,并在每个点上附加球谐系数表达其随视点变化的颜色,并通过优化这些高斯分布和球谐系数来实现高质量的三维重建,如图18所示。3DGS方法重建的过程主要包括初始点云生成、高斯分布初始化、高斯渲染、误差计算和梯度优化这几个关键步骤。

首先,通过使用传统三维重建方法(如SFM或MVS)生成初始的三维点云,然后将初始点云中的每个点表示为一个三维高斯分布,初始参数可以包括位置、形状(方差)和颜色,使用高斯渲染技术,将三维高斯分布投影到图像平面生成合成图像,再将合成图像与输入图像进行对比来计算误差,最后使用反向传播算法,根据误差调整高斯分布的参数。最终使渲染图像逐步逼近真实图像。

元宇宙——关键技术

3D 高斯方法是最近一年才提出的一种创新的三维重建方法,兼顾了显式表达、高拟真重建、实时渲染的优势,因此受到了广泛的关注。但是,3D高斯方法依赖于初始三维点云的构建,在实际应用中会面对传统三维重建方法的相同的问题例如弱纹理、重复纹理等问题导致无法实现初始点云和相机位姿的估计,因此有部分产品方案采用基于激光点云和深度点云初始化的方法来解决该问题。得益于其优秀的计算性能和渲染质量,业界部分元宇宙平台、三维应用中已经集成了3D高斯方法重建的模型。

2.4.2 数字人分身重构

数字人是元宇宙数字内容中的必不可少的元素,是连接现实与虚拟的桥梁,可以让元宇宙变得更加多元化、更加生动。因此,数字分身重构是元宇宙生成中的技术研究热点。元宇宙内容对数字分身的需求通常有两种,一种是可驱动可交互的模型,另一种是可自由视点交互的空间视频。前者的实现通常是先3D重构数字分身模型,再利用动画驱动生成动态内容;后者的实现通常是基于多视点视频生成可自由视点交互的空间视频。传统的人物3D重构是使用三维软件创建三维模型的过程。在建模过程中,艺术家使用各种工具和技术来创建模型,包括几何体、网格和曲面等。这些工具可以用来构建复杂的三维模型,并可以对其进行纹理贴图、添加材质和光照等操作,以便在最终作品呈现出逼真的效果。

传统的人物3D重构采用几何面片模型表征以适配传统的3D内制作和渲染管线,对模型几何精度、材质贴图精度、光照匹配以及渲染引擎都有严格的要求以保证输出人物的逼真度,代价是高昂的制作成本。由于 3DGS方法能够做到实时高质量渲染,在数字分身重构上也得到了迅速应用。D3GA首先使用可驱动的3DGS和四面体笼来创建可动画化的人类化身,这实了有前景的几何和外观建模。为了捕捉更多的动态细节,SplatArmor利用两个不同的MLP来预测建立在SMPL和规范空间上的大幅运动,并允许所提出的SE(3)场产生与姿势相关的效果,从而实现更详细的结果。

HuGS使用线性混合蒙皮和基于局部学习的细化,创建了一个从粗到细的变形模块,用于基于3DGS构建和动画化虚拟人化身,它能够实现20FPS的人物神经渲染性能。由于3DGS学习了大量的高斯椭球,HiFi4G将3DGS与其对偶图机制提供的非刚性跟踪相结合,用于高保真渲染,从而以更紧凑的方式成功地保持了时空一致性。为了在消费者级设备上实现更高的渲染速度和高分辨率,GPSGaussian在稀疏源视图上引入高斯参数图,以与深度估计模块联回归高斯参数,而无需任何微调或优化。为了更容易控制头部表情,GaussianAvatars 在3DGS中引入了几何验(Flame参数化人脸模型),将Gaussians绑定到显式网格上,并优化高斯椭球的参数。

HeadGas为3DGS赋予了由3DMM的表达向量加权的潜在特征的基础,从而实现了实时可动画化的头部重建。FlashAvatar进一步在参人脸模型中嵌入均匀的3D高斯场,并学习额外的空间偏移来捕捉人脸细节,成功地将渲染速度提高到300FPS。为了合成高分辨率的结果,高斯头像采用超分辨率网络来实现高保真度的头像学习。

3D-PSHR将手部几何验(MANO)与3DGS相结合,首次实了手部的实时重建。GaussianHair[60]首先将Marschner头发模型与UE4的实时头发渲染相结合,以创建高斯头发散射模型,它可以捕捉复杂的头发几何体和外观,以实现快速光栅化和体积渲染,从而实现包括编辑和重新照明在内的应用。虽然计算机视觉和人工智能技术的发展大大加速了数字分身重构的应用落地进程,3DGS技术和视频人体姿态估计技术让高保真、高效率、低成本的数字分身的动静态重构成为可能,但是面向工程化应用的挑战主要在于如何建模毛发、衣物布料等运动变形、提高重建精度、支持重光照,以及如何建立完整的基于可微渲染的制作管线。

数字分身的动态重构依赖于动画文件来驱动模型变形,进而生成动态内容。最高效的动画生成方式是运用运动捕捉技术,将采集到的动作迁移至数字分身。传统的动作捕捉技术,如光学式和惯性式,虽已成熟并在市场广泛应用多年,生成动画的精度高,但它们对环境要求严苛且造价高昂。随着计算机视觉技术的进步,基于视频的人体姿态估计为高效且低成本的动画生成提供了新的技术路径。Hossain和Little提出了一带有快捷连接的长短期记忆(LSTM)单元的循环神经网络,以利用人类姿势序列中的时间信息,预测帧间连续的3D姿态。

SMPL人体参数化模型在人体姿态估计中应用广泛。由于该模型预定义了人体3D形状及参数空间,神经网络只需确定SMPL模型中的形状参数和关节回归矩阵,即可重建人体3D姿态。Kocabas等等人利用大规模动作捕捉数据集AMASS,对基于SMPL的方法进行对抗训练,该方法被命名为VIBE(视频推断的身体姿态和形状估计)。VIBE通过AMASS训练区分真实人体运动与姿势回归模块预测的姿势的网,有效提高了所推断的人体姿态的真实度。

此外,局部遮挡也是单视图环境下3D姿态估计面临的一个难题。解决这一问题的有效方法是从多个视图进行三维人体姿势估计,因为在一个视图中被遮挡的部分可能在其他视图中可见。然而,从多个视角重建三维姿态需要解决不同摄像机之间的位置关联问题。Rhodin等在网络中应用了多视图一致性约束,但这种方法需要大量的3D真实数据进行训练。为了突破这一限制,他们进一步提出了一个encoder-decoder框架,以学习多视图图像的几何感知三维潜在表示。

Pavlakos等人则基于标定的相机参数,将多视角图像的二维关键点热图整合成一个三维图形结构模型。Wang等人开发了一种基于transformer的模,该模型能够直接从多视图图像中回归出3D姿态,而无需依赖任何中间任务。他们提出了多视图位姿转换器(Multi-view Pose Transformer,MvP)用于表示多人关节的query embedding,并采用了融合多视角信息的几何引导注意机制。与传统的动作捕捉技术不同,生成式运动捕捉不需要依赖传感器、摄像机或演员的实际动作记录,而是通过从数据学习到的模型来生成动作,提供了一种新的数字分动画生成技术。

所使用的运动数据集通常包含行走、跑步、跳跃等各种动作,用于训练模型提取动作中的特征和模式。模型训练完成后,生成式运动捕捉就能够通过输入控制信号(例如text to motion文本动作)或关键帧来生成连续的动作序列,并将其应用于虚拟角色或动画中。此外,生成式运动捕捉还能够拓展动作的创造性,通过修改和控制模型,创造出一些在现实中难以实现的动作效果。

来自复旦大学、腾讯和上海科技大学等机构的团队开发了MotionGPT模型。研究团队发现人体运动与语言存在一定的相似性,因此将人体运动视为一种特殊的语言形式。他们将语言数据与大规模运动模型结合起来,实现了对运动相关任务性能的提升。该模型使用离散向量量化来处理人体运动,并将3D运动转换为运动标记,类似于生成单词标记的过程。MotionGPT可以通过文本生成逼真的运动序列、为运动添加字幕、预测运动和生成中间动作等。它不仅能提供高质量的运动生成,还能处理多种与运动相关的任务,为运动捕捉领域带来了重要的进展。

南洋理工大学团队开发了MotionDiffuse模型。这是一种新的框架,可以通过文本生成多样且逼真的人体动作。它采用概率映射而非确定性的方式生成运动,可以通过细节指令和文本提示进行灵活控制。针对特定的动需求,网易互娱AILAB与清华大学合作推出了舞蹈动画合成系统ChoreoMaster。该系统可以根据音乐风格生成不同类型的舞蹈动画,如爵士舞、二次元舞和街舞等。无论是基于视频的人体3D姿态估计还是生成式动画技术,普遍存在动作精度、鲁性不足的问题,也是有待进一步研究攻克的重点问题。

2.4.3 AI内容生成

3D内容生成技术泛指从文本、图像等多模态输入中自动生成三维内容,是元宇宙构建的热点研究方向。生成对抗网络(GAN)和扩散模型(diffusion models) 作为最常用的生成式人工智能模型,在3D内容生成上展现出了显著的潜力。生成对抗网络(GAN)由Ian Goodfellow等人在2014年提出,它由两个主要部分组成:生成器(Gencrator)和判别器(Discriminator)。生成器负责生成逼的数据,而判别器则尝试区分生成的数据和真实数据。两者之间的博弈过程使得生成不断提高其生成数据的质量,其结构如图19所示。GAN在图像生成、视频合成和3D模型创建等方面取得了显著进展。例如,StyleGAN系列模型通过引入风格控制机制,实现高分辨率和高质量的图像生成。最新的三维人脸生成的工作,如EG3D、Portrait3D等,很多都采用了StyleGAN2作为了基本的网络架构。

元宇宙——关键技术

扩散模型是一类基于去噪扩散概率模型(DDPM)的生成技术。其核心思想是通过迭代去噪过程,从随机噪声生成目标数据。扩散模型的训练过程包括两个步骤:前向噪声注入和反向去噪预测。前向噪声注入是指在数据中逐步引入高斯噪声,而反向去噪预测则是通过学习去噪函数来恢复原始数据,如图20所示。

元宇宙——关键技术

近年来,基于CLIP和扩散模型的方法大幅提升了文本到3D生成的能力。例如,Point-E是一种图像点云扩散模型,利用CLIP视觉潜在编码作为输入,生成3D点云 。Shap-E通过引入隐空间投影,实现了对SDF表的重建,支持大规模词汇3D生成。Gaussian-Dreamer结合3D和2D扩散模型,通过高斯分裂确保3D一致性和细节生成,从文本描述生成3D实例。通过图像生成3D内容的方法同样取得了显著进展。

基于图像的3D生成利用扩散模型从单视点图像生成多视点图像,利用多视点的一致性,生成一致的3D模型。例如,NPGs(Neural Parametric Gaussians)通过局部表和时间共享锚定的3D高斯体实现高质量的非刚性对象重建。Kratimenos等人提出的DynMF方法,通过绑定运动系数实现动态场景的优化,有效分离场景运动,生成高质量的动态场景。多模态3D生是当前研究的热点之一,探索如何整合来自不同模态的数据(如文本、图像和声音)来创建更加丰富和互动的3D内容。例如,Clip-Nerf结合CLIP模型,实现了高质量的3D场景生成。CG3D框架利用显式辐射场,实现了多物体场景的生成和快速编辑。GaussianDiffusion框架结合高斯斑点和朗之万动力学扩散模型,加速渲染过程。这些技术的发展不仅能够提升内容的生成效率和质量,还有助于创造更加个性化和互动的用户体验。

3D内容生成也可面向可自由视点交互的数字分身空间视频生成问题,基于3DGS技术进一步对4D生成进行了初步探索。AYG为3DGS赋予了动力学,并为文本到4D的生成提供了变形网络。它分为两个阶段,基于稳定扩散和MVDream的具有SDS损失的静态3DGS生成,以及基于文本到视频扩散模型的具有视频SDS损失的动态生成。在动态生成阶段,只对变形场网络进行优化,并随机选择一些帧来添加基于图像的SDS,以确保生成质量。DreamGaussian4D在给定参考图像的情况下实现4D生成。

首先使用DreamGaussian的改进版本生成静态3DGS。现成的稳定扩散视频用于从给定的图像生成视频。然后,还通过优化添加到静态3DGS的变形网络来实现动态生成,并且生成的视频被用作监督,以及基于来自采样视图的Zero-1-to-3XL的3DSDS损失。最后,该方法还提取了一个网格序列,并利用图像到视频的扩散模型对纹理进行了优化。最后,对于视频到4D的生成,4DGen和Efficient4D都提出利用SyncDreamer从输入帧生成多视图图像作为伪地面实况来训练动态3DGS。前者引入HexPlane作为动态表示,并使用生成的多视图图像作为三维变形伪地面实况来构建点云。后者直接将3D高斯转换为4D高斯,并通过融合相邻时间戳的空间体积来增强SyncDrcamer的时间连续性,实现时间同步,以生成更好的跨时间多视图图像进行监督。

大规模3D模型数据集对三维内容生成的推动效果十分明显。从在Stable Diffusion发布的Objaverse三维模型数据集上训练的Tripo3D和Rodin Gen_1等具体方法可以看出,未来3D内容生成技术将在大规模数据集和高效生成算法的支持下,进一步实现突破。随着研究的不断深入,这些技术将在元宇宙中的应用前景将更加广阔,为虚拟世界的构建带来更多可能性。互动的用户体验。

3D内容生成也可面向可自由视点交互的数字分身空间视频生成问题,基于3DGS技术进一步对4D生成进行了初步探索。AYG为3DGS赋予了动力学,并为文本到4D的生成提供了变形网络。它分为两个阶段,基于稳定扩散和MVDream的具有SDS损失的静态3DGS生成,以及基于文本到视频扩散模型的具有视频SDS损失的动态生成。

在动态生成阶段,只对变形场网络进行优化,并随机选择一些帧来添加基于图像的SDS,以确保生成质量。DreamGaussian4D在给定参考图像的情况下实现4D生成。首先使用DreamGaussian的改进版本生成静态3DGS。现成的稳定扩散视频用于从给定的图像生成视频。然后,还通过优化添加到静态3DGS的变形网络来实现动态生成,并且生成的视频被用作监督,以及基于来自采样视图的Zero-1-to-3XL的3DSDS损失。最后,该方法还提取了一个网格序列,并利用图像到视频的扩散模型对纹理进行了优化。最后,对于视频到4D的生成,4DGen和Efficient4D都提出利用SyncDreamer从输入帧生成多视图图像作为伪地面实况来训练动态3DGS。

前者引入HexPlane作为动态表示,并使用生成的多视图图像作为三维变形伪地面实况来构建点云。后者直接将3D高斯转换为4D高斯,并通过融合相邻时间戳的空间体积来增强SyncDrcamer的时间连续性,实现时间同步,以生成更好的跨时间多视图图像进行监督。大规模3D模型数据集对三维内容生成的推动效果十分明显。从在Stable Diffusion发布的Objaverse三维模型数据集上训练的Tripo3D和Rodin Gen_1等具体方法可以看出,未来3D内容生成技术将在大规模数据集和高效生成算法的支持下,进一步实现突破。随着研究的不断深入,这些技术将在元宇宙中的应用前景将更加广阔,为虚拟世界的构建带来更多可能性。

2.5 元宇宙协同

元宇宙常常被视为未来互联网的演化,将包括多样化的虚拟商品和服务、完全虚拟的工作和生活空间以及相应的社会和经济系统。元宇宙协同的概念涉及元宇宙环境中不同用户、系统和平台之间的合作与互动,具体是指如何利用各种技术、工具以及跨平台的协议来促进在虚拟空间内的协作、共享和通信。元宇宙协同能够极大地提升元宇宙的功能性和用户体验,使得元宇宙不仅是一个娱乐和交流的平台,也成为一个可以进行教育、商务和创新的多功能空间。

从技术角度,实现元宇宙协同的核心要素是保证跨平台互操作性,一方面是确保不同的技术平台可以无缝连接,使得用户可以在不同的虚拟环境之间流畅地移动和交互;另一方面是实现不同系统或平台间的数据共享,使得一个平台上虚拟事物的变化可以在另一个平台上体现出来,由此实现了穿透现实和不同虚拟世界的经济体系。此外,从社的角度,元宇宙协同还包含在元宇宙中形成有组织的社区以及相应的社区自治,以及实现不同元宇宙之间的文化交流。元宇宙协同极大地增强了元宇宙的功能性和吸引力,让元宇宙不仅成为一个生动真实的虚拟环境,还支持了其作为未来数字生活和工作空间的核心地位,为持续的技术创新和社会变革创造了重要条件。

在元宇宙中,用户不断地分享和交互个人信息、参与经济活动并构建社交网络,不同的元宇宙之间也在共享数据和资源。若安全措施不足,用户将面临数据泄露、金融诈骗身份盗窃等风险。有效的协同安全机制能够确保跨平台互操作性不会成为潜在的安全漏洞,保障用户操作的可靠性,从而促进元宇宙的健康发展和用户信任,这对于元宇长期繁荣至关重要。随着元宇宙的迅速发展,协同的需求愈发迫切,基于区块链技术的去中心化的数据服务为此提供了重要的技术基础,这种服务不仅被视为互联网的下一时期的形态一一Web3.0,也成为当前元宇宙概念的核心要素。

2.5.1区块链技术原理

(1)概念和基本原理

区块链技术是一种分布式数据库或账本技术,它以一种去中心化的方式存储数据,这意味着数据不是存储在单一位置或由单一实体控制,而是通过网络中的多个节点(或计算机)维护和验证。区块链详细技术原理如下:

· 数据结构:区块与链

区块链的基础是“区块”和“链”。如图21所示,每个区块包含一批交易数据和两个重要的加密元素:一个指向前一个区块的哈希值(链接)和该区块自身的哈希值。哈希值是一个通过特定算法从区块内容(包括交易数据和前一区块的哈希)计算出的数字指纹,保证了区块内容的唯一性和不可更改性。当新的交易被确认并打包进一个区块后,这个区块就被添加到链的末端,通过之前区块的哈希值与之逻辑上链接。

· 创建新区块

新区块的创建是通过网络中的节点完成的:节点通过特定的方式(例如PoW或PoS)来竞争创建新区块的权利。获得该权利的节点处理收到的待处理的交易,验证这些交易的有效性,然后将这些交易打包进新区块。打包完成后,新区块被添加到区块链的最长有效链的末端。为了被网络接受,该区块必须包含证明其有效性的信息(如在PoW中的有效哈希值,在PoS中可能是其他形式的证明)。创建并成功添加新区块的节点将获得相应的奖励(例如比特币中的铸币奖励及交易费)。

· 验证和共识机制

一旦区块被创建,它需要被网络中的其他节点验证。这包括验证区块内所有交易的合法性(确保交易双方的资格和交易的结构正确性)以及区块的哈希值是否符合网络的要求。只有当大多数节点验证并接受了这个区块后,它才被正式添加到区块链上。这种基于网络多数节点达成一致的机制,确保了整个系统的去中心化和数据不可篡改。

· 持续增长与链的维护

随着时间推移,更多的区块被添加到区块链上,形成一个不断增长的链。每个新区块的添加都进一步增强了链上之前区块的安全性,因为一旦区块被纳入链中,修改它将需要重新计算该区块及其之后所有区块的哈希值,这在计算上是不可行的,特别是在链越来越长的情况下。

· 网络分叉的处理

有时候,两个节点可能几乎同时找到新区块,导致区块链暂时性地分叉。如前所述,区块链网络通过自动选择最长的链(即包含最多工作量证明的链)作为有效链来解决这种分叉,因为最长链代表了网络最大部分的共识。

元宇宙——关键技术

链上虚拟机和智能合约随着技术进步,区块链的应用已经超越了简单的数据库账本功能。以太坊引入了第一个图灵完备的链上虚拟机,使得在区块链上部署和执行复杂的业务逻辑成为可能。这种虚拟机上运行的程序被称为智能合约,极大拓宽了区块链的应用领域。

(2)优势和不足将区块链技术应用于元宇宙后,能为元宇宙的协同带来大量显著的优势:

· 提供去中心化的信任框架

区块链的去中心化特性意味着没有单一的控制点或故障点,这提高了系统的整体可靠性和抗攻击性。在元宇宙协同中,这种去中心化的信任机制能够确保各种交易和互动无需通过第三方中介即可直接进行,从而降低成本、提高效率、减少潜在的欺诈行为。

· 促进跨平台资产和数据的流动性

区块链可以使元宇宙中的资产(如虚拟土地、物品或货币)和数据在不同的平台间流动。通过智能合约和标准化的接口,用户可以将他们的资产从一个虚拟环境无缝迁移到另一个,支持更广泛的互操作性和用户参与。

· 加强用户协同和社区治理

去中心化自治组织(DAOs)是区块链技术为人们带来的社区治理结构方面的重要发明,这种组织结构使得元宇宙的用户能够直接参与到决策和治理中。通过DAOs,用户可以投票决定元宇宙的更新、规则变更和资金分配等事务,这种民主化的管理方式增强了社区的凝聚力和透明度。

· 增加交易和互动的安全性

区块链的加密技术确保所有交易都是安全的,不可篡改的记录和智能合约的自动执行减少了人为错误和欺诈的可能。在元宇宙中,这意味着用户在购买、销售或交换虚拟资产可以得到额外的安全保障。

· 创建持久的、可验证的历史记录

每个交易和互动都会被永久记录在区块链上,为元宇宙中的每一次活动提供了时间戳和不可更改的证据。这种透明度和可审计性对于构建用户信任和提供合法性至关重要。

· 实现经济模型的创新

区块链的智能合约允许元宇宙内创建复杂的经济模型,包括创造和交易虚拟商品、实施数字版税系统以及通过代币经济激励用户参与,为元宇宙的可持续发展和扩展提供资金支持。通过这些方式,区块链技术不仅增强了元宇宙平台的内在功能,也为不同平台之间的协同提供了强有力的支持,保证了元宇宙不仅能成为一个娱乐和探索的空间,也是一个适合进行商务、教育和社交活动的复杂互动环境。

作为一个新兴的技术领域,区块链技术仍然存在一定的不足:

· 可扩展性问题

许多区块链(尤其是比特币和以太坊)面临着处理交易速度和容量的限制。高交易量时可能导致网络拥堵和高昂的交易费用。

· 能源消耗

对于采用工作量证明(PoW)机制的区块链,如比特币需要大量的计算资源来维护网络,这导致巨大的能源消耗和环境问题。能源消耗问题近几年引发了大量关注,一些新的共识机制开始逐步应用于各类区块链,比如ETH网络已经全面转向权益证明(PoS)。

· 用户友好度

区块链技术的复杂性可能使得非技术用户难以理解和使用,而且由于目前Web浏览器中的集成不够,限制了其广泛使用。

· 数据隐私

对于公共区块链,交易的透明性可能意味着个人或企业的交易数据被公开,这可能影响到用户的隐私。

2.5.2 区块链关键技术

前文中我们探讨了区块链技术的基本原理以及其优缺点,为了克服这些挑战并扩展区块链的功能,开发者们引入了一系列高级技术解决方案。接下来,我们将逐一介绍其中几种关键技术,这些技术增强了区块链的功能和性能,大大拓展了其在元宇宙中的应用场景。

(1)智能合约(Smart Contract)

早在20世纪90年代,就有学者提出智能合约的概念,以太坊虚拟机的出现使其成为可能。智能合约本质上是一组运行在区块链虚拟机上的程序代码,这些代码具备自动执行预设任务或合约条款的能力,通常在满足特定条件时触发。它们允许在没有第三方中介的情况下进行可信交易,这些交易是透明的、不可逆的,并且可以追踪。智能合约是区块链技术的核心特征之一,也被用于许多其他区块链系统中。

智能合约具备以下特点:

· 自动化:智能合约的一大特点是一旦预设的条件被满足,相关的合约条款将自动执行。这种自动化减少了人工干预的需要,提高了处理速度和效率。

· 不可更改性:一旦智能合约被部署到区块链上,它的代码就不能被修改。这保证了程序的稳定性和可靠性。

· 分布式:智能合约在区块链网络上的多个节点中部署和执行,增加了其抗攻击能力和故障容错性。

· 透明性:合约的条款对所有相关方都是可见的,这增加了操作的透明度。一组具有特定功能的智能合约组成了DApp(去中心化应用)。这些合约共同定义了DApp的业务逻辑和功能,确保了应用的去中心化和自动化执行。智能合约的组合方式其与用户界面的集成决定了DApp的效能和用户体验。

(2)二层网络(Layer 2Solutions)

区块链的性能和可扩展性问题一直是困扰其发展的重大问题,也是其应用于元宇宙的最重要的阻碍之一。二层网络(Layer2)技术是解决这个问题的重要技术手段之一,它通过在主链之上构建额外的网络层来处理交易,显著提高了处理速度和降低成本,使大规模应用成为可能。

元宇宙——关键技术

主要类型的二层网络技术方案包括:

· 状态通道(StateChannels):状态通道允许用户在区块链之外进行多个交易,并仅在开始和结束时与主链交互。这些交易在私下完成,最终状态会被提交到主链。状态通道的一个典型例子是比特币的闪电网络。侧链(Sidechains):侧链是独立的区块链,与主链并行运行,并通过双向锚定(两边的资产可以互相转移)与主链交互。侧链可以有自己的共识机制和区块生成算法,允许进行实验或特定用途的优化。每个子链可以处理大量交易,并定期将压缩后的交易数据提交回主链。这种结旨在大幅提高交易吞吐量。

上述几种二层网络技术的特性对比如图22所示,这些二层网络技术的出现保证了不同的元宇宙可以根据其自身的需求建立其独有的二级网络,从而使其既能获得经特制化处理的高效率,又可以享受底层区块链所带来的安全性。

(3)跨链桥(Cross-Chain Bridges)

跨链桥(Cross-Chain Bridge)是一种技术,允许在不同的区块链网络之间转移资产和/或数据。这种技术使得原本在单一区块链上独立运行的资产和信息可以在多个不同的区块链平台之间进行互操作和交换。跨链桥解决了区块链生态系统中的孤岛问题,提高了各个区块链平台的连通性和功能性。如图23所示,目前已有数十种不同的跨链桥用来实现各类区块链资产间的联通。

跨链桥的工作原理通常涉及以下几个步骤:

锁定源链资产:用户首先在原始区块链(源链)上锁定希望转移的资产。这通常通过发送资产到一个特定的智能合约地址来完成,该地址由跨链桥的运营者控制。

· 发行代表资产的代币:在目标区块链(目标链)上,跨链桥会发行等量的代币,这些代币代表被锁定的原始资产。例如,将比特币转移到以太坊上时,可能会发行等额的Wrapped Bitcoin(wBTC)。

· 赎回和解锁:当用户希望将资产转回原始区块链时,他们需要在目标链上将代币发送回跨链桥的合约,合约随后会销毁这些代币,并在源链上解锁原始资产,返回给用户。

元宇宙——关键技术

从跨链桥的可信任程度上,我们一般对其分成两大类:需信任(Trusted)链桥。它们使用一组外部验证者(具有多重签名的联盟、多方计算系统、预言机网络)跨链发送数据。因此,它们可以提供出色的连通性,并完全支持跨链通用信息传递。在速度和成本效益方面它们通常也表现良好。·去信任(Trust-less)链桥。这类链桥依靠它们连接的区块链及其验证者来传输信息和代币。它们是“去信任”的,因为它们没有增加新的信任假设(区块链除外)。

跨链桥在元宇宙协同中扮演了重要的角色,因为它们允许不同区块链网络之间的资产和数据互操作。这是实现元宇宙不同平台和应用之间无缝整合的基础,有助于打造一个连贯、统一的虚拟体验,实现不同元宇宙中资产的互通和流动,也便于数据及服务的共享和合作。

(4)预言机(Oracles)

预言机(Oracle)是区块链技术中的一个重要组成部分,它的主要功能是作为链外数据源和区块链(链内)之间的桥梁。区块链是封闭的系统,无法直接访问外部的数据,预言机解决了这一问题,它允许智能合约根据现实世界的数据事件自动执行操作,这些数据包括但不限于股票价格、天气信息、体育比赛结果等。随着技术的发展,一些新的预言机为区块链提供了更加复杂和可靠的服务,比如引入去中心化网络的Chainlink。

预言机的工作原理通常涉及以下几个步骤:

· 数据收集:预言机从各种外部数据源收集信息。这些数据源可能是数据库、网站、API接口或其他实时数据提供者。

· 数据验证:为保证数据的准确性和安全性,预言机可能会从多个源收集同一数据,通过某种形式的共识机制验证数据的正确性。

· 数据传输:验证后的数据被传输到区块链网络,智能合约根据这些数据执行预设的逻辑。例如,根据最新的股票价格自动执行交易。

此外,2020年自动做市商(AMM)技术的出现,使得虚拟世界能够通过简单的数学公式和人的套利行为相结合,将现实世界的价格信息反映到区块链上。预言机加强了虚拟和现实世界之间的互动,使元宇宙能够更为真实地反映并响应现实世界的变化,同时也增强了元宇宙平台的功能性和互动性。这些特性对于构建一个多元化且互动性强的元宇宙生态系统至关重要。

(5)非同质化代币(NFTs)

NFT是“非同质化代币”(Non-Fungible Token)的缩写,代表一种独特的、不可互换的数字资产,它使用区块链技术来证明所有权和真实性。与传统的数字货币或加密货币不同,如比特币或以太坊这些是可互换的(即一个单位可以无差别地与另一个同样单位交换)。NFT则每一个都具有独一无二的属性和价值。在元宇宙中,非同质化代币(NFTs)主要用于确立和转让虚拟资产的所有权,如虚拟艺术品、服装和地块,支持艺术家和创作者通过确保版权来保护和货币化他们的作品,也让虚拟财产所有者(如游戏玩家)能够更有效的保证自己的虚拟资产。

以太坊上最早的NFT协议标准是ERC-721提出的协议,这也是最为广泛接受的NFT项目标准。在此之后,大量支持更多功能或特质的NFT标准被提出,比如支持批量转账的ERC-1155,可存储动态数据的ERC-1948,支持版税机制的ERC-2981、适用于NFT保单的ERC-1523等。配合智能合约,这些新的NFT标准为元宇宙提供了复杂且多样化的功能,比如复杂资产所有权、交易功能和经济激励模型等,极大丰富了元宇宙的交互性和商业潜力。

(6)去中心化自治组织(DAOs)

去中心化自治组织(DAOs)是一种基于区块链技术的组织形式,通过智能合约自动执行组织的决策和运营,无需传统的管理层或中心化的控制结构。在DAO中,所有的决策都是通过社区成员的投票来进行,确保每个成员都能直接参与到组织的治理中。

在元宇宙中,DAOs可以发挥构建和管理虚拟社区或项目的关键角色。它们使用户能够共同管理和决定元宇宙空间内的规则、资产分配及发展方向,从而促进了一种公平、透明且去中心化的社交和经济结构。DAOs通过提供一种民主化的治理机制,强化了用户的参与感和归属感,有助于推动元宇宙平台和项目的长期繁荣和创新。虽然目前DAOs的实践仍然存在因财富/代币集中导致的问题,但是因为开放的标准和基础设施允许人们在必要的时候用脚投票甚至进行分叉,使得基于区块链的治理系统和所有权层构成了中立元宇宙基础设施的必要条件。

此外,作为一个蓬勃发展的技术领域,大量区块链相关的新技术和新理念不断涌现出来,譬如PoS(权益证明)、PoH(历史证明)、AVS(主动验证服务)等,由于篇幅限制,本文难以一一展开详述。这些技术不断拓展区块链的功能和性能的边界,为其在元宇宙中的应用打下了坚实的基础,为元宇宙间的协同、现实与元宇宙之间信息交互提供了重要的技术方案。

2.5.3元宇宙协同安全

由于各个元宇宙在架构、管理和用户群体上的差异性,传统的中心化身份管理难以适用于去中心化的元宇宙;通信安全需要确保数据在跨元宇宙传输过程中的完整性和机密性:数据安全需要保护在采集、共享、存储和交易过程中的隐私和完整性;计算安全则必须保障协同计算过程中的数据不被泄露和滥用。此外,监管审计在保障数据安全和合规性上也扮演着重要角色。本节将详细探讨这些方面的安全威胁及其应对技术,以期为实现安全、高效的元字宙协同提供指导和参考。

(1)用户身份安全

元宇宙是一个多用户的虚拟环境,用户来自不同的元宇宙平台、应用等。用户的身份安全是元宇宙协同的基础,即不同平台和应用之间用户能够轻松迁移并保持身份的安全性。然而,传统的中心化身份管理技术难以适用于去中心化的元宇宙环境。如图24所示,为了保障元宇宙协同下的身份安全,需要从以下四方面实现去中心化的身份管理。

元宇宙——关键技术

· 身份认证:在元宇宙协同中,用户可能需要在不同的虚拟世界和平台之间无缝移动他们的身份。分布式身份技术(例如W3C的DID标准)具有去中心化和用户自主控制的特点,使用户能够携带自己的身份认证信息跨越不同的应用场景。这可以促进整个元宇宙生态系统的开放性、互操作性和增长潜力。

· 角色管理:通过门限密码、分布式密钥生成技术等构建元宇宙用户角色管理委员会,确保任何角色管理操作都需要达到预设的管理者数量的同意,从而实现去中心化的授权与决策。此外,每个角色管理委员会成员仅掌握密钥片段,即使部分信息泄露,也能保持元宇宙系统的安全性。

· 数据确权:在元宇宙中,数字资产如虚拟土地、艺术品(NFT)、游戏道具等具有真实经济价值。利用区块链的分布式账本特性,可以创建不可篡改的所有权记录,确保每个数据资产的唯一性、可追溯性和所有权透明度。区块链智能合约能够自动执行合同条款,无需第三方介入,可以用来规定数字资产的使用、转让、收益分配等规则,从而实现自动化的确权和执行,减少纠纷。

· 访问控制:根据用户在元宇宙中的角色(如游客、居民、管理员等),分配相应的访问权限。基于角色的访问控制减少了权限管理的复杂性,并确保用户只能访问与其角色相关的资源。

(2)通信安全

在元宇宙协同场景中,通信安全扮演着至关重要的角色。不同元宇宙之间的数据交换和交互操作需要通过安全的通信渠道进行,以防止数据在传输过程中被窃取、篡改或泄露。在元宇宙协同场景下,确保不同元宇宙能够安全通信的关键技术可分为以下三个方面。

· 安全通讯协议:安全通讯协议是构建数据传输防护网的关键。如图25所示,安全通讯协议确保了跨元宇宙数据交换的完整性、认证性和机密性。例如,使用TLS/SSL(Transport Layer Security/Secure Sockets Layer)协议可以为通信双方提供端到端的加密,防止中间人攻击和数据被窃听。更进一步,采用量子安全加密技术,如量子密钥分发(Quantum Key Distribution,QKD),可以在未来抵御潜在的量子计算机攻击,为元宇宙间的超安全通信奠定基础。

元宇宙——关键技术

匿名通信:匿名性是在元宇宙交互中保护用户隐私的重要方面。利用诸如Tor网络(如图26所示)或零知识证明(Zcro-Knowledge Proof)(如图27所示)的匿名通信技术,用户能够在不透露自己真实身份或敏感信息的前提下参与跨元宇宙活动。零知识证明技术尤其强大,它允许一方证明其拥有某些信息、是某种状态或能执行某项计算,而无需揭露除断言真实性以外的任何信息。这在验证用户权限或资产所有权时尤为关键,同时保持用户隐私完整无损。

元宇宙——关键技术

· 流量安全:为了维护元宇宙间数据流动的安全性,实施高效的流量安全机制至关重要。如图28所示,流量安全机制包括但不限于入侵检测系统(Intrusion Detection Systems,IDS)和入侵防御系统(Intrusion Prevention Systems,IPS),它们能够监控网络流量,识别并阻止恶意行为。此外,采用分布式账本技术(如区块链)可以为交易和信息交换提供不可篡改的记录,确保数据源头的可追溯性和交易的透明度,同时利用智能合约自动执行规则,增加安全性。

元宇宙——关键技术

(3)数据安全

在元宇宙协同场景中,根据不同元宇宙的安全需求,协同过程中需确保隐私数据不泄露,同时保证数据的真实性与完整性,从而维护元宇宙交互的安全与公平性。如图29所示,本文总结了元宇宙协同中数据采集、数据共享、数据存储和数据交易四类场景的安全技术。

元宇宙——关键技术

· 数据采集安全:确保源数据真实可靠,采集端需预处理数据,利用真值发现算法和机器学习进行数据清洗、异常检测,剔除噪声或异常数据,提高数据质量。

· 数据共享安全:确保共享数据的完整性和真实性,以保障数据共享的正确性。通过哈希数字摘要和承诺技术,结合零知识证明(如zk-SNARKs),在隐私保护的同时保障数据完整性和真实性。使用范围证明技术。分享者可以在不暴露原数据的情况下共享统计结果和验证结果。结合匿名凭证技术,验证数据来源的真实可靠。

· 数据存储安全:为保障数据存储安全,使用区块链技术和IPFS存储数据,分布式存储消除单点故障风险,提高抗攻击性。IPFS通过内容寻址减少链上存储开销。在节点故障时,通过共识机制恢复数据存储。区块链不可篡改的特性保障数据真实性、完整性及可追溯性。结合抗量子的加密技术保护数据隐私。结合Merkle树技术轻量化链上存储,减少存储开销,提高查询效率。通过跨链查询技术,不同元宇宙间在保持数据隐私和安全前提下进行数据访问和验证,进一步提高协同效率。

· 数据交易安全:数据资产交易是元宇宙协同的重要目的之一。结合智能合约,区块链和跨链技术,使交易逻辑透明、支付追责自动化,保障数据资产交易的公平性和记录可追溯性。结合匿名凭证、零知识证明和范围证明技术,在保护交易数据与交易者隐私的同时完成资金、数据验证和身份认证。保证数据资产交易的安全可靠。

(4)计算安全

在元宇宙协同中,涉及大量个人和敏感数据,如用户身份、行为记录和虚拟资产。隐私计算技术对数据进行处理和分析,防止数据泄露和滥用,保护用户的隐私权益保证协同过程的计算安全。这不仅能够提高数据处理的安全性和可靠性,还能增强用户对元宇宙平台的信任,促进元宇宙的健康和可持续发展。如图30所示,计算安全的主要技术包括同态加密(Homomorphic Encryption)、安全多方计算(Secure Multi-Party Computation,MPC)、可信执行环境(Trusted Execution Environment, TEE)和联邦学习(Federated Learning)等。

元宇宙——关键技术

· 同态加密:同态加密允许在不解密数据的情况下直接对加密数据进行计算,从而在云端或其他不可信环境中执行数据处理任务时确保数据的隐私和安全。这种技术通过对加密数据进行数学运算,使计算结果在解密后与对未加密数据进行相同运算的结果一致,从而保护数据的机密性。

· 安全多方计算:安全多方计算让多个参与方在不泄露各自输入数据的情况下共同完成计算任务。通过复杂的加密协议和算法,确保计算过程中的每一步都保证数据的保密性和正确性,从而实现协同计算的安全。,可信执行环境:可信执行环境提供了一个安全区城,允许在主操作系统之外执行敏感代码和处理敏感数据。TEE依赖硬件支持,防止未经授权的访问和修改,确保计算过程的完整性和机密性。典型的TEE如ARMTrustZone,通过隔离敏感操作和数据,实现更高的安全性。

· 联邦学习:联邦学习是一种分布式机器学习技术,允许各方在不共享原始数据的情况下共同训练模型。通过仅交换模型参数而非数据本身,保护数据隐私。MOON (Model-Contrastive Federated Learning)通过对比模型表示来校正各参与方的本地训练,提高了非独立同分布数据(non-IIDdata)下联邦学习的性能。

(5)监管审计

在元宇宙协同场景中,数据的监管与审计至关重要。随着元宇宙协同的进行,用户在虚拟环境中生成的大量数据会一并进行数据流通。由于各个元宇宙之间信任程度不同,数据跨域流通需要得到严格保护,防止数据泄露、滥用和垄断,以确保元宇宙协同过程中的数据安全,推动元宇宙协同健康、有序地发展。数据监管是保障用户隐私和数据安全的核心。如图31所示,在元宇宙协同场景下,数据生命周期管理(Data Lifecycle Management,DLM)可以提供全局性的管理框架,从数据生成到销毁的每一个环节进行系统性控制,确保数据在各个元宇宙场景下始终安全、合规且高效。与此同时,数据水印(Data Watermarking)技术在微观层面对具体数据进行精准的监控和追踪,增强数据的安全性和可追溯性,实现跨元宇宙数据的有效监管。

元宇宙——关键技术

数据审计是确保元宇宙企业行为合规的关键手段。如图32所示,元宇宙协同中的数据审计方法主要包括,通过定期审计,评估和验证元宇宙协同场景下跨域数据管理实践的有效性和合规性,确保用户数据的安全和隐私保护。区块链技术的引入,可以提升数据审计的透明度和可信度。由于区块链的不可篡改性和去中心化特点,将审计记录写入区块链可以确保所有操作和更改被记录在案,实现审计过程的透明和可追溯。此外,零知识证明(Zero-KnowledgeProof,ZKP)技术也在数据审计中发挥重要作用。零知识证明技术允许在不泄露数据内容的前提下验证数据的真实性和完整性,从而在进行数据审计的过程中保护用户隐私。

元宇宙——关键技术

综上所述,元宇宙协同中的安全问题主要包括用户身份、通信、数据、计算和监管审计等多个方面。用户身份安全是元宇宙协同的基础,通过去中心化的身份管理技术实现用户身份的安全迁移。通信安全保障元宇宙间的数据交换和交互操作的完整性和机密性,采用安全通讯协议、匿名通信和流量安全技术。数据安全通过保护数据的采集、共享、存储和交易过程中的隐私和完整性来维护元宇宙的交互安全。计算安全则通过隐私计算技术保护用户数据,确保计算过程的安全性和可靠性。监管审计通过数据生命周期管理和数据水印技术,确保数据的安全和合规,增强用户对元宇宙平台的信任。综合运用这些技术,元宇宙协同可以在不同平台和应用之间实现安全、高效的互动,促进元字宙生态系统的健康发展。

2.6 元宇宙交互

在元宇宙的世界中,交互技术是连接虚拟和现实的重要桥梁。随着科技的发展,交互方式变得越来越多样和复杂。显示技术决定了用户的视觉体验和沉浸感,多模态交互通过结合多种感官输入提升了用户的参与度,而多模态情感计算则通过分析用户的情感信号增强了情感互动体验。这些技术共同推动了元宇宙交互的进步。

2.6.1信息显示

人对信息的接受80%来自于视觉,视觉交互是人类接受外界信息的重要渠道之一。目前的视觉交互都是基于显示技术而实现的,下面对元宇宙中的主要显示技术分别进行介绍。显示技术的总体分类如图33所示,其中2D显示技术是目前最常用的显示技术,通过在平面或曲面屏幕上显示2D图像来传递信息,目前常见的2D显示屏有LCD、OLED与LED等。目前由于显示幅面以及分辨率的限制,在视觉交互过程中2D显示屏无法提供更多的信息。

近些年随着MiniLED和MicroLED等技术的发展,2D显示屏的分辨率得到了大幅提升,可以传递的信息总量随之提升。此外,由于眼球的特殊生理构造,人眼观看到的范围是一个120°的弧形区域,为了充分利用人眼的观看区域,研究者提出了曲面2D显示器,相比传统的平面显示器,曲面显示器更加贴合人眼的生理弧度,能大幅提升使用者的被包裹感和沉浸感。未来2D显示技术更是朝着更高分辨率和柔性等方向发展。

由于人眼在现实生活中接受的是3D信息,而2D显示技术无法传递物体场景的深度信息,存在信息缺失的问题。3D显示技术的出现,解决了2D显示技术无法传递物体场景深度信息的问题。3D显示是指采用光电和计算机等多种技术手段来模拟实现人眼的立体视觉特性,将空间物体以3D信息再现出来,呈现出具有纵深感的一种显示方式,具有强震撼和高逼真等特点。3D显示技术是元宇宙交互领域的关键技术,通过3D显示设备进入元宇宙可以将虚拟世界与现实世界进行密切融合。3D显示技术主要分为助视3D显示技术和裸眼3D显示技术。

元宇宙——关键技术

助视3D显示技术主要包括头戴式3D显示技术、分色3D显示技术、偏振3D显示技术和快门3D显示技术。其中头戴式3D显示技术是目前元宇宙的主要显示。头戴式3D 显示技术是将显示设备集成在一个紧凑的外壳中,通过提供空间计算和视觉平台,实现虚实信息的无缝融合,从而为观看者提供更好的沉浸式体验和更自然的人机交互方式。传统的透射式头戴显示技术基于反射和折射透镜元件来实现,视场角受到透镜厚度和焦距的限制,同时系统体积较大,影响佩戴舒适度。

近年来,随着光学领域成像技术的不断发展,自由曲面头戴显示技术、波导头戴显示技术、视网膜投影技术和全息头戴显示技术等逐渐成为研究热点。自由曲面头戴显示基于没有任何对称性的复杂曲面来设计,在扩大视场角的同时提高了光学透射率,然而系统重量和体积较大。波导头戴显示技术利用波导元件对传输光线进行全反射,大幅减小了光学元件的厚度,使得系统轻薄化,同时外界场景也可直接进入人眼,实现了虚拟与现实的融合。视网膜投影技术利用Maxwellian view原理,保证很小光束的光线直接进入人眼即可看到图像,该技术一般采用激光扫面系统作为显示源,存在出瞳小、人眼观看范围受限的问题。Magicleap和Brother都进行了相关产品的研究。

全息头戴显示技术基于光的干涉和衍射原理,能够精确调控光波前,提供人眼视觉所需要的全部深度信息,记录并重建出原物体逼真的立体像,为头戴式近眼显示技术的发展提供了新的方案,目前成为了最具潜力的头戴显示技术之一。未来应用于元宇宙交互技术的头戴显示技术正朝着轻量化、大视角和高分辨率等方向发展。

裸眼3D显示技术主要分为视差3D显示技术、光场3D显示和全息3D显示技术等。目前应用于元宇宙交互技术中主流的3D显示技术为视差3D显示技术。视差3D显示技术是通过光栅或柱透镜将显示器显示的图像进行分光,根据人眼所在位置,对光线传播的路径进行一定方式的控制,使人的双眼能够接收到不同的图像,经过大脑融合之后形成3D视觉。视差3D显示技术可以让人区分物体的远近,从而为观看者提供真实的3D信息,具有成本低和结构简单等优点。但由于人观看视差3D显示器时,聚焦位置固定在屏幕所在平面上,在大脑融合视差信息时存在辐辏冲突,因此长时间观看会存在眩晕不适。

光场3D显示技术通过采集记录人眼观察到的真实3D场景的光场分布,在空间中再现完整的光场信息,从而使人双眼的聚焦位置和会聚角度符合现实物体的规律,消除3D眩晕。光场3D显示技术因其无眩晕和可多人观看等优点,成为了最具发展潜力的裸眼 3D显示技术之一。

未来应用于元宇宙交互技术的裸眼3D显示技术正朝着无眩晕、大视角、高清晰和高分辨率等方向发展。全息3D显示技术通常需要借助计算机来生成全息图,同时通过空间光调制器来对输入光进行调制进而再现出3D场景。得益于人工智能技术的快速进步,全息3D显示技术正处于一个新的发展浪潮之中。然而,全息3D显示尚存在计算速度慢、视角小和分辨率低等问题。因此,现有的全息3D显示的性能离市场应用需求仍有一定的距离。目前,实时大视角高分辨率全息3D显示技术是全息3D显示技术的主要发展方向。

2.6.2多模态交互

在元宇宙中,交互方式的升级是其核心特征之一。这种升级不仅体现在交互界面从传统的二维变为沉浸式的三维,还体现在交互模态从单一模态向多模态的演变。多模态交互,如图34所示,让用户能够更加自然和直观地与元宇宙中的目标进行互动。在输入方式方面,用户可以通过手势、眼动和全身动作进行交互,这些方法提升了用户体验的沉浸感和真实感。此外,语音交互也成为了一种重要的输入方式,由于其应用范围广泛,本文不作详细讨论。

元宇宙——关键技术

在输出方面,多模态交互不仅限于视觉和听觉,还包括触觉、嗅觉和味觉的体验。其中,触觉交互是当前研究的热点,致力于通过触觉反馈增强用户在虚拟环境中的真实感和互动性。通过多模态的输入和输出,元宇宙为用户提供了更加丰富和多样化的互动体验,开启了全新的数字互动时代。

(1)手势交互

手势交互技术是通过捕捉和识别用户手部动作来实现人与计算机的自然互动。硬件方面,手势识别系统需要高帧率成像设备,以确保流畅的交互体验。LeapMotion等设备基于结构光和红外技术,通过发射红外光线并捕捉反射数据,精确地重建手部的3D模型。软件方面,手势识别技术经历了从传统计算机视觉方法到深度学习和变压器架构的演进,提升了识别的准确性和鲁棒性。这些进展使得手势识别技术在虚拟对象操作、界面控制和虚拟社交互动等应用场景中,提供了自然、直观且高效的交互体验。

尽管手势交互技术取得了显著进展,但仍面临诸多挑战。首先,如何在自然环境中实现高鲁棒性的手势识别是一个主要难题。现有的许多方法在处理遮挡和光线变化时表现不佳。高动态范围(HDR)传感器、深度传感器、红外摄像头(如Leap Motion使用的红外技术)以及先进图像处理算法和机器学习技术的结合,能够在各种光线条件和部分遮挡情况下保持识别的稳定性和准确性。此外,双手交互场景中的手势识别更加复杂,因为两只手之间的相对位置和互动关系增加了算法的复杂性。为了解决这些问题,4DHands等新方法探索了关系感知标记和时空交互推理模块,从而提升了复杂场景下的手部重建精度和稳定性,如图35所示。

元宇宙——关键技术

未来,手势识别技术的发展趋势集中在提高精度、降低延迟以及适应复杂环境。机器学习和深度学习的持续进步,将推动更复杂和精确的手势识别模型的研发,增强用户在虚拟环境中的自然交互体验。Leap Motion等基于结构光和红外技术的设备将继续在手势识别中发挥重要作用,通过高精度的3D手部模型重建,实现更加细致和准确的手势识别。同时,通过整合多种传感器数据和优化算法,手势识别技术将在不同光线条件和部分遮挡情况下表现出色,并减少感知和计算延迟,提高交互流畅度。手势识别技术的不断进步,将为用户提供更加直观、沉浸和高效的交互体验,推动元宇宙技术的发展与普及。

(2)肢体交互

肢体交互技术通过检测和解释人体动作及姿态,实现人与计算设备或环境之间的自然互动。常见的技术包括基于视觉、惯性传感器、无线电信号和电场感应的解决方案。其中,视觉传感技术(如RGBD和红外摄像头)因其数据收集和标注方便而广泛应用于人体动作识别(HAR)和人机交互(HCI)。惯性传感器技术(如IMU)因其低功耗、小体积和低成本的特点,在长时间穿戴场景中也有广泛应用。然而,这些技术在实际应用中仍面临遮挡、光照条件和长期漂移等问题。

最近,研究人员探索了一些新兴的感应技术,以弥补现有解决方案的不足。其中,基于体域电场的感应技术因其非侵入性、高灵敏度等特点,逐渐受到关注。这种技术可以通过检测人体周围电场的变化,识别人类动作和姿态,应用于智能家居、健康监测等领域。尽管肢体交互技术在多种应用中显示出巨大的潜力,但其广泛部署仍面临诸多挑战。

首先是鲁棒性问题。例如,基于视觉的解决方案容易受到光照和遮挡的影响,而惯性传感器的长时间使用可能导致数据漂移。其次是通用性问题,即在不同环境和使用者间的一致性能。环境变化(如家庭电器的开关)和使用者的个体差异(如身高、体重和穿戴物品)都会对感应结果产生影响,从而降低系统的准确性。此外,基于体域电场的感应技术虽然具有高灵敏度,但也容易受到环境噪声的干扰。例如,电器设备的电磁干扰可能会影响感应结果,导致误检或漏检。因此,提高系统在复杂环境中的鲁棒性和稳定性是当前研究的重点。未来,肢体交互技术的发展将朝着更高的准确性、鲁棒性和易用性方向努力。

集成电容芯片的进步和主动屏蔽技术的应用,有望显著提高基于体域电场感应技术的性能。同时,多传感器融合和连续学习算法的应用,将有助于提高系统的通用性和适应性,使其能够在不同的环境和使用者间保持一致的性能。在具体应用方面,随着穿戴设备和智能家居技术的发展,基于体域电场感应的解决方案将在健康监测、姿态识别和智能交互等领域发挥重要作用。例如,通过感应电场变化进行步态分析和手势识别,可以实现更加自然和高效的人机交互体验。此外,随着技术的成熟,基于体域电场的感应系统有望在医疗、娱乐和安全等领域得到广泛应用。

(3)眼动交互

眼动追踪是一种通过检测和跟踪用户眼球的运动,确定用户注视点和视线方向的技术。其工作原理包括数据采集、预处理、瞳孔检测、视线计算、应用映射和反馈机制。首先,系统通过高分辨率摄像头或红外光传感器捕提眼部图像,利用图像处理算法检测瞳孔位置,计算视线方向并将其映射到屏幕上的注视点。这些信息用于实现无接触的界面操作和用户行为分析。眼动追踪算法包括视线估计部分和标定部分,主要技术路径为瞳孔角膜反射法和基于图像的方法。前者通过瞳孔位置和反射点计算视线方向,如图36所示,后者利用深度学习算法从眼部图像中提取特征进行视线估计,如图37所示。标定方法包括静态标定、平滑追踪标定、互动标定和隐式标定,确保眼动数据的准确性和可靠性。

元宇宙——关键技术

眼动追踪面临的主要技术挑战包括提高精度和响应速度。高精度眼动追踪需要先进的传感器和复杂的算法,但这些技术要求会带来高计算负荷,可能影响实时响应速度。为解决这一问题,需要优化算法效率,提升硬件性能,并利用并行处理和专用加速芯片,以确保在不影响精度的前提下。实现快速、实时的眼动追踪。此外,不同用户在使用眼动追踪设备时存在适应性问题,系统应采用个性化校准和自适应算法,确保设备在多样化用户群体中的高精度和一致性。

眼动追踪技术的发展趋势主要体现在优化渲染、视线控制和个性化推荐方面。焦点渲染技术通过在用户注视的区域提供高分辨丰图像,提升图像质量和渲染效率。视线控制允许用户通过注视实现无接触的交互方式,提高自然性和卫生性。个性化推荐则利用用户的视线轨迹数据,推断其兴趣和偏好,提供个性化内容推荐,提升用户体验。此外,未来的眼动追踪技术还将继续优化精度和响应速度,提升硬件性能和算法效率,确保在多样化应用场景中的广泛应用和普及。

(4)触觉反馈

触觉反馈是指通过物理设备再现虚拟世界中人所接触物体的纹理、温度、振动、形状、刚度、压力等触力觉体验。触觉体验提升了用户的沉浸感,允许用户“触摸”虚拟对象,使人在元宇宙中获得更真实的交互体验。面向元宇宙的触觉反馈设备主要可以分为穿戴式和裸手式两大类,如图38所示。穿戴式通常以手套或其他可穿戴装置的形式出现。在穿戴设备的内部通过集成柔性传感器、力反馈结构及温度、纹理、振动等触觉反馈设备,将虚拟环境中的触觉信号准确传递给用户。

目前,已经有一些商用产品如Dexmo、HaptX和SenseGlove等,实现了基于手套的多种触觉模态融合反馈,但与高保真触觉反馈相比仍存在一定差距。例如,Dexmo手套能够提供五指力反馈,使用户在虚拟环境中感受到抓握物体的阻力。HaptX手套利用微流体技术,模拟皮肤的细微触觉,提供高度逼真的触觉体验。在学术界,手套也逐渐从刚性结构向柔性化轻薄化发展,Mate Jam采用层阻塞的原理实现了手套的柔性化,并可以实现刚度反馈。这类设备的主要优势在于其精确的触觉反馈能力,但其缺点在于通常体积较大,佩戴不够舒适。且价格较高。

裸手式则依靠外部装置产生触觉反馈,用户不需要佩戴任何设备,可以主动探索虚拟世界,其实现方式为通过检测人手位姿,在特定位置放置触觉反馈设备,实现触觉显示。现有实现方式有移动小车、机械臂、无人机及一些用于人手精细触觉显示的机械点阵。此外,在产业界,超声波阵列或激光投影仪。直接作用于用户的手部皮肤,而无需佩戴任何设备。Ultraleap公司研发了一种基于超声波技术的裸手式触觉设备,通过空气中的振动波在用户手上产生触觉反馈。相比于穿戴式触觉反馈设备,裸手式触觉反馈设备大部分仍处于科学研究阶段,距离工程化应用仍有一定困难。

元宇宙——关键技术

尽管触觉反馈技术有巨大潜力,但仍面临诸多挑战:1)技术复杂性:为模拟逼真触觉体验,触觉反馈系统需要高灵敏度的传感器感知用户动作,采用高空间分辨率、快速响应的执行器,做出相应触觉反馈。2)硬件成本:高质量的触觉设备通常价格昂贵,限制了其大规模应用。尤其是在消费级市场,成本效益是一个重要因素。3)内容兼容性:触觉反馈技术需要与虚拟内容紧密结合,目前许多虚拟环境和应用尚未完全支持或优化触觉反馈,这限制了技术的普及和用户体验的提升。

未来趋势包括:1)微型化和便携化:触觉反馈设备将变得更加小型化和便携化,使其更易于集成到各种设备中,如VR头盔、手套和穿戴设备。2)软硬件一体化发展:触觉反馈技术将与虚拟环境内容开发紧密结合,形成软硬件一体化解决方案。3)多模态交互:虚拟世界中的纹理、温度、振动、形状、刚度、压力等多模态反馈将时空一致地呈现给用户,并与其他感官反馈(如视觉、听觉)相结合,将大幅提升元宇宙的沉浸感和互动性。

2.6.3 多模态情感计算

情感计算是元宇宙交互的重要组成部分,主要研究如何让计算机具备感知、理解和表达情感的能力,建立更人性化、更具亲和力的人机交互环境。人类情感表达通常涉及多种模态,包括显性表达(如人脸表情、语言)和隐性表达(如文本、图像)。显性情感线索对应于人类可以直接观察和记录的特定生理和心理变化。如人脸表情,眼球运动、语言、行动和生理信号(如脑电波、心跳、脉搏等)。

这些信号的缺点是容易被压制或掩盖,并且有时难以捕捉。同时,移动设备和社交网络的普及使人们习惯性地使用文字、图像,音频和视频在网上分享经验和观点。隐性情感刺激与这些常用的数字媒体相对应,对它们的分析提供了一种推断人类情感的隐性方式。如图39所示,无论情感是显性表达还是隐性表达,通常都需要多种模态共同支撑才能很好地完成情感识别。与单模态情感识别相比,多模态情感识别(Multimodal Emotion Recognition,MER)具有数据互补性、模型鲁棒性、性能优越性等优势。

元宇宙——关键技术

一般来说,在目标域包含足够标注数据的MER框架由三个部分组成:表示学习、特征融合和分类器优化,如图40所示。

元宇宙——关键技术

(1)情感的表示学习

为了将文本表示为计算机可以理解的形式,需要以下几步:第一,将符号化的词语表示为实数,以便进行下一步计算;第二,对语义关系建模;最后,获得整段文本统一的表示方法。随着数据规模的增加,相应的词表规模在不断扩大,独热向量的维度也急剧增加。后来,研究人员利用预测单词上下文的方式来训练语言模型,得到具有固定维度的词向量。流行的词向量表示模型包括word2vee,GLOVE、BERT、XLNet等。

到目前为止,人们已经开发出大量方法来提取音频中情感刺激的代表性特征。研究发现,音频特征(如音高、对数能量、过零率、频谱特征、语音质量和抖动)在情感识别中非常有用。自2013年以来,ComParE声学特征集通常被用作计算机辅助语言学挑战系列的基线。随着近年深度学习的发展,音频特征提取从原来的波形信号转换到了频域信号(如频谱图像),然后输入到CNN。CNN使用共享权重的卷积核和池化,使模型具有更好的频谱和时间不变性,这通常会生成泛化性更强、更鲁棒的情感识别模型。研究人员为图像中的情感刺激设计了情感信息丰富的特征表示。

一般来说,图像可以分为两类,即非限制性图像(例如自然图像)和人脸表情图像。对于前者,各种手工算子的特征,包括颜色、纹理、形状、构图等,在早期被设计出来以表示图像情感。这些低层特征是在心理学和艺术理论的启发下设计的。后来基于视觉概念的中层特征被提出,用以缩小图像中像素和情感标签之间的差距。最具代表性的项目是SentiBank,它由1200对形容词-名词组成,在所有的手工特征中展现出卓越而稳健的识别性能。在深度学习领域,为了整合不同层次的各种表示,特征从CNN的不同层中提取。同时,注意力机制被用来学习特定局部情感区域的更好情感表示。

对于人脸表情图像,完成识别任务需要先进行人脸的检测和对齐,再进行人脸的编码。与单一图像相比,视频包含一系列具有时间信息的图像。人们提出了各种各样的方法建立视频的表示。早期方法主要是利用视频领域手工算子的局部表示,包括颜色、运动和镜头剪切率。随着深度学习的出现,近期方法通过采用三维卷积来提取具有区分性的表示,以捕捉多个相邻帧所编码的时间信息。在提取视频中特定模态的特征后,将不同类型的特征整合可以获得更好的结果,提升模型性能。

(2)各情感模态的特征融合

特征融合作为多模态情感识别的一个关键研究主题,旨在整合来自多种模态的表示,以预测情感的特定类别或连续值。一般来说有两种策略:无模型融合和基于模型的融合。不直接依赖特定学习算法的无模型融合在过去几十年被广泛使用。它分为早期融合,晚期融合和混合融合。这些融合方法都可以从现有的单模态情感识别分类器中扩展得到。早期融合,也被称为特征级融合,直接将来自不同模态的特征表示拼接为一个联合的表示。

这是一种最直观的方法,利用早期各模态间的交互来融合各表示,这种方法只需要训练一个单一的模型。但来自不同模态的表示可能存在很大差异,我们必须考虑时间同步问题、模态鸿沟问题等,以便在融合前将这些表示转化为相同的格式,或转换到相同的特征空间。另外,当某个或某些模态缺失时,早期融合会失败。晚期融合,也被称为决策级融合,则是整合来自每个单模态的预测结果。流行的机制有平均、投票和信号方差。

晚期融合的优点包括:1)灵活性和优越性一可以为不同的模态选择最优分类器。2)鲁棒性一当某些模态缺失时,晚期融合仍然可以发挥作用。但晚期融合忽略了不同模态做出预测前的关联。

混合融合结合了早期融合和晚期融合,在一个统一的框架内利用它们的优势,但计算成本更高。由于无模型的融合简单技术且不是专门针对多模态数据的,在构建学习模型过程中明确进行融合的基于模型的融合受到了更多关注。对于浅层模型,基于核的融合和基于图的融合是两种代表性的方法;对于最近流行的深层模型,则经常使用基于神经网络的融合、基于注意力的融合和基于张量的融合。

基于核的融合是基于含核分类器的扩展,不同的模态使用不同的核,核选择的灵活性和凸损失函数使多核学习融合在很多应用中受到欢迎,包括MER。但在测试过程中,这些融合方法依赖于训练数据中的支持向量,这导致了巨大的内存成本和无效的参考。基于图的融合为每一种模式构建独立的图或超图,将这些图合并为一个融合图,并通过基于图的学习来学习不同边和模态的权重。它只需根据现有数据构建图,就能很好地处理数据缺失问题。除了提取的特征表示,我们还可以通过相应的边将先验知识整合到模型中。但当有更多的训练样本可用时,计算成本将呈指数级增长。

基于神经网络的融合采用直观的策略,通过神经网络融合不同模式的特征表示或预测结果。基于注意力的融合使用注意力机制来获得一组带标量权重的特征表示的加权和,这些权重由注意力模块动态学习所得。这些用于深度模型的融合方法能性能良好地以端到端方式从大量数据中学习,但存在可解释性低的问题。上述特征融合方法的一个重要属性是它们是否支持视频中MER的时序建模。显然易见,由于在晚期融合之前基于每种模态的预测结果已经可以获取,所以早期融合可以,但晚期融合和混合融合不能。对于基于模型的融合,除了基于核的融合,其他的都能用于时序建模,如基于图融合的隐马尔可夫模型(HMM)和条件随机场(CRF),以及基于神经网络融合的RNN和LSTM网络。

(3)多模态情感识别的分类器优化

对于用单词嵌入序列表示的文本,最流行的方法是使用RNN和CNN捕捉单词之间的语义关系。LSTM,作为一种典型的RNN,包含一系列具有相同结构的单元。每个单元接受一个词编码和上一个单元的隐藏状态作为输入,计算输出,并为下一个单元更新隐藏状态。隐藏状态记录了之前词的语义。CNN通过卷积操作计算连续词之间的局部上下文特征。平均池化层或最大池化层用于进一步整合所提取的特征,以进行后续情感分类。最近,研究人员开始使用基于Transformer的方法,例如BERT和GPT-3。Transformer由一系列注意力模块实现,包含一个多头自注意层,然后是归一化层,一个前馈网络和另一个归一化层。文本中词的顺序也由另一个位置嵌入层表示。与RNN相比,Transformer不需要按顺序处理单词,这提高了并行性。而且与CNN相比,Transformer可以对距离更远的词之间的关系进行建模。

用于音频情感识别的分类方法一般包括以下两种:传统方法和基于深度学习的方法。传统方法中,HMM是一个够捕捉到序列数据动态特征的代表性方法。SVM也被广泛运用于音频情感识别。由于不受HMM模型经典独立假设的限制,基于深度学习的方法越来越受欢迎。在这些方法中,带注意力机制的序列到序列模型在端到端的方式中取得了成功。最近,通过开发深度混合卷积和循环模型,一些方法显著提升了该领域的技术水平。

在早期,多个手工算子的图像特征被整合输入到SVM以训练分类器。随后基于深度学习,分类器和特征提取器被连接起来,并通过相应的损失函数(如交叉熵损失)进行端到端的优化。三元组损失和N对损失等流行的度量损失也参与到网络优化中,以获得更具区分性的特征。通过上述学习范式,每幅图像被预测为一种主要情感类别。基于心理学的理论,一幅图像可能会唤起观众的多种情感,这就导致了预测结果模棱两可的问题。为了解决该问题,采用标签分布学习来预测每个情感类别的具体相关程度,其中Kullback-Leibler散度是最流行的损失函数。现有方法大多采用两阶段模型来识别视频情感,即提取视觉和/或音频特征和训练分类器。

对于训练分类器,已有许多机器学习方法被用来建模视频特征和离散情感类别间的映射,包括SVM、GMM等。尽管上述方法对视频情感识别的发展做出了贡献,但由于深度神经网络的出色能力,近年提出了许多基于深度神经网络的端到端识别视频情感的方法。基于CNN的方法首先采用三维卷积神经网络来提取包含情感信息的高层时空特征,再使用全连接层进行情感分类。最后,模型通过损失函数来优化整个网络。

综上所述,元宇宙中的交互技术通过不断进步的显示技术、多模态交互以及多模态情感计算,打造出一个高度沉浸、自然且富有情感的虚拟世界。显示技术提供了视觉上的沉漫感,多模态交互提升了用户的参与度和真实感,而多模态情感计算则增强了人与虚拟环境的情感连接。这些技术的协同发展共同推动了元宇宙交互的全面进步,带来更加丰富和多样化的用户体验。

免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://yundeesoft.com/164916.html

(0)
上一篇 2024-12-28 18:26
下一篇 2024-12-28 18:33

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注微信