docs/plan/%E6%AF%95%E8%AE%BE/DXR_Volumetric_Rendering_Research_Report.md

# DirectX Raytracing (DXR) 体积渲染技术调研报告

## 一、DXR基本能力与工作原理

### 1.1 什么是DirectX Raytracing (DXR)

DirectX Raytracing（DXR）是Microsoft在DirectX 12中引入的光线追踪API，于2018年随Windows 10 1809版本正式发布。DXR代表了实时图形渲染的重大技术飞跃，它使得在游戏和应用程序中实现电影级真实感渲染成为可能此前这一直是离线渲染领域的专利。

DXR的核心设计目标是提供硬件加速的光线追踪能力，让开发者能够在可交互的帧率下实现全局光照、反射、阴影等高级渲染效果。作为DirectX 12 Ultimate的一部分，DXR现已得到业界广泛支持，包括NVIDIA、AMD、Intel在内的主流GPU厂商都提供了兼容的驱动程序。

### 1.2 DXR核心组件架构

DXR的技术架构由几个关键组件构成，每个组件都在光线追踪流程中扮演着不可或缺的角色：

**Acceleration Structure（加速结构）** 是DXR中最核心的数据结构。加速结构是一种层次化的边界体积层次（BVH），用于在GPU上高效地组织场景几何体数据。它将场景中的三角形组织成树形结构，使得光线与场景的求交测试可以从O(n)降低到O(log n)的复杂度。DXR支持两种类型的加速结构：Top-Level AS（TLAS）用于组织多个Bottom-Level AS，可以高效处理动态场景中的对象更新；Bottom-Level AS（BLAS）用于组织单个几何体的三角形数据。这种双层设计允许开发者仅更新发生变化的对象对应的BLAS，而无需重建整个场景的加速结构，这对于实时应用至关重要。

**Shader Table（着色器表）** 是DXR中用于将光线追踪管道中的各种着色器与场景对象关联起来的数据结构。Shader Table本质上是一个包含着色器标识符和着色器参数的GPU缓冲区，开发者可以通过它为不同的几何体指定不同的材质属性、反射特性或自定义着色器逻辑。这种设计使得DXR具有高度的灵活性，能够支持复杂多样的材质和渲染效果。

**Ray Dispatch（光线调度）** 是发起光线追踪计算的操作。通过DispatchRays，开发者可以指定光线生成着色器（Ray Generation Shader）的入口点，以及光线追踪管道的各项参数。GPU会根据这些配置启动大量的光线追踪计算单元，每个计算单元会执行相应的着色器代码来完成光线与场景的求交测试。

**Pipeline State Object（管道状态对象）** 定义了光线追踪管道的完整配置，包括各种着色器（光线生成着色器、命中着色器、未命中着色器、相交着色器）的编译状态，以及管道配置参数如最大递归深度等。

### 1.3 DXR着色器类型与光线追踪管道

DXR定义了一套专用的着色器类型来支持完整的光线追踪流程，每种着色器都有其特定的职责：

**Ray Generation Shader（光线生成着色器）** 是光线追踪管道的起点，通常每个像素或每个采样点发射一条光线。开发者可以在此着色器中实现相机光线生成、抖动采样、反锯齿等逻辑。

**Intersection Shader（相交着色器）** 用于处理非三角形几何体的求交测试。通过自定义相交着色器，开发者可以实现程序化几何体（如球体、圆锥体）、体素数据或其他自定义图元的光线求交逻辑。这一功能对于体积渲染尤为重要，因为它允许直接在加速结构中表示体数据。

**AnyHit Shader（任意命中着色器）** 在光线与几何体求交时被调用，可用于执行透明材质测试、Alpha遮罩剔除等操作。DXR 1.1版本引入了更高效的Opacity Micromaps技术，可以硬件加速Alpha测试几何体的处理。

**ClosestHit Shader（最近命中着色器）** 当光线命中几何体时执行，通常用于计算表面的着色属性如漫反射、镜面反射、材质纹理查询等。

**Miss Shader（未命中着色器）** 当光线未命中任何几何体时执行，常用于实现环境映射、天空盒渲染或雾效等效果。

### 1.4 DXR版本演进与最新特性

自首次发布以来，DXR经历了多个版本的演进，持续引入新功能以提升光线追踪的效率和能力：

DXR 1.0版本奠定了基础架构，提供了核心的光线追踪能力。从DXR 1.1开始，Microsoft引入了内联光线追踪（Inline Raytracing）功能，允许在普通计算着色器中直接调用TraceRay函数，而无需完整的射线追踪管道。这为混合渲染方案打开了大门，开发者可以在传统光栅化渲染中局部使用光线追踪来增强特定效果。

DXR 1.2版本（2025年GDC大会上发布）带来了多项重要更新：**Shader Execution Reordering（SER）** 允许应用层向GPU提供光线执行顺序的提示，使硬件能够更好地并行化光线执行，对于处理非相干光线（如间接照明）特别有效，NVIDIA在《Alan Wake 2》中的演示显示该技术可减少约三分之一的光线追踪开销。**Opacity Micromaps（OMMs）** 为Alpha测试几何体提供了硬件加速支持，使得树木、栅栏等复杂透明几何体的光线追踪更加高效。此外还有**打孔板（Per-primitive）着色器标识符**和**可加载管道**等改进。

## 二、DXR与体积渲染的兼容性分析

### 2.1 体积渲染概述

体积渲染是一种用于渲染具有体积属性的介质（如云、雾、烟、火、人体组织等）的技术。与传统基于表面的渲染不同，体积渲染需要考虑光线在穿过介质时的吸收、发射和散射现象。典型的体积渲染算法包括Ray Marching（光线步进）、体光线投射（Volume Ray Casting）和基于物理的体积散射等。

体积渲染的核心挑战在于处理可能占据整个空间的无边界介质，以及需要在光线穿过的每个位置进行采样和累积计算的特性。这些特性使得体积渲染在计算上极为密集，特别适合GPU并行处理。

### 2.2 DXR对体积渲染的原生支持程度

DXR本身并未为体积渲染提供专门的API或内置支持，但通过其灵活的扩展机制，开发者完全可以在DXR框架内实现体积渲染功能。关键在于如何有效地将体积数据表示为DXR可以处理的形式。

从架构角度看，DXR的Intersection Shader机制是实现体积渲染的核心。开发者可以编写自定义的相交着色器来处理体数据的求交测试，或者更常见地，使用程序化几何体（Procedural Geometry）来表示体积边界，然后结合Ray Marching在ClosestHit或Miss着色器中执行体积采样。

另一种常见方案是将体积渲染与传统的表面光线追踪相结合：使用DXR处理场景中的实体几何体（提供反射、阴影、全局光照等效果），而使用Compute Shader处理体积效果。这种混合方法在游戏开发中尤为常见，可以在视觉质量和性能之间取得良好平衡。

值得注意的是，NVIDIA在其RTX技术栈中提供了**Volumetric Fog**（体积雾）解决方案，这可以被视为DXR生态中体积渲染的一个参考实现。该方案利用硬件加速的VDB体素数据处理能力，实现了高效的体积雾效果。

### 2.3 在DXR中实现体积渲染的技术路径

在DXR框架内实现体积渲染主要有以下几种技术路径：

**基于Intersection Shader的体数据求交**：通过编写自定义的相交着色器，可以直接在加速结构中表示体数据的边界。相交着色器负责计算光线与体数据边界盒的交点，并返回光线进入和离开体积的位置。随后可以在ClosestHit着色器中执行Ray Marching来累积体积属性。

**基于Procedural Geometry的程序化体积**：将程序化几何体添加到加速结构中，可以用于表示体积的边界表面。在ClosestHit着色器中，开发者可以实现更复杂的体积渲染逻辑，包括多层Ray Marching、体积光照计算等。

**混合渲染架构**：这是目前业界最常用的方法。使用DXR处理场景中的所有表面几何体，实现高质量的反射、阴影和全局光照；同时使用Compute Shader或Pixel Shader实现体积效果的渲染。这种方法可以充分利用DXR的硬件加速能力处理传统光线追踪效果，同时保持体积渲染的灵活性。

**内联光线追踪（Inline Raytracing）**：DXR 1.1引入的内联光线追踪允许在普通着色器中直接调用TraceRay函数，这为在Compute Shader中结合传统Ray Marching与DXR加速结构提供了便利。开发者可以使用内联光线追踪来查询场景中几何体的遮挡关系，用于体积渲染中的阴影计算等。

## 三、Acceleration Structure与NanoVDB的结合可能性

### 3.1 NanoVDB技术解析

NanoVDB是由NVIDIA开发的一种针对GPU优化的稀疏体素数据结构，最初作为OpenVDB的轻量级分支引入。NanoVDB的设计目标是提供高效的体数据存储和访问模式，特别适合GPU计算场景。

NanoVDB的核心特性包括：紧凑的内存布局采用分层结构，包括Root节点、Internal节点和Leaf节点，支持极高的空间稀疏性；GPU原生支持数据可以直接传输到GPU显存中而无需预处理或转换；多用途API支持访问密度值、法线、颜色等属性，适用于渲染和物理模拟等多种应用；快速的插入和删除操作支持动态体积数据的实时更新。

在渲染领域，NanoVDB被广泛用于体积云、烟雾、火焰等效果的实现。NVIDIA的Omniverse平台和多个游戏引擎都已集成了NanoVDB支持。

### 3.2 Acceleration Structure在体积渲染中的角色

DXR的Acceleration Structure本质上是针对三角形几何体优化的边界体积层次（BVH）结构。它通过层次化的包围盒组织来实现高效的光线-几何体求交。对于体积渲染数据，Acceleration Structure可以扮演以下角色：

**体积边界表示**：可以将体积数据的边界盒作为加速结构中的几何体添加进去。这样DXR可以快速判断光线是否穿过体积区域，避免对空白空间的无效采样。

**多层加速结构组合**：对于同时包含表面几何体和体积数据的复杂场景，可以分别构建表面几何体的加速结构和体积边界的加速结构，通过Top-Level AS将它们组合在一起。这种设计允许DXR同时处理表面光线追踪（反射、阴影）和体积效果。

**空间查询加速**：Acceleration Structure的空间查询能力可以被体积渲染利用。例如，可以使用加速结构来查询体积中的光照遮挡，或者用于体积阴影的计算。

### 3.3 NanoVDB与Acceleration Structure结合的技术方案

将NanoVDB与DXR的Acceleration Structure结合使用存在若干技术路径：

**方案一：NanoVDB作为纹理数据源，Acceleration Structure作为空间索引**

这是最直接的结合方式。在这种架构中，NanoVDB存储实际的体数据（密度、颜色、法线等），而DXR的Acceleration Structure用于快速空间查询。具体的实现流程如下：

首先，为场景中的表面几何体构建标准的Bottom-Level AS。其次，将体积边界（可以是简单的盒形或更复杂的凸包）作为程序化几何体添加到加速结构中。然后，在相应的着色器中，通过查询NanoVDB数据结构来获取体积属性：对于表面几何体，使用传统的着色器逻辑；对于体积边界，使用Ray Marching遍历NanoVDB数据结构进行采样累积。

这种方案的优点是充分利用了DXR的硬件光线追踪能力来处理场景几何体，同时NanoVDB提供了高效的体数据访问。缺点是体积边界需要预先定义，可能不够精确。

**方案二：完全基于Acceleration Structure的混合方法**

这种方法将所有渲染元素都纳入加速结构管理。对于表面几何体使用标准的三角形加速；对于体积数据，可以使用程序化几何体表示体积边界，或者使用Instance Buffer来引用体积区域。

体积渲染的计算完全在Compute Shader中执行，使用NanoVDB作为数据源。DXR的加速结构仅用于快速的光线-场景求交查询，例如计算体积中的太阳光遮挡或实现体积阴影。

这种方案的优点是架构清晰，体积渲染的灵活性不受限制。缺点是需要额外的工作来同步DXR加速结构和NanoVDB数据。

**方案三：基于内联光线追踪的深度集成**

DXR 1.1引入的内联光线追踪提供了更灵活的集成方案。开发者可以在Compute Shader中执行自定义的Ray Marching逻辑，同时使用TraceRay函数查询DXR加速结构来实现与场景几何体的交互（如体积阴影、间接光照等）。

具体实现时，在Compute Shader中为每个像素执行Ray Marching遍历NanoVDB数据；在Ray Marching的每个采样点，使用内联光线追踪查询场景几何体的遮挡情况，用于计算光照衰减；最终累积体积颜色和不透明度到输出缓冲区。

这种方案的优点是实现了DXR加速结构与NanoVDB的深度结合，可以产生更真实的体积渲染效果（包括体积阴影、多次散射等）。缺点是实现复杂度较高，需要处理两种渲染管道的同步和数据传递。

### 3.4 结合方案的性能考量

在设计NanoVDB与Acceleration Structure的结合方案时，以下性能因素需要重点考虑：

**加速结构构建成本**：DXR的Acceleration Structure构建（尤其是Bottom-Level AS）是一个相对昂贵的操作。对于动态场景，可能需要采用增量更新策略或使用Instance层级的变换更新来避免全量重建。

**内存占用**：NanoVDB和Acceleration Structure都会占用GPU显存。对于大规模场景，需要评估内存预算并可能采用流式加载策略。

**数据同步开销**：当体积数据或场景几何体发生变化时，需要确保NanoVDB数据和DXR加速结构保持一致。这可能需要额外的CPU端协调逻辑。

**GPU带宽**：体积渲染通常需要高频的体数据访问。NanoVDB的数据布局已经针对GPU访问进行了优化，但在设计结合方案时仍需注意减少不必要的数据传输。

## 四、DXR体积渲染vs传统Compute Shader Ray Marching对比分析

### 4.1 两种技术路径的概述

**DXR体积渲染方案**是指利用DXR API和硬件加速光线追踪能力来实现体积渲染效果。这种方案的核心思想是：使用Acceleration Structure组织场景几何体，使用DXR着色器（Ray Generation、ClosestHit、Miss等）执行光线追踪逻辑，在着色器中结合Ray Marching实现体积效果。

**传统Compute Shader Ray Marching方案**是指使用Compute Shader直接执行Ray Marching算法来渲染体积效果。这种方案完全在Compute Shader中实现光线与体积数据的求交和累积，不依赖DXR的光线追踪硬件。

### 4.2 性能对比分析

**光线生成与调度效率**：DXR方案具有显著优势。DXR的硬件光线调度器经过专门优化，可以高效地生成和分发大量光线。传统Compute Shader需要手动管理线程组织和光线调度，效率相对较低。特别是在处理大规模并行光线时，DXR的硬件加速优势更为明显。

**空间查询效率**：DXR的Acceleration Structure对于场景几何体的空间查询具有极高的效率。当体积渲染需要与场景几何体交互（如计算体积阴影、遮挡）时，DXR可以快速完成这些查询。传统Compute Shader通常需要使用额外的加速结构（如BVH库或网格结构）来实现类似功能，增加了开发复杂度。

**灵活性与控制**：Compute Shader方案具有更高的灵活性。开发者可以完全控制Ray Marching的每个步骤，包括步长策略、早停条件、采样模式等。DXR方案受到管道结构的限制，虽然提供了足够的灵活性，但在某些极端定制场景下可能不如Compute Shader自由。

**混合渲染支持**：DXR方案在混合渲染场景中具有天然优势。可以轻松地将体积渲染与反射、全局光照、软阴影等DXR原生效果结合。Compute Shader方案需要额外的工作来集成这些效果。

**内存效率**：Compute Shader方案通常具有更小的内存占用，因为它不需要维护Acceleration Structure等额外数据结构。DXR的加速结构虽然经过了优化，但仍然会占用可观的显存，特别是在大规模复杂场景中。

### 4.3 画质对比分析

**阴影质量**：DXR方案可以提供物理准确的体积阴影。通过硬件加速的光线追踪，可以实现高质量的软阴影和多次散射效果。Compute Shader方案需要手动实现阴影光线计算，虽然可以达成类似效果，但计算成本较高。

**全局光照集成**：DXR可以更容易地实现体积与全局光照的集成。例如，体积可以接收来自场景几何体的间接光照，这是DXR原生支持的能力。Compute Shader方案需要额外的计算来模拟间接光照。

**抗锯齿与降噪**：两种方案都需要处理采样不足导致的噪声问题。DXR可以使用硬件降噪器或NVIDIA的Optix降噪库。Compute Shader方案通常需要使用基于屏幕空间的降噪方法。

### 4.4 开发复杂度对比

**API复杂度**：DXR API相对复杂，需要理解Acceleration Structure构建、Shader Table配置、管道状态对象等概念。Compute Shader Ray Marching的实现更接近传统的图形编程模式，对有图形编程经验的开发者更加友好。

**调试工具支持**：DXR有专门的调试工具支持，包括PIX for Windows和DirectX Graphics Developer Debugger。Compute Shader的调试工具更为成熟。

**跨平台兼容性**：DXR仅在Windows平台可用（通过DirectX 12）。Compute Shader是DirectX 12和Vulkan都支持的功能，具有更好的跨平台潜力。

### 4.5 适用场景建议

**推荐使用DXR体积渲染的场景**：需要与场景几何体进行复杂交互的体积效果；需要同时实现反射、全局光照等DXR原生效果；目标平台仅为Windows且硬件支持DXR；对性能要求较高，需要利用硬件光线追踪加速。

**推荐使用Compute Shader Ray Marching的场景**：体积效果独立于场景几何体；需要高度定制化的Ray Marching策略；需要跨平台支持（Windows/Linux/macOS）；项目已有成熟的Compute Shader渲染管线。

**混合方案建议**：对于大多数实际应用，推荐采用混合方案。使用DXR处理场景中的表面几何体和传统光线追踪效果，使用Compute Shader处理体积渲染。这种方案可以兼得两种技术的优势。

## 五、现有DXR体积渲染示例与项目调研

### 5.1 Microsoft官方DXR示例

Microsoft的DirectX-Graphics-Samples GitHub仓库提供了丰富的DXR学习资源。虽然官方示例主要聚焦于基础光线追踪功能，但其中包含的若干示例对于理解DXR体积渲染具有重要参考价值：

**D3D12RaytracingHelloWorld**：作为入门级示例，展示了DXR的基本设置流程，包括加速结构构建、Shader Table配置和光线调度。理解这个示例是开发更复杂渲染效果的基础。

**D3D12RaytracingProceduralGeometry**：展示了如何使用Intersection Shader实现程序化几何体。这一技术对于在DXR中实现体积渲染具有直接参考价值，因为程序化几何体可以用于表示体积边界。

**D3D12RaytracingRealTimeDenoisedAmbientOcclusion**：虽然聚焦于环境光遮罩，但展示了如何实现实时光线追踪降噪，这对于体积渲染中的噪声控制具有参考意义。

**D3D12RaytracingMiniEngineSample**：集成了DXR的MiniEngine示例，展示了更完整的渲染管线集成方案。

### 5.2 NVIDIA相关技术与示例

作为DXR硬件支持的主要推动者，NVIDIA提供了多个与体积渲染相关的技术和示例：

**NVIDIA RTX技术演示**：NVIDIA的官方RTX演示包含多个体积渲染相关的展示，如带有体积雾和云的效果场景。这些演示虽然不一定是开源的，但展示了RTX硬件在体积渲染方面的能力。

**GVF（Grand Vehicle Framework）**：NVIDIA开源的车辆渲染框架中包含了一些体积渲染的实现细节，可以作为参考。

**Omniverse平台**：NVIDIA的Omniverse平台支持基于NanoVDB的体积渲染。虽然这不是直接的DXR示例，但提供了NanoVDB与GPU渲染结合的最佳实践。

### 5.3 社区开源项目

GitHub上存在一些开发者社区实现的DXR相关项目，虽然专门针对体积渲染的完整开源项目较少，但以下项目具有参考价值：

**DXR-Projects**：一个收集DXR各种应用示例的仓库，包含反射、阴影、全局光照等效果的实现。

**WolvenKit**：一个开源的 Witcher 3 modding工具，其中包含对体积云效果的实现参考。

### 5.4 学术研究与论文

相关的学术研究也为DXR体积渲染提供了理论支持：

光线步进与光线追踪的混合渲染技术已有大量研究论文，这些论文提供了体积渲染与表面光线追踪结合的算法基础。

基于物理的体积散射模型研究为体积渲染的着色计算提供了理论基础。

### 5.5 商业引擎支持情况

主流游戏引擎对DXR体积渲染的支持状况如下：

**Unreal Engine 5**：UE5已全面支持DXR，包括体积雾、体积云等效果。Epic Games展示了使用DXR实现的高质量体积渲染效果。

**Unity HDRP**：Unity的High Definition Render Pipeline支持DXR和体积渲染。Unity的体积渲染实现可以作为理解体积渲染工程实践的参考。

这些商业引擎的实现虽然不开源，但其背后的技术原理和实现思路对开发自有DXR体积渲染系统具有重要参考价值。

## 六、可行性评估与建议

### 6.1 技术可行性评估

**DXR体积渲染的技术可行性：高**

基于前述分析，使用DXR实现体积渲染是完全可行的。核心原因包括：DXR提供了足够的API灵活性来支持体积渲染所需的自定义着色器逻辑；硬件加速的光线追踪可以显著提升体积渲染中与场景几何体交互的性能；NVIDIA等厂商的硬件和软件栈已经验证了DXR体积渲染的可行性。

**Acceleration Structure与NanoVDB结合的技术可行性：高**

两者结合的技术路径已经明确，多种实现方案都经过了理论验证。NVIDIA的Omniverse平台已经展示了类似的结合方案。这种结合可以产生高质量的体积渲染效果，同时保持与DXR生态的兼容性。

### 6.2 性能可行性评估

DXR体积渲染的性能表现取决于多种因素，包括硬件支持（RTX系列GPU具有专门的光线追踪硬件单元）、场景复杂度（加速结构构建和查询的开销）以及体积数据规模（NanoVDB的访问效率）。

在现代RTX GPU上，DXR体积渲染可以实现实时或接近实时的帧率。对于较旧的硬件或更复杂的场景，可能需要采用降采样、降噪或LOD策略来维持可交互的帧率。

### 6.3 开发成本评估

开发DXR体积渲染系统需要投入相当的开发资源：

**学习曲线**：需要理解DXR API、Acceleration Structure原理、HLSL光线追踪着色器编写等专业知识。

**开发时间**：根据项目复杂度，从头构建一个功能完整的DXR体积渲染系统可能需要数月的工作量。

**维护成本**：需要跟进DXR API的演进和硬件驱动程序的更新。

### 6.4 建议的技术路线

基于本次调研，对于VolumeRender项目的DXR体积渲染实现，提出以下建议：

**短期目标**：实现基础功能

- 首先在DXR框架下实现基本的体积渲染效果，使用简单的体积边界
- 集成NanoVDB作为体数据源
- 实现基本的体积光照和阴影计算

**中期目标**：优化与增强

- 实现基于Acceleration Structure的空间查询优化
- 集成降噪算法提升画质
- 优化加速结构更新策略支持动态场景

**长期目标**：完善与集成

- 实现完整的体积渲染效果链（云、雾、烟等）
- 与场景的DXR光线追踪效果（反射、全局光照）深度集成
- 针对不同硬件平台进行性能调优

### 6.5 风险与挑战

需要注意的风险和挑战包括：

**硬件兼容性**：DXR需要支持光线追踪的硬件（RTX系列或同等性能的AMD/Intel显卡）。对于较老的硬件或非RTX显卡，性能可能不理想。

**驱动稳定性**：DXR作为一个相对较新的API，驱动程序可能存在稳定性问题或兼容性问题。

**调试复杂性**：光线追踪着色器的调试比传统着色器更加复杂，需要借助专门的调试工具。

**生态系统变化**：DXR API和生态系统仍在快速发展中，需要持续跟进最新的技术发展。

## 七、结论

综合以上分析，DXR完全具备支持体积渲染的能力，并且与NanoVDB的结合在技术上是可行且有价值的。DXR体积渲染相对于传统Compute Shader Ray Marching在处理与场景几何体的交互时具有明显优势，但在完全自定义的体积效果实现上灵活性略低。

对于VolumeRender项目，建议采用混合渲染架构：利用DXR处理场景几何体的光线追踪效果，同时使用Compute Shader处理NanoVDB体积数据的渲染，两通过内联光线追踪或混合管道进行深度集成。这种方案可以在视觉效果和性能之间取得最佳平衡。

现有资源和示例虽不完全针对体积渲染，但提供了足够的技术基础来开发自定义的DXR体积渲染系统。建议在开发过程中参考Microsoft官方示例、NVIDIA技术文档以及商业引擎（如UE5）的实现思路。