10 Intel Arc 370M分析

Intel Arc GPU 不久前就已经发布了,但直到现在我们才有机会分析它的性能。由于 VK 在 Intel GPU 上的性能较低,我们将使用 D3D12 API 进行测试。Arc GPU 的驱动程序版本为 30.0.101.1736,而 Xe GPU 的驱动程序版本为 30.0.101.3109。主要关注点是与其他 GPU 相比的原始 Arc GPU 性能。我们可以轻松地推断这些数字,以获得即将推出的 Intel Arc 770M 的大致性能,该处理器具有 4 个内核和更快的内存。所以只需将结果乘以(除)4即可。

我们将在第一次测试中看到新 GPU 如何处理三角形和批次。这与我们之前使用的测试相同。Meshlet 尺寸为 69/169。测试渲染 262K Meshlet。每帧几何体总量为 20M 个顶点和 40M 个三角形。

单拨码网格索引MDI/ICB网格着色器计算着色器
英特尔Arc A370M3.2B1.0B2.9B770M3.0B
英特尔 Iris Xe(第 12 名)1.6B450M1.6B2.9B
英特尔 Iris Xe(第 11 位)1.2B370M400B2.3B
苹果M1 Max8.3B3.5B2.2B12.3B
苹果M11.4B648M1.0B2.7B
GeForce 2080 钛15.5B5.2B17.5B14.3B17.8B
英伟达精视10603.8B1.2B4.0B4.5B
Radeon 6700 XT14.2B6.2B6.3B4.6B17.0B
Radeon 5600 M5.0B2.4B2.1B7.4B
Radeon 4800H1.2B530M1.2B1.5B
肾上腺素730890M287M120M423M
  • 单位是每秒十亿或百万个三角形。
  • 单个 DIP正在使用 u32 索引绘制 81 个实例,而无需进入 Meshlet 级别。
  • 网格索引是这篇文章中的网格着色器模拟技巧。
  • MDI/ICB是多绘制间接或间接命令缓冲区。
  • Mesh Shader使用的是 Mesh Shaders 渲染模式。
  • 计算着色器正在使用计算着色器光栅化。

Intel Arc 370M 在三角形光栅化吞吐量方面提供了 2 倍的性能提升。但遗憾的是,Compute Shader 计算量并没有增加,Arc GPU 表现出与 Xe GPU 几乎相同的结果。与使用 DDR4 的第 11 代相比,第 12 代 Xe GPU 还受益于增加的 DDR5 内存带宽。新一代 Xe 的 MDI 性能也大幅提升 4 倍。

Mesh Shader渲染性能不好。GPU 损失了理论三角形吞吐量的 4 倍。网格着色器模拟技巧也比 Intel Arc 上的网格着色器更好。

响应式图像
响应式图像

第二个测试是使用 CS 和 API (HW) 渲染模式的光线追踪测试。

静态CSAPI静态CS动态快速API动态快速CS动态完整版API动态完整
英特尔Arc A370M15.0 帧/秒142帧/秒23.8 帧/秒(8 毫秒/15 毫秒)62.3 帧/秒(8 毫秒/3 毫秒)12.0 帧/秒(53 毫秒/12 毫秒)20.8 帧/秒(40 毫秒/3 毫秒)
英特尔 Iris Xe(第 12 名)11.5 帧/秒12.5 帧/秒(14 毫秒/56 毫秒)7.4 帧/秒(76 毫秒/32 毫秒)
英特尔 Iris Xe(第 11 位)10.1 帧/秒8.8 帧/秒(17 毫秒/60 毫秒)5.4 帧/秒(101 毫秒/50 毫秒)
苹果M1 Max68.4 帧/秒63.9 帧/秒34.8 帧/秒28.7 帧/秒28.5 帧/秒2.7 帧率
苹果M116.5 帧/秒16.5 帧/秒11.3 帧率14.3 帧率7.3 帧率1.7 帧率
GeForce 2080 钛74.2 帧/秒803帧/秒74.5 帧/秒(2 毫秒/8 毫秒)353 帧/秒(1.1 毫秒/0.6 毫秒)58.1 帧/秒(8.8 毫秒/5 毫秒)61.2 帧/秒(15 毫秒/0.5 毫秒)
英伟达精视106018.0 帧/秒16.8 帧/秒(10 毫秒/35 毫秒)13.7 帧/秒(32 毫秒/26 毫秒)
Radeon 6700 XT134帧/秒368帧/秒62.7 帧/秒(3 毫秒/10 毫秒)155 帧/秒(5 毫秒/1 毫秒)50.4 帧/秒(9 毫秒/8 毫秒)22 帧/秒(44 毫秒/1 毫秒)
Radeon 5600 M73.3 帧/秒35.2 帧/秒(6 毫秒/16 毫秒)25.7 帧/秒(19 毫秒/13 毫秒)
Radeon 4800H11.7 帧率7.5 帧/秒(35 毫秒/66 毫秒)5.2 帧/秒(109 毫秒/52 毫秒)
  • CS Static是我们帖子中的计算着色器光线追踪(总共 40M 个三角形)。
  • CS Dynamic Fast是本文中的计算着色器光线追踪(总共 420 万个三角形和 290 万个顶点)。
  • CS Dynamic Full与CS Dynamic Fast相同,但具有完整的 BLAS 重建而不是快速 BVH 更新。
  • API StaticAPI Dynamic FastAPI Dynamic Full使用 API 提供的光线追踪。
  • 计时显示 BLAS 更新/场景跟踪时间。

在这些测试中,新的 Arc 架构在线程差异较大的负载上展示了更好的计算性能。与计算着色器实现相比,硬件光线追踪速率非常高。根据结果​​推断,Arc 770M 的 RT 性能应该优于 AMD Radeon GPU 的 RT 性能。

让我们看看 BLAS 和 Scratch 缓冲区需要多少内存:

静态BLAS静电划痕动态BLAS动态划痕
英特尔Arc A370M66MB23MB642MB280MB
苹果M182MB88MB355MB382MB
GeForce 2080 钛33MB10MB255MB16MB
Radeon 6700 XT77MB105MB656MB887MB
响应式图像
响应式图像

新款英特尔 GPU 的数据看起来很有希望。但 GravityMark 基准测试在 D3D12(光栅和 RT)API 上崩溃,而 Arc 应该在其中展示其潜力。但事实上,我们的结果比英特尔 Xe 一代还差,甚至比苹果 A15 还差。希望它能通过新的驱动程序更新得到改进,因为目前英特尔 Xe 比英特尔 Arc 更快。

Intel Arc和Intel Xe在计算性能上没有太大差异。因此驱动程序可能可以使用两个 GPU 进行渲染。就像模拟在不同 GPU 上工作的多个计算队列一样。如果这是真的,英特尔的驱动团队还有很多工作要做。

更新:具有 GPU 指定计数的 ExecuteIndirect() 会使 D3D12 驱动程序崩溃。CPU-GPU 同步解决方法(计数参数获取)允许在 D3D12 上运行 GravityMark。但不幸的是,这种解决方法并不能帮助 Vulkan 达到与 D3D12 一样快的速度。

更新 2:得益于英特尔开发者关系,简单的引擎优化(灵活的子组大小)可在 Vulkan 中的英特尔 Arc GPU 上提供超过 200% 的性能提升。

响应式图像
响应式图像
响应式图像

留下评论

您的邮箱地址不会被公开。 必填项已用 * 标注