跳转至

Genesis 操作基准测试报告

生成时间:2025-08-15 16:07:03

系统信息

  • GPU:NVIDIA A100-SXM4-40GB
  • 内存:39.4 GB
  • 理论带宽:1555 GB/s
  • 多处理器:108

测试配置

  • 模式:快速
  • 计时:实际
  • 数据类型:float32
  • 类别:element

性能摘要

指标
总测试数 28
成功测试 28
失败测试 0
成功率 100.0%
平均加速比 0.63x
中位数加速比 0.19x
最佳加速比 3.62x
最差加速比 0.11x

按类别的性能

类别 测试数 成功率 平均加速比 最佳加速比 状态
element 28 100.0% 0.63x 3.62x 🟡 良好

详细结果

操作 类别 形状 PyTorch (ms) Genesis (ms) 加速比 带宽 (GB/s) 状态
cos element 256×256 0.039 0.011 3.62x 51.2 🟢 优秀
add_scalar element 512×512 0.024 0.011 2.20x 186.2 🟢 优秀
sub element 256×256 0.021 0.010 2.15x 76.8 🟢 优秀
negate element 256×256 0.021 0.010 2.12x 51.2 🟢 优秀
log element 256×256 0.014 0.010 1.43x 51.2 🟢 优秀
multiply element 256×256 0.012 0.010 1.22x 76.8 🟢 优秀
divide_scalar element 256×256 0.010 0.010 0.99x 51.2 🟢 优秀
sqrt element 256×256 0.020 0.041 0.49x 51.2 🔴 较差
mul_scalar element 256×256 0.024 0.107 0.23x 4.9 🔴 较差
add_scalar element 256×256 0.024 0.108 0.22x 4.9 🔴 较差
mul_scalar element 512×512 0.026 0.121 0.21x 17.7 🔴 较差
add element 256×256 0.016 0.076 0.21x 8.2 🔴 较差
divide element 256×256 0.017 0.089 0.19x 6.9 ❌ 严重
sin element 256×256 0.020 0.106 0.19x 5.0 ❌ 严重
exp element 256×256 0.020 0.106 0.19x 5.0 ❌ 严重
sin element 512×512 0.013 0.069 0.19x 18.1 ❌ 严重
negate element 512×512 0.011 0.060 0.18x 186.2 ❌ 严重
sqrt element 512×512 0.021 0.117 0.18x 18.2 ❌ 严重
exp element 512×512 0.014 0.079 0.18x 21.2 ❌ 严重
multiply element 512×512 0.020 0.116 0.17x 16.4 ❌ 严重
log element 512×512 0.020 0.116 0.17x 18.3 ❌ 严重
pow_scalar element 256×256 0.023 0.139 0.16x 3.8 ❌ 严重
add element 512×512 0.021 0.132 0.16x 24.4 ❌ 严重
pow_scalar element 512×512 0.011 0.068 0.16x 186.2 ❌ 严重
divide element 512×512 0.017 0.130 0.13x 24.5 ❌ 严重
divide_scalar element 512×512 0.011 0.083 0.13x 17.1 ❌ 严重
sub element 512×512 0.015 0.132 0.11x 24.4 ❌ 严重
cos element 512×512 0.013 0.120 0.11x 17.8 ❌ 严重

性能分布

  • 🟢 优秀 (≥90%):7 个测试 (25.0%)
  • 🟡 良好 (70-90%):0 个测试 (0.0%)
  • 🟠 一般 (50-70%):0 个测试 (0.0%)
  • 🔴 较差 (20-50%):5 个测试 (17.9%)
  • 严重 (<20%):16 个测试 (57.1%)

前 10 名表现

排名 操作 形状 加速比 状态
1 cos 256×256 3.62x 🟢 优秀
2 add_scalar 512×512 2.20x 🟢 优秀
3 sub 256×256 2.15x 🟢 优秀
4 negate 256×256 2.12x 🟢 优秀
5 log 256×256 1.43x 🟢 优秀
6 multiply 256×256 1.22x 🟢 优秀
7 divide_scalar 256×256 0.99x 🟢 优秀
8 sqrt 256×256 0.49x 🔴 较差
9 mul_scalar 256×256 0.23x 🔴 较差
10 add_scalar 256×256 0.22x 🔴 较差