Genesis 操作基准测试报告¶
生成时间:2025-08-15 16:07:03
系统信息¶
- GPU:NVIDIA A100-SXM4-40GB
- 内存:39.4 GB
- 理论带宽:1555 GB/s
- 多处理器:108
测试配置¶
- 模式:快速
- 计时:实际
- 数据类型:float32
- 类别:element
性能摘要¶
指标 | 值 |
---|---|
总测试数 | 28 |
成功测试 | 28 |
失败测试 | 0 |
成功率 | 100.0% |
平均加速比 | 0.63x |
中位数加速比 | 0.19x |
最佳加速比 | 3.62x |
最差加速比 | 0.11x |
按类别的性能¶
类别 | 测试数 | 成功率 | 平均加速比 | 最佳加速比 | 状态 |
---|---|---|---|---|---|
element | 28 | 100.0% | 0.63x | 3.62x | 🟡 良好 |
详细结果¶
操作 | 类别 | 形状 | PyTorch (ms) | Genesis (ms) | 加速比 | 带宽 (GB/s) | 状态 |
---|---|---|---|---|---|---|---|
cos | element | 256×256 | 0.039 | 0.011 | 3.62x | 51.2 | 🟢 优秀 |
add_scalar | element | 512×512 | 0.024 | 0.011 | 2.20x | 186.2 | 🟢 优秀 |
sub | element | 256×256 | 0.021 | 0.010 | 2.15x | 76.8 | 🟢 优秀 |
negate | element | 256×256 | 0.021 | 0.010 | 2.12x | 51.2 | 🟢 优秀 |
log | element | 256×256 | 0.014 | 0.010 | 1.43x | 51.2 | 🟢 优秀 |
multiply | element | 256×256 | 0.012 | 0.010 | 1.22x | 76.8 | 🟢 优秀 |
divide_scalar | element | 256×256 | 0.010 | 0.010 | 0.99x | 51.2 | 🟢 优秀 |
sqrt | element | 256×256 | 0.020 | 0.041 | 0.49x | 51.2 | 🔴 较差 |
mul_scalar | element | 256×256 | 0.024 | 0.107 | 0.23x | 4.9 | 🔴 较差 |
add_scalar | element | 256×256 | 0.024 | 0.108 | 0.22x | 4.9 | 🔴 较差 |
mul_scalar | element | 512×512 | 0.026 | 0.121 | 0.21x | 17.7 | 🔴 较差 |
add | element | 256×256 | 0.016 | 0.076 | 0.21x | 8.2 | 🔴 较差 |
divide | element | 256×256 | 0.017 | 0.089 | 0.19x | 6.9 | ❌ 严重 |
sin | element | 256×256 | 0.020 | 0.106 | 0.19x | 5.0 | ❌ 严重 |
exp | element | 256×256 | 0.020 | 0.106 | 0.19x | 5.0 | ❌ 严重 |
sin | element | 512×512 | 0.013 | 0.069 | 0.19x | 18.1 | ❌ 严重 |
negate | element | 512×512 | 0.011 | 0.060 | 0.18x | 186.2 | ❌ 严重 |
sqrt | element | 512×512 | 0.021 | 0.117 | 0.18x | 18.2 | ❌ 严重 |
exp | element | 512×512 | 0.014 | 0.079 | 0.18x | 21.2 | ❌ 严重 |
multiply | element | 512×512 | 0.020 | 0.116 | 0.17x | 16.4 | ❌ 严重 |
log | element | 512×512 | 0.020 | 0.116 | 0.17x | 18.3 | ❌ 严重 |
pow_scalar | element | 256×256 | 0.023 | 0.139 | 0.16x | 3.8 | ❌ 严重 |
add | element | 512×512 | 0.021 | 0.132 | 0.16x | 24.4 | ❌ 严重 |
pow_scalar | element | 512×512 | 0.011 | 0.068 | 0.16x | 186.2 | ❌ 严重 |
divide | element | 512×512 | 0.017 | 0.130 | 0.13x | 24.5 | ❌ 严重 |
divide_scalar | element | 512×512 | 0.011 | 0.083 | 0.13x | 17.1 | ❌ 严重 |
sub | element | 512×512 | 0.015 | 0.132 | 0.11x | 24.4 | ❌ 严重 |
cos | element | 512×512 | 0.013 | 0.120 | 0.11x | 17.8 | ❌ 严重 |
性能分布¶
- 🟢 优秀 (≥90%):7 个测试 (25.0%)
- 🟡 良好 (70-90%):0 个测试 (0.0%)
- 🟠 一般 (50-70%):0 个测试 (0.0%)
- 🔴 较差 (20-50%):5 个测试 (17.9%)
- ❌ 严重 (<20%):16 个测试 (57.1%)
前 10 名表现¶
排名 | 操作 | 形状 | 加速比 | 状态 |
---|---|---|---|---|
1 | cos | 256×256 | 3.62x | 🟢 优秀 |
2 | add_scalar | 512×512 | 2.20x | 🟢 优秀 |
3 | sub | 256×256 | 2.15x | 🟢 优秀 |
4 | negate | 256×256 | 2.12x | 🟢 优秀 |
5 | log | 256×256 | 1.43x | 🟢 优秀 |
6 | multiply | 256×256 | 1.22x | 🟢 优秀 |
7 | divide_scalar | 256×256 | 0.99x | 🟢 优秀 |
8 | sqrt | 256×256 | 0.49x | 🔴 较差 |
9 | mul_scalar | 256×256 | 0.23x | 🔴 较差 |
10 | add_scalar | 256×256 | 0.22x | 🔴 较差 |