pytorch 标签 - Gitee.com

v6.0.0-pytorch2.4.0

### 一 新增说明
1. 新增特性
• Ascend Extension for PyTorch 新增细粒度绑核，进一步优化算子下发性能
• Ascend Extension for PyTorch 支持设备同步超时时间配置，提升训练灵活度和dfx能力
• Ascend Extension for PyTorch 新增支持通信域单独设置HCCL_BUFFERSIZE,提升集合通信效率
• Ascend Extension for PyTorch 新增支持同步流下发接口，为训练任务卡住时提供逃生通道，保证ckpt能正常保存

### 二 删除说明
无

### 三 变更说明
1．接口变更说明
• 虚拟内存开关PYTORCH_NPU_ALLOC_CONF=expandable_segments:True/False 在本次release中仍然保持为False
• 新增支持pg_options配置hccl通信参数hccl_buffer_size 
• 新增支持npu_gelu, npu_group_quant, torch_npu.profiler.dynamic_profile, torch.npu.SyncLaunchStream
• npu_dynamic_quant：新增可选入参group_index，dst_type; npu_weight_quant_batchmatmu: 新增可选参数inner_precise; npu_weight_quant_batchmatmu: 新增可选参数inner_precise; torch_npu.contrib.module.LinearWeightQuant: 新增可选参数inner_precise
• 新增环境变量ACL_DEVICE_SYNC_TIMEOUT，支持device同步超时手动配置
• 新增环境变量INF_NAN_MODE_FORCE_DISABLE，开启后强制关闭INF_NAN模式

### 四 已知问题
• 无

### 五 Bugfix
• 修复sendrecv初始化时卡死问题，支持P2P通信域独立建链

### 六 特殊声明
• 虚拟内存与单进程多卡需要在Ascend HDK 24.1.RC3以上的版本才能直接使用，其他版本不能共同使用
• AtlasA2训练产品，关闭INF_NAN模式会产生精度问题，所以强制拦截，若要强制关闭IF_NAN模式，则需开启环境变量INF_NAN_MODE_FORCE_DISABLE，但模型仍然可能会产生精度问题

### 七 版本配套关系
MindSpeed-Core branch： [v1.0.0_core_r0.7.0](https://gitee.com/ascend/MindSpeed/releases/tag/v1.0.0_core_r0.7.0), [v1.0.0_core_r0.6.0](https://gitee.com/ascend/MindSpeed/releases/tag/v1.0.0_core_r0.6.0)
MindSpeed-MM branch： [v1.0.0](https://gitee.com/ascend/MindSpeed-LLM/releases/tag/v1.0.0)
MindSpedd-LLM branch： [v1.0.0](https://gitee.com/ascend/MindSpeed-LLM/releases/tag/v1.0.0)
Mxdriving branch：[branch_v6.0.0](https://gitee.com/ascend/mxDriving/releases/tag/branch_v6.0.0)

86d81de

2024-12-25 15:48

下载查看发行版

v6.0.0-pytorch2.3.1

### 一 新增说明
1. 新增特性
• Ascend Extension for PyTorch 新增细粒度绑核，进一步优化算子下发性能
• Ascend Extension for PyTorch 支持设备同步超时时间配置，提升训练灵活度和dfx能力
• Ascend Extension for PyTorch 新增支持通信域单独设置HCCL_BUFFERSIZE,提升集合通信效率
• Ascend Extension for PyTorch 新增支持同步流下发接口，为训练任务卡住时提供逃生通道，保证ckpt能正常保存

### 二 删除说明
无

### 三 变更说明
1．接口变更说明
• 虚拟内存开关PYTORCH_NPU_ALLOC_CONF=expandable_segments:True/False 在本次release中仍然保持为False
• 新增支持pg_options配置hccl通信参数hccl_buffer_size 
• 新增支持npu_gelu, npu_group_quant, torch_npu.profiler.dynamic_profile, torch.npu.SyncLaunchStream
• npu_dynamic_quant：新增可选入参group_index，dst_type; npu_weight_quant_batchmatmu: 新增可选参数inner_precise; npu_weight_quant_batchmatmu: 新增可选参数inner_precise; torch_npu.contrib.module.LinearWeightQuant: 新增可选参数inner_precise
• 新增环境变量ACL_DEVICE_SYNC_TIMEOUT，支持device同步超时手动配置
• 新增环境变量INF_NAN_MODE_FORCE_DISABLE，开启后强制关闭INF_NAN模式

### 四 已知问题
• 无

### 五 Bugfix
• 修复sendrecv初始化时卡死问题，支持P2P通信域独立建链

### 六 特殊声明
• 虚拟内存与单进程多卡需要在Ascend HDK 24.1.RC3以上的版本才能直接使用，其他版本不能共同使用
• AtlasA2训练产品，关闭INF_NAN模式会产生精度问题，所以强制拦截，若要强制关闭IF_NAN模式，则需开启环境变量INF_NAN_MODE_FORCE_DISABLE，但模型仍然可能会产生精度问题

### 七 版本配套关系
MindSpeed-Core branch： [v1.0.0_core_r0.7.0](https://gitee.com/ascend/MindSpeed/releases/tag/v1.0.0_core_r0.7.0), [v1.0.0_core_r0.6.0](https://gitee.com/ascend/MindSpeed/releases/tag/v1.0.0_core_r0.6.0)
MindSpeed-MM branch： [v1.0.0](https://gitee.com/ascend/MindSpeed-LLM/releases/tag/v1.0.0)
MindSpedd-LLM branch： [v1.0.0](https://gitee.com/ascend/MindSpeed-LLM/releases/tag/v1.0.0)
Mxdriving branch：[branch_v6.0.0](https://gitee.com/ascend/mxDriving/releases/tag/branch_v6.0.0)

b697691

2024-12-25 15:48

下载查看发行版

v6.0.0-pytorch2.1.0

### 一 新增说明
1. 新增特性
• Ascend Extension for PyTorch 新增细粒度绑核，进一步优化算子下发性能
• Ascend Extension for PyTorch 支持设备同步超时时间配置，提升训练灵活度和dfx能力
• Ascend Extension for PyTorch 新增支持通信域单独设置HCCL_BUFFERSIZE,提升集合通信效率
• Ascend Extension for PyTorch 新增支持同步流下发接口，为训练任务卡住时提供逃生通道，保证ckpt能正常保存

### 二 删除说明
无

### 三 变更说明
1．接口变更说明
• 虚拟内存开关PYTORCH_NPU_ALLOC_CONF=expandable_segments:True/False 在本次release中仍然保持为False
• 新增支持pg_options配置hccl通信参数hccl_buffer_size 
• 新增支持npu_gelu, npu_group_quant, torch_npu.profiler.dynamic_profile, torch.npu.SyncLaunchStream
• npu_dynamic_quant：新增可选入参group_index，dst_type; npu_weight_quant_batchmatmu: 新增可选参数inner_precise; npu_weight_quant_batchmatmu: 新增可选参数inner_precise; torch_npu.contrib.module.LinearWeightQuant: 新增可选参数inner_precise
• 新增环境变量ACL_DEVICE_SYNC_TIMEOUT，支持device同步超时手动配置
• 新增环境变量INF_NAN_MODE_FORCE_DISABLE，开启后强制关闭INF_NAN模式

### 四 已知问题
• 无

### 五 Bugfix
• 修复sendrecv初始化时卡死问题，支持P2P通信域独立建链

### 六 特殊声明
• 虚拟内存与单进程多卡需要在Ascend HDK 24.1.RC3以上的版本才能直接使用，其他版本不能共同使用
• AtlasA2训练产品，关闭INF_NAN模式会产生精度问题，所以强制拦截，若要强制关闭IF_NAN模式，则需开启环境变量INF_NAN_MODE_FORCE_DISABLE，但模型仍然可能会产生精度问题

### 七 版本配套关系
MindSpeed-Core branch： [v1.0.0_core_r0.7.0](https://gitee.com/ascend/MindSpeed/releases/tag/v1.0.0_core_r0.7.0), [v1.0.0_core_r0.6.0](https://gitee.com/ascend/MindSpeed/releases/tag/v1.0.0_core_r0.6.0)
MindSpeed-MM branch： [v1.0.0](https://gitee.com/ascend/MindSpeed-LLM/releases/tag/v1.0.0)
MindSpedd-LLM branch： [v1.0.0](https://gitee.com/ascend/MindSpeed-LLM/releases/tag/v1.0.0)
Mxdriving branch：[branch_v6.0.0](https://gitee.com/ascend/mxDriving/releases/tag/branch_v6.0.0)

a22ef54

2024-12-25 15:19

下载查看发行版

v6.0.0.alpha003-pytorch2.4.0

de5c4c5

2024-12-10 20:41

下载

v6.0.0.alpha003-pytorch2.3.1

9f3d2c5

2024-12-10 20:41

下载

v6.0.0.alpha003-pytorch2.1.0

8893fd4

2024-12-10 19:46

下载

v6.0.0.alpha002-pytorch2.4.0

e76c269

2024-11-12 00:01

下载

v6.0.0.alpha002-pytorch2.3.1

a206769

2024-11-12 00:01

下载

v6.0.0.alpha002-pytorch2.1.0

6480301

2024-11-11 23:46

下载

v6.0.0.alpha001-pytorch2.5.1

a3b75fc

2024-11-08 06:12

下载查看发行版

v6.0.rc3-pytorch2.4.0

### 新增特性
• Ascend Extension for PyTorch 新增一级流水优化，进一步优化下发性能
• Ascend Extension for PyTorch 新增支持foreach优化器，相比foreach性能有提升或不变
• Ascend Extension for PyTorch 支持基于ranktable file进行集合通信域建链，可缩短在大集群下通信域建链的耗时
• Ascend Extension for PyTorch PyTorch 2.1及以上版本支持TCPStore建链优化，可缩短TCPStore建链的耗时

### 接口变更说明
• 虚拟内存开关PYTORCH_NPU_ALLOC_CONF=expandable_segments:True/False 在本次release中仍然保持为False
• 新增支持torch.conj、torch.polar接口，torch.isin新增支持双tensor输入
• npu_mm_all_reduce_base新增可选入参comm_quant_scale_1，comm_quant_scale_2
• 删除接口npu_ifmr、npu_masked_fill_range、npu_normalize_batch、npu_rotated_box_decode、npu_rotated_box_encode、npu_scatter、npu_stride_add

### Bugfix
• 修复虚拟内存开启和单进程多卡功能无法共用问题，但需使用Ascend HDK 24.1.RC3及以上版本

### 特殊声明
虚拟内存与单进程多卡需要在Ascend HDK 24.0.RC3以上的版本才能直接使用，其他版本不能共同使用

### 版本配套关系
MindSpeed branch：[v1.0.RC3_core_r0.6.0](https://gitee.com/ascend/MindSpeed/tree/1.0.RC3_core_r0.6.0/)、[v1.0.RC3_core_r0.7.0](https://gitee.com/ascend/MindSpeed/tree/1.0.RC3_core_r0.7.0)
MindSpeed-MM branch：[v1.0.RC3.0](https://gitee.com/ascend/MindSpeed-MM/tree/v1.0.RC3.0)
ModelLink branch：[v1.0.RC3.0](https://gitee.com/ascend/ModelLink/tree/v1.0.RC3.0)
Mxdriving branch：[branch_v6.0.0-RC3](https://gitee.com/ascend/mxDriving/tree/branch_v6.0.0-RC3)

5762ec6

2024-10-28 17:26

下载查看发行版

v6.0.rc3-pytorch2.3.1

### 新增特性
• Ascend Extension for PyTorch 新增一级流水优化，进一步优化下发性能
• Ascend Extension for PyTorch 新增支持foreach优化器，相比foreach性能有提升或不变
• Ascend Extension for PyTorch 支持基于ranktable file进行集合通信域建链，可缩短在大集群下通信域建链的耗时
• Ascend Extension for PyTorch PyTorch 2.1及以上版本支持TCPStore建链优化，可缩短TCPStore建链的耗时

### 接口变更说明
• 虚拟内存开关PYTORCH_NPU_ALLOC_CONF=expandable_segments:True/False 在本次release中仍然保持为False
• 新增支持torch.conj、torch.polar接口，torch.isin新增支持双tensor输入
• npu_mm_all_reduce_base新增可选入参comm_quant_scale_1，comm_quant_scale_2
• 删除接口npu_ifmr、npu_masked_fill_range、npu_normalize_batch、npu_rotated_box_decode、npu_rotated_box_encode、npu_scatter、npu_stride_add

### Bugfix
• 修复虚拟内存开启和单进程多卡功能无法共用问题，但需使用Ascend HDK 24.1.RC3及以上版本

### 特殊声明
虚拟内存与单进程多卡需要在Ascend HDK 24.0.RC3以上的版本才能直接使用，其他版本不能共同使用

### 版本配套关系
MindSpeed branch：[v1.0.RC3_core_r0.6.0](https://gitee.com/ascend/MindSpeed/tree/1.0.RC3_core_r0.6.0/)、[v1.0.RC3_core_r0.7.0](https://gitee.com/ascend/MindSpeed/tree/1.0.RC3_core_r0.7.0)
MindSpeed-MM branch：[v1.0.RC3.0](https://gitee.com/ascend/MindSpeed-MM/tree/v1.0.RC3.0)
ModelLink branch：[v1.0.RC3.0](https://gitee.com/ascend/ModelLink/tree/v1.0.RC3.0)
Mxdriving branch：[branch_v6.0.0-RC3](https://gitee.com/ascend/mxDriving/tree/branch_v6.0.0-RC3)

6ec1fd9

2024-10-28 17:26

下载查看发行版

v6.0.rc3-pytorch2.1.0

1fa937a

2024-10-28 17:26

下载查看发行版

v6.0.0.alpha001-pytorch2.4.0

a2c3f9d

2024-10-07 17:00

下载

v6.0.0.alpha001-pytorch2.3.1