WIP

Binyang2014 · Binyang2014 · commit 98dec89dc61b · 2025-11-25T04:17:17.000Z
diff --git a/apps/nccl/src/allgather.cu b/apps/nccl/src/allgather.cu
@@ -116,8 +116,9 @@ std::shared_ptr<mscclpp::Algorithm> AllgatherAlgo6::build() {
       [self](std::shared_ptr<mscclpp::Communicator> comm) { self->initialize(comm); },
       [self](const std::shared_ptr<mscclpp::AlgorithmCtx> ctx, const void* input, void* output, size_t inputSize,
              [[maybe_unused]] size_t outputSize, [[maybe_unused]] mscclpp::DataType dtype, cudaStream_t stream,
-             std::unordered_map<std::string, uintptr_t>& extras) {
-        return self->allgatherKernelFunc(ctx, input, output, inputSize, stream, extras);
+             std::unordered_map<std::string, uintptr_t>& extras) -> mscclpp::CommResult {
+        ncclResult_t res = self->allgatherKernelFunc(ctx, input, output, inputSize, stream, extras);
+        return res == ncclSuccess ? mscclpp::CommResult::commSuccess : mscclpp::CommResult::commInternalError;
       },
       [self](std::shared_ptr<mscclpp::Communicator> comm, const void* input, void* output, size_t inputSize,
              [[maybe_unused]] size_t outputSize,
@@ -195,8 +196,9 @@ std::shared_ptr<mscclpp::Algorithm> AllgatherAlgo8::build() {
       [self](std::shared_ptr<mscclpp::Communicator> comm) { self->initialize(comm); },
       [self](const std::shared_ptr<mscclpp::AlgorithmCtx> ctx, const void* input, void* output, size_t inputSize,
              [[maybe_unused]] size_t outputSize, [[maybe_unused]] mscclpp::DataType dtype, cudaStream_t stream,
-             std::unordered_map<std::string, uintptr_t>& extras) {
-        return self->allgatherKernelFunc(ctx, input, output, inputSize, stream, extras);
+             std::unordered_map<std::string, uintptr_t>& extras) -> mscclpp::CommResult {
+        ncclResult_t res = self->allgatherKernelFunc(ctx, input, output, inputSize, stream, extras);
+        return res == ncclSuccess ? mscclpp::CommResult::commSuccess : mscclpp::CommResult::commInternalError;
       },
       [self](std::shared_ptr<mscclpp::Communicator> comm, const void* input, void* output, size_t inputSize,
              [[maybe_unused]] size_t outputSize,
diff --git a/apps/nccl/src/allreduce.cu b/apps/nccl/src/allreduce.cu
@@ -315,8 +315,9 @@ std::shared_ptr<mscclpp::Algorithm> AllreducePacket::build() {
       [self](std::shared_ptr<mscclpp::Communicator> comm) { self->initialize(comm); },
       [self](const std::shared_ptr<mscclpp::AlgorithmCtx> ctx, const void* input, void* output, size_t inputSize,
              [[maybe_unused]] size_t outputSize, mscclpp::DataType dtype, cudaStream_t stream,
-             std::unordered_map<std::string, uintptr_t>& extras) {
-        return self->allreduceKernelFunc(ctx, input, output, inputSize, dtype, stream, extras);
+             std::unordered_map<std::string, uintptr_t>& extras) -> mscclpp::CommResult {
+        ncclResult_t res = self->allreduceKernelFunc(ctx, input, output, inputSize, dtype, stream, extras);
+        return res == ncclSuccess ? mscclpp::CommResult::commSuccess : mscclpp::CommResult::commInternalError;
       },
       [self](std::shared_ptr<mscclpp::Communicator> comm, const void* input, void* output, size_t inputSize,
              [[maybe_unused]] size_t outputSize,
@@ -409,8 +410,9 @@ std::shared_ptr<mscclpp::Algorithm> AllreduceNvls::build() {
       [self](std::shared_ptr<mscclpp::Communicator> comm) { self->initialize(comm); },
       [self](const std::shared_ptr<mscclpp::AlgorithmCtx> ctx, const void* input, void* output, size_t inputSize,
              [[maybe_unused]] size_t outputSize, mscclpp::DataType dtype, cudaStream_t stream,
-             std::unordered_map<std::string, uintptr_t>& extras) {
-        return self->allreduceKernelFunc(ctx, input, output, inputSize, dtype, stream, extras);
+             std::unordered_map<std::string, uintptr_t>& extras) -> mscclpp::CommResult {
+        ncclResult_t res = self->allreduceKernelFunc(ctx, input, output, inputSize, dtype, stream, extras);
+        return res == ncclSuccess ? mscclpp::CommResult::commSuccess : mscclpp::CommResult::commInternalError;
       },
       [self](std::shared_ptr<mscclpp::Communicator> comm, const void* input, void* output, size_t inputSize,
              [[maybe_unused]] size_t outputSize,
@@ -478,8 +480,9 @@ std::shared_ptr<mscclpp::Algorithm> AllreduceNvlsWithCopy::build() {
       [self](std::shared_ptr<mscclpp::Communicator> comm) { self->initialize(comm); },
       [self](const std::shared_ptr<mscclpp::AlgorithmCtx> ctx, const void* input, void* output, size_t inputSize,
              [[maybe_unused]] size_t outputSize, mscclpp::DataType dtype, cudaStream_t stream,
-             std::unordered_map<std::string, uintptr_t>& extras) {
-        return self->allreduceKernelFunc(ctx, input, output, inputSize, dtype, stream, extras);
+             std::unordered_map<std::string, uintptr_t>& extras) -> mscclpp::CommResult {
+        ncclResult_t res = self->allreduceKernelFunc(ctx, input, output, inputSize, dtype, stream, extras);
+        return res == ncclSuccess ? mscclpp::CommResult::commSuccess : mscclpp::CommResult::commInternalError;
       },
       [self](std::shared_ptr<mscclpp::Communicator> comm, const void* input, void* output, size_t inputSize,
              [[maybe_unused]] size_t outputSize,
@@ -580,8 +583,9 @@ std::shared_ptr<mscclpp::Algorithm> Allreduce8::build() {
       [self](std::shared_ptr<mscclpp::Communicator> comm) { self->initialize(comm); },
       [self](const std::shared_ptr<mscclpp::AlgorithmCtx> ctx, const void* input, void* output, size_t inputSize,
              [[maybe_unused]] size_t outputSize, mscclpp::DataType dtype, cudaStream_t stream,
-             std::unordered_map<std::string, uintptr_t>& extras) {
-        return self->allreduceKernelFunc(ctx, input, output, inputSize, dtype, stream, extras);
+             std::unordered_map<std::string, uintptr_t>& extras) -> mscclpp::CommResult {
+        ncclResult_t res = self->allreduceKernelFunc(ctx, input, output, inputSize, dtype, stream, extras);
+        return res == ncclSuccess ? mscclpp::CommResult::commSuccess : mscclpp::CommResult::commInternalError;
       },
       [self](std::shared_ptr<mscclpp::Communicator> comm, const void* input, void* output, size_t inputSize,
              [[maybe_unused]] size_t outputSize,
@@ -649,7 +653,8 @@ std::shared_ptr<mscclpp::Algorithm> AllreduceNvlsPacket::build() {
       [self](const std::shared_ptr<mscclpp::AlgorithmCtx> ctx, const void* input, void* output, size_t inputSize,
              [[maybe_unused]] size_t outputSize, mscclpp::DataType dtype, cudaStream_t stream,
              std::unordered_map<std::string, uintptr_t>& extras) {
-        return self->allreduceKernelFunc(ctx, input, output, inputSize, dtype, stream, extras);
+        ncclResult_t res = self->allreduceKernelFunc(ctx, input, output, inputSize, dtype, stream, extras);
+        return res == ncclSuccess ? mscclpp::CommResult::commSuccess : mscclpp::CommResult::commInternalError;
       },
       [self](std::shared_ptr<mscclpp::Communicator> comm, const void* input, void* output, size_t inputSize,
              [[maybe_unused]] size_t outputSize,
diff --git a/src/algorithms/allreduce/allreduce_allpair_packet.cu b/src/algorithms/allreduce/allreduce_allpair_packet.cu
@@ -75,15 +75,15 @@ inline std::pair<int, int> getDefaultBlockNumAndThreadNum(size_t inputSize, int
 template <Op OpType, typename T>
 struct AllpairAdapter {
   static cudaError_t call(const void* buff, void* scratch, void* resultBuff, void* memoryChannels, void*,
-                          DeviceHandle<SwitchChannel>*, DeviceHandle<SwitchChannel>*, DeviceHandle<SwitchChannel>*,
-                          size_t channelInOffset, size_t, size_t scratchBufferSize, int rank, int nRanksPerNode,
-                          int worldSize, size_t inputSize, cudaStream_t stream, LL8Packet* flags,
-                          uint32_t numScratchBuff, int nBlocks = 0, int nThreadsPerBlock = 0) {
+                          DeviceHandle<SwitchChannel>*, DeviceHandle<SwitchChannel>*, size_t channelInOffset, size_t,
+                          size_t scratchBufferSize, int rank, int nRanksPerNode, int worldSize, size_t inputSize,
+                          cudaStream_t stream, LL8Packet* flags, uint32_t numScratchBuff, int nBlocks = 0,
+                          int nThreadsPerBlock = 0) {
     using ChannelType = DeviceHandle<MemoryChannel>;
     const size_t nelems = inputSize / sizeof(T);
     allreduceAllPairs<OpType><<<nBlocks, nThreadsPerBlock, 0, stream>>>(
         (T*)buff, (T*)scratch, (T*)resultBuff, (ChannelType*)memoryChannels, channelInOffset, scratchBufferSize, rank,
-        nRanksPerNode, worldSize, nelems, flags, numScratchBuff);
+        nRanksPerNode, worldSize, nelems, numScratchBuff, flags);
     return cudaGetLastError();
   }
 };
@@ -160,7 +160,7 @@ AlgorithmCtxKey AllreduceAllpairPacket::generateAllreduceContextKey(const void*
 }
 
 std::shared_ptr<Algorithm> AllreduceAllpairPacket::build() {
-  auto self = std::make_shared<AllreduceAllpairPacket>(scratchBuffer_, scratchBufferSize_);
+  auto self = std::make_shared<AllreduceAllpairPacket>(reinterpret_cast<uintptr_t>(scratchBuffer_), scratchBufferSize_);
   return std::make_shared<NativeAlgorithm>(
       "default_allreduce_allpair_packet", "allreduce",
       [self](std::shared_ptr<Communicator> comm) { self->initialize(comm); },
diff --git a/src/algorithms/allreduce/allreduce_packet.cu b/src/algorithms/allreduce/allreduce_packet.cu
@@ -148,10 +148,10 @@ __global__ void __launch_bounds__(1024, 1)
 template <Op OpType, typename T>
 struct PacketAdapter {
   static cudaError_t call(const void* buff, void* scratch, void* resultBuff, void* memoryChannels, void*,
-                          DeviceHandle<SwitchChannel>*, DeviceHandle<SwitchChannel>*, DeviceHandle<SwitchChannel>*,
-                          size_t channelInOffset, size_t, size_t scratchBufferSize, int rank, int nRanksPerNode,
-                          int worldSize, size_t inputSize, cudaStream_t stream, LL8Packet* flags,
-                          uint32_t numScratchBuff, int nBlocks = 0, int nThreadsPerBlock = 0) {
+                          DeviceHandle<SwitchChannel>*, DeviceHandle<SwitchChannel>*, size_t channelInOffset, size_t,
+                          size_t scratchBufferSize, int rank, int nRanksPerNode, int worldSize, size_t inputSize,
+                          cudaStream_t stream, LL8Packet* flags, uint32_t numScratchBuff, int nBlocks = 0,
+                          int nThreadsPerBlock = 0) {
     using ChannelType = DeviceHandle<MemoryChannel>;
     const size_t nelems = inputSize / sizeof(T);
     allreducePacket<OpType><<<nBlocks, nThreadsPerBlock, 0, stream>>>(
@@ -240,7 +240,7 @@ AlgorithmCtxKey AllreducePacket::generateAllreduceContextKey(const void* input,
 }
 
 std::shared_ptr<Algorithm> AllreducePacket::build() {
-  auto self = std::make_shared<AllreducePacket>(scratchBuffer_, scratchBufferSize_);
+  auto self = std::make_shared<AllreducePacket>(reinterpret_cast<uintptr_t>(scratchBuffer_), scratchBufferSize_);
   return std::make_shared<NativeAlgorithm>(
       "default_allreduce_packet", "allreduce", [self](std::shared_ptr<Communicator> comm) { self->initialize(comm); },
       [self](const std::shared_ptr<AlgorithmCtx> ctx, const void* input, void* output, size_t inputSize,