d0/d99/CUDAUtilities_2interface_2prefixScan_8h_source.html

 #ifndef HeterogeneousCore_CUDAUtilities_interface_prefixScan_h
 #define HeterogeneousCore_CUDAUtilities_interface_prefixScan_h

 #include <cstdint>

 #include "FWCore/Utilities/interface/CMSUnrollLoop.h"
 #include "HeterogeneousCore/CUDAUtilities/interface/cudaCompat.h"
 #include "HeterogeneousCore/CUDAUtilities/interface/cuda_assert.h"

 #ifdef __CUDA_ARCH__

 template <typename T>
 __device__ void __forceinline__ warpPrefixScan(T const* __restrict__ ci, T* __restrict__ co, uint32_t i, uint32_t mask) {
   // ci and co may be the same
   auto x = ci[i];
   auto laneId = threadIdx.x & 0x1f;
   CMS_UNROLL_LOOP
   for (int offset = 1; offset < 32; offset <<= 1) {
     auto y = __shfl_up_sync(mask, x, offset);
     if (laneId >= offset)
       x += y;
   }
   co[i] = x;
 }

 template <typename T>
 __device__ void __forceinline__ warpPrefixScan(T* c, uint32_t i, uint32_t mask) {
   auto x = c[i];
   auto laneId = threadIdx.x & 0x1f;
   CMS_UNROLL_LOOP
   for (int offset = 1; offset < 32; offset <<= 1) {
     auto y = __shfl_up_sync(mask, x, offset);
     if (laneId >= offset)
       x += y;
   }
   c[i] = x;
 }

 #endif

 namespace cms {
   namespace cuda {

     // limited to 32*32 elements....
     template <typename VT, typename T>
     __host__ __device__ __forceinline__ void blockPrefixScan(VT const* ci,
                                                              VT* co,
                                                              uint32_t size,
                                                              T* ws
 #ifndef __CUDA_ARCH__
                                                              = nullptr
 #endif
     ) {
 #ifdef __CUDA_ARCH__
       assert(ws);
       assert(size <= 1024);
       assert(0 == blockDim.x % 32);
       auto first = threadIdx.x;
       auto mask = __ballot_sync(0xffffffff, first < size);

       for (auto i = first; i < size; i += blockDim.x) {
         warpPrefixScan(ci, co, i, mask);
         auto laneId = threadIdx.x & 0x1f;
         auto warpId = i / 32;
         assert(warpId < 32);
         if (31 == laneId)
           ws[warpId] = co[i];
         mask = __ballot_sync(mask, i + blockDim.x < size);
       }
       __syncthreads();
       if (size <= 32)
         return;
       if (threadIdx.x < 32)
         warpPrefixScan(ws, threadIdx.x, 0xffffffff);
       __syncthreads();
       for (auto i = first + 32; i < size; i += blockDim.x) {
         auto warpId = i / 32;
         co[i] += ws[warpId - 1];
       }
       __syncthreads();
 #else
       co[0] = ci[0];
       for (uint32_t i = 1; i < size; ++i)
         co[i] = ci[i] + co[i - 1];
 #endif
     }

     // same as above, may remove
     // limited to 32*32 elements....
     template <typename T>
     __host__ __device__ __forceinline__ void blockPrefixScan(T* c,
                                                              uint32_t size,
                                                              T* ws
 #ifndef __CUDA_ARCH__
                                                              = nullptr
 #endif
     ) {
 #ifdef __CUDA_ARCH__
       assert(ws);
       assert(size <= 1024);
       assert(0 == blockDim.x % 32);
       auto first = threadIdx.x;
       auto mask = __ballot_sync(0xffffffff, first < size);

       for (auto i = first; i < size; i += blockDim.x) {
         warpPrefixScan(c, i, mask);
         auto laneId = threadIdx.x & 0x1f;
         auto warpId = i / 32;
         assert(warpId < 32);
         if (31 == laneId)
           ws[warpId] = c[i];
         mask = __ballot_sync(mask, i + blockDim.x < size);
       }
       __syncthreads();
       if (size <= 32)
         return;
       if (threadIdx.x < 32)
         warpPrefixScan(ws, threadIdx.x, 0xffffffff);
       __syncthreads();
       for (auto i = first + 32; i < size; i += blockDim.x) {
         auto warpId = i / 32;
         c[i] += ws[warpId - 1];
       }
       __syncthreads();
 #else
       for (uint32_t i = 1; i < size; ++i)
         c[i] += c[i - 1];
 #endif
     }

 #ifdef __CUDA_ARCH__
     // see https://stackoverflow.com/questions/40021086/can-i-obtain-the-amount-of-allocated-dynamic-shared-memory-from-within-a-kernel/40021087#40021087
     __device__ __forceinline__ unsigned dynamic_smem_size() {
       unsigned ret;
       asm volatile("mov.u32 %0, %dynamic_smem_size;" : "=r"(ret));
       return ret;
     }
 #endif

     // in principle not limited....
     template <typename T>
     __global__ void multiBlockPrefixScan(T const* ici, T* ico, int32_t size, int32_t* pc) {
       volatile T const* ci = ici;
       volatile T* co = ico;
       __shared__ T ws[32];
 #ifdef __CUDA_ARCH__
       assert(sizeof(T) * gridDim.x <= dynamic_smem_size());  // size of psum below
 #endif
       assert(blockDim.x * gridDim.x >= size);
       // first each block does a scan
       int off = blockDim.x * blockIdx.x;
       if (size - off > 0)
         blockPrefixScan(ci + off, co + off, std::min(int(blockDim.x), size - off), ws);

       // count blocks that finished
       __shared__ bool isLastBlockDone;
       if (0 == threadIdx.x) {
         __threadfence();
         auto value = atomicAdd(pc, 1);  // block counter
         isLastBlockDone = (value == (int(gridDim.x) - 1));
       }

       __syncthreads();

       if (!isLastBlockDone)
         return;

       assert(int(gridDim.x) == *pc);

       // good each block has done its work and now we are left in last block

       // let's get the partial sums from each block
       extern __shared__ T psum[];
       for (int i = threadIdx.x, ni = gridDim.x; i < ni; i += blockDim.x) {
         auto j = blockDim.x * i + blockDim.x - 1;
         psum[i] = (j < size) ? co[j] : T(0);
       }
       __syncthreads();
       blockPrefixScan(psum, psum, gridDim.x, ws);

       // now it would have been handy to have the other blocks around...
       for (int i = threadIdx.x + blockDim.x, k = 0; i < size; i += blockDim.x, ++k) {
         co[i] += psum[k];
       }
     }
   }  // namespace cuda
 }  // namespace cms

 #endif  // HeterogeneousCore_CUDAUtilities_interface_prefixScan_h
cms::cudacompat::threadIdx
const dim3 threadIdx
Definition: cudaCompat.h:29

cms::alpakatools::warpPrefixScan
ALPAKA_FN_ACC ALPAKA_FN_INLINE void warpPrefixScan(const TAcc &acc, int32_t laneId, T *c, uint32_t i, bool active=true)
Definition: prefixScan.h:40

ALPAKA_ACCELERATOR_NAMESPACE::pixelClustering::pixelStatus::mask
constexpr uint32_t mask
Definition: PixelClustering.h:35

__forceinline__
#define __forceinline__
Definition: cudaCompat.h:22

mps_fire.i
i
Definition: mps_fire.py:429

cms::cudacompat::gridDim
const dim3 gridDim
Definition: cudaCompat.h:33

dqmiolumiharvest.j
j
Definition: dqmiolumiharvest.py:66

__host__
#define __host__
Definition: SiPixelGainForHLTonGPU.h:12

runTheMatrix.ret
ret
prodAgent to be discontinued
Definition: runTheMatrix.py:759

__global__
#define __global__
Definition: cudaCompat.h:19

cms::cudacompat::blockDim
const dim3 blockDim
Definition: cudaCompat.h:30

CMSUnrollLoop.h

cms::cuda::assert
assert(be >=bs)

cms::cuda::co
__host__ __device__ VT * co
Definition: prefixScan.h:47

CMS_UNROLL_LOOP
#define CMS_UNROLL_LOOP
Definition: CMSUnrollLoop.h:47

HltBtagPostValidation_cff.c
c
Definition: HltBtagPostValidation_cff.py:35

createfilelist.int
int
Definition: createfilelist.py:10

SiStripPI::min
Definition: SiStripPayloadInspectorHelper.h:178

ALPAKA_ACCELERATOR_NAMESPACE::vertexFinder::ws
auto &__restrict__ ws
Definition: clusterTracksByDensity.h:48

cudaCompat.h

value
Definition: value.py:1

cms::cudacompat::blockIdx
const dim3 blockIdx
Definition: cudaCompat.h:32

cms
Namespace of DDCMS conversion namespace.
Definition: ProducerAnalyzer.cc:41

detailsBasic3DVector::y
float float y
Definition: extBasic3DVector.h:14

cms::cuda::size
__host__ __device__ VT uint32_t size
Definition: prefixScan.h:47

cms::cudacompat::__syncthreads
void __syncthreads()
Definition: cudaCompat.h:132

dqmdumpme.first
first
Definition: dqmdumpme.py:55

ecalDigis_cff.cuda
cuda
Definition: ecalDigis_cff.py:33

x
float x
Definition: beamSpotDipStandalone.cc:55

T
long double T
Definition: Basic3DVectorLD.h:48

__device__
#define __device__
Definition: SiPixelGainForHLTonGPU.h:15

cms::alpakatools::blockPrefixScan
ALPAKA_FN_HOST_ACC ALPAKA_FN_INLINE void blockPrefixScan(const TAcc &acc, T *__restrict__ c, int32_t size, T *__restrict__ ws=nullptr)
Definition: prefixScan.h:92

cms::cudacompat::atomicAdd
T1 atomicAdd(T1 *a, T2 b)
Definition: cudaCompat.h:61

cuda_assert.h

cms::cudacompat::__threadfence
void __threadfence()
Definition: cudaCompat.h:133

hltrates_dqm_sourceclient-live_cfg.offset
offset
Definition: hltrates_dqm_sourceclient-live_cfg.py:83

dqmdumpme.k
k
Definition: dqmdumpme.py:60