da/d14/gpuClusterChargeCut_8h_source.html

 #ifndef RecoLocalTracker_SiPixelClusterizer_plugins_gpuClusterChargeCut_h
 #define RecoLocalTracker_SiPixelClusterizer_plugins_gpuClusterChargeCut_h

 #include <cstdint>
 #include <cstdio>

 #include "CUDADataFormats/SiPixelCluster/interface/gpuClusteringConstants.h"
 #include "Geometry/CommonTopologies/interface/SimplePixelTopology.h"
 #include "HeterogeneousCore/CUDAUtilities/interface/cuda_assert.h"
 #include "HeterogeneousCore/CUDAUtilities/interface/prefixScan.h"
 #include "RecoLocalTracker/SiPixelClusterizer/interface/SiPixelClusterThresholds.h"

 namespace gpuClustering {

   template <typename TrackerTraits>
   __global__ void clusterChargeCut(
       SiPixelClusterThresholds
           clusterThresholds,             // charge cut on cluster in electrons (for layer 1 and for other layers)
       uint16_t* __restrict__ id,         // module id of each pixel (modified if bad cluster)
       uint16_t const* __restrict__ adc,  //  charge of each pixel
       uint32_t const* __restrict__ moduleStart,  // index of the first pixel of each module
       uint32_t* __restrict__ nClustersInModule,  // modified: number of clusters found in each module
       uint32_t const* __restrict__ moduleId,     // module id of each module
       int32_t* __restrict__ clusterId,           // modified: cluster id of each pixel
       uint32_t numElements) {
     constexpr int32_t maxNumClustersPerModules = TrackerTraits::maxNumClustersPerModules;

     __shared__ int32_t charge[maxNumClustersPerModules];
     __shared__ uint8_t ok[maxNumClustersPerModules];
     __shared__ uint16_t newclusId[maxNumClustersPerModules];

     constexpr int startBPIX2 = TrackerTraits::layerStart[1];

     assert(TrackerTraits::numberOfModules < maxNumModules);
     assert(startBPIX2 < TrackerTraits::numberOfModules);

     auto firstModule = blockIdx.x;
     auto endModule = moduleStart[0];
     for (auto module = firstModule; module < endModule; module += gridDim.x) {
       auto firstPixel = moduleStart[1 + module];
       auto thisModuleId = id[firstPixel];
       while (thisModuleId == invalidModuleId and firstPixel < numElements) {
         // skip invalid or duplicate pixels
         ++firstPixel;
         thisModuleId = id[firstPixel];
       }
       if (firstPixel >= numElements) {
         // reached the end of the input while skipping the invalid pixels, nothing left to do
         break;
       }
       if (thisModuleId != moduleId[module]) {
         // reached the end of the module while skipping the invalid pixels, skip this module
         continue;
       }
       assert(thisModuleId < TrackerTraits::numberOfModules);

       auto nclus = nClustersInModule[thisModuleId];
       if (nclus == 0)
         continue;

       if (threadIdx.x == 0 && nclus > maxNumClustersPerModules)
         printf("Warning too many clusters in module %d in block %d: %d > %d\n",
                thisModuleId,
                blockIdx.x,
                nclus,
                maxNumClustersPerModules);

       auto first = firstPixel + threadIdx.x;

       if (nclus > maxNumClustersPerModules) {
         // remove excess  FIXME find a way to cut charge first....
         for (auto i = first; i < numElements; i += blockDim.x) {
           if (id[i] == invalidModuleId)
             continue;  // not valid
           if (id[i] != thisModuleId)
             break;  // end of module
           if (clusterId[i] >= maxNumClustersPerModules) {
             id[i] = invalidModuleId;
             clusterId[i] = invalidModuleId;
           }
         }
         nclus = maxNumClustersPerModules;
       }

 #ifdef GPU_DEBUG
       if (thisModuleId % 100 == 1)
         if (threadIdx.x == 0)
           printf("start cluster charge cut for module %d in block %d\n", thisModuleId, blockIdx.x);
 #endif

       assert(nclus <= maxNumClustersPerModules);
       for (auto i = threadIdx.x; i < nclus; i += blockDim.x) {
         charge[i] = 0;
       }
       __syncthreads();

       for (auto i = first; i < numElements; i += blockDim.x) {
         if (id[i] == invalidModuleId)
           continue;  // not valid
         if (id[i] != thisModuleId)
           break;  // end of module
         atomicAdd(&charge[clusterId[i]], adc[i]);
       }
       __syncthreads();

       auto chargeCut = clusterThresholds.getThresholdForLayerOnCondition(thisModuleId < startBPIX2);

       bool good = true;
       for (auto i = threadIdx.x; i < nclus; i += blockDim.x) {
         newclusId[i] = ok[i] = charge[i] >= chargeCut ? 1 : 0;
         if (0 == ok[i])
           good = false;
       }

       // if all clusters above threshold do nothing
       if (__syncthreads_and(good))
         continue;

       // renumber
       __shared__ uint16_t ws[32];
       constexpr auto maxThreads = 1024;
       auto minClust = nclus > maxThreads ? maxThreads : nclus;

       cms::cuda::blockPrefixScan(newclusId, newclusId, minClust, ws);
       if constexpr (maxNumClustersPerModules > maxThreads)  //only if needed
       {
         for (uint32_t offset = maxThreads; offset < nclus; offset += maxThreads) {
           cms::cuda::blockPrefixScan(newclusId + offset, newclusId + offset, nclus - offset, ws);
           for (uint32_t i = threadIdx.x + offset; i < nclus; i += blockDim.x) {
             uint32_t prevBlockEnd = ((i / maxThreads) * maxThreads) - 1;
             newclusId[i] += newclusId[prevBlockEnd];
           }
           __syncthreads();
         }
       }
       assert(nclus > newclusId[nclus - 1]);

       nClustersInModule[thisModuleId] = newclusId[nclus - 1];

       // reassign id
       for (auto i = first; i < numElements; i += blockDim.x) {
         if (id[i] == invalidModuleId)
           continue;  // not valid
         if (id[i] != thisModuleId)
           break;  // end of module
         if (0 == ok[clusterId[i]])
           clusterId[i] = id[i] = invalidModuleId;
         else
           clusterId[i] = newclusId[clusterId[i]] - 1;
       }

       // done
       __syncthreads();
     }  // loop on modules
   }

 }  // namespace gpuClustering

 #endif  // RecoLocalTracker_SiPixelClusterizer_plugins_gpuClusterChargeCut_h
cms::cudacompat::threadIdx
const dim3 threadIdx
Definition: cudaCompat.h:29

gpuClustering::ok
__shared__ uint8_t ok[maxNumClustersPerModules]
Definition: gpuClusterChargeCut.h:29

gpuClustering::nClustersInModule
uint16_t *__restrict__ uint16_t const  *__restrict__ uint32_t const  *__restrict__ uint32_t *__restrict__ nClustersInModule
Definition: gpuClusterChargeCut.h:19

caHitNtupletGeneratorKernels::good
auto const good
min quality of good
Definition: CAHitNtupletGeneratorKernelsImpl.h:761

gpuClustering::firstModule
auto firstModule
Definition: gpuClusterChargeCut.h:37

SimplePixelTopology.h

mps_fire.i
i
Definition: mps_fire.py:429

gpuClusteringConstants.h

cms::cudacompat::gridDim
const dim3 gridDim
Definition: cudaCompat.h:33

__global__
#define __global__
Definition: cudaCompat.h:19

gpuClustering::charge
__shared__ int32_t charge[maxNumClustersPerModules]
Definition: gpuClusterChargeCut.h:28

cms::cudacompat::blockDim
const dim3 blockDim
Definition: cudaCompat.h:30

module
Definition: EcalSRCondTools.cc:29

DMR_cfg.chargeCut
chargeCut
Definition: DMR_cfg.py:159

ALPAKA_ACCELERATOR_NAMESPACE::brokenline::constexpr
if constexpr(n > 3)
Definition: BrokenLine.h:164

prefixScan.h

phase1PixelTopology::numberOfModules
constexpr uint16_t numberOfModules
Definition: SimplePixelTopology.h:136

SiPixelClusterThresholds::getThresholdForLayerOnCondition
constexpr int32_t getThresholdForLayerOnCondition(bool isLayer1) const noexcept
Definition: SiPixelClusterThresholds.h:9

callgraph.module
module
Definition: callgraph.py:69

gpuClustering::assert
assert(TrackerTraits::numberOfModules< maxNumModules)

gpuClustering::startBPIX2
constexpr int startBPIX2
Definition: gpuClusterChargeCut.h:32

ALPAKA_ACCELERATOR_NAMESPACE::vertexFinder::ws
auto &__restrict__ ws
Definition: clusterTracksByDensity.h:48

gpuClustering::maxNumModules
constexpr uint16_t maxNumModules
Definition: gpuClusteringConstants.h:21

cms::cudacompat::blockIdx
const dim3 blockIdx
Definition: cudaCompat.h:32

gpuClustering::clusterId
uint16_t *__restrict__ uint16_t const  *__restrict__ uint32_t const  *__restrict__ uint32_t *__restrict__ uint32_t const  *__restrict__ int32_t *__restrict__ clusterId
Definition: gpuClusterChargeCut.h:19

gpuClustering::invalidModuleId
constexpr uint16_t invalidModuleId
Definition: gpuClusteringConstants.h:23

gpuClustering::numElements
uint16_t *__restrict__ uint16_t const  *__restrict__ uint32_t const  *__restrict__ uint32_t *__restrict__ uint32_t const  *__restrict__ int32_t *__restrict__ uint32_t numElements
Definition: gpuClusterChargeCut.h:25

SiPixelClusterThresholds
Definition: SiPixelClusterThresholds.h:8

gpuClustering::moduleStart
uint16_t *__restrict__ uint16_t const  *__restrict__ uint32_t const  *__restrict__ moduleStart
Definition: gpuClusterChargeCut.h:19

gpuClustering::newclusId
__shared__ uint16_t newclusId[maxNumClustersPerModules]
Definition: gpuClusterChargeCut.h:30

clusterChargeCut
float clusterChargeCut(const edm::ParameterSet &conf, const char *name="clusterChargeCut")
Definition: ClusterChargeCut.h:7

cms::cudacompat::__syncthreads
void __syncthreads()
Definition: cudaCompat.h:132

dqmdumpme.first
first
Definition: dqmdumpme.py:55

pixelClustering::maxNumClustersPerModules
constexpr int32_t maxNumClustersPerModules
Definition: ClusteringConstants.h:28

cms::alpakatools::blockPrefixScan
ALPAKA_FN_ACC ALPAKA_FN_INLINE void blockPrefixScan(const TAcc &acc, T const *ci, T *co, int32_t size, T *ws=nullptr)
Definition: prefixScan.h:47

gpuClustering
Definition: gpuClusteringConstants.h:7

phase1PixelTopology::layerStart
static constexpr uint32_t layerStart[numberOfLayers+1]
Definition: SimplePixelTopology.h:189

gpuClustering::moduleId
uint16_t *__restrict__ uint16_t const  *__restrict__ uint32_t const  *__restrict__ uint32_t *__restrict__ uint32_t const  *__restrict__ moduleId
Definition: gpuClusterChargeCut.h:19

gpuClustering::endModule
auto endModule
Definition: gpuClusterChargeCut.h:38

SiPixelClusterThresholds.h

cms::cudacompat::__syncthreads_and
bool __syncthreads_and(bool x)
Definition: cudaCompat.h:135

cms::cudacompat::atomicAdd
T1 atomicAdd(T1 *a, T2 b)
Definition: cudaCompat.h:61

cuda_assert.h

hltrates_dqm_sourceclient-live_cfg.offset
offset
Definition: hltrates_dqm_sourceclient-live_cfg.py:83

gpuClustering::adc
uint16_t *__restrict__ uint16_t const  *__restrict__ adc
Definition: gpuClusterChargeCut.h:19