d6/d66/gpuPixelRecHits_8h_source.html

 #ifndef RecoLocalTracker_SiPixelRecHits_plugins_gpuPixelRecHits_h
 #define RecoLocalTracker_SiPixelRecHits_plugins_gpuPixelRecHits_h

 #include <cstdint>
 #include <cstdio>
 #include <limits>

 #include "CUDADataFormats/BeamSpot/interface/BeamSpotCUDA.h"
 #include "CUDADataFormats/SiPixelCluster/interface/gpuClusteringConstants.h"
 #include "CUDADataFormats/SiPixelDigi/interface/SiPixelDigisCUDA.h"
 #include "CUDADataFormats/TrackingRecHit/interface/TrackingRecHitsUtilities.h"
 #include "DataFormats/Math/interface/approx_atan2.h"
 #include "HeterogeneousCore/CUDAUtilities/interface/cuda_assert.h"
 #include "RecoLocalTracker/SiPixelRecHits/interface/pixelCPEforGPU.h"

 //#define GPU_DEBUG

 namespace gpuPixelRecHits {

   template <typename TrackerTraits>
   __global__ void getHits(pixelCPEforGPU::ParamsOnGPUT<TrackerTraits> const* __restrict__ cpeParams,
                           BeamSpotPOD const* __restrict__ bs,
                           SiPixelDigisSoA::ConstView digis,
                           int numElements,
                           SiPixelClustersCUDASOAConstView clusters,
                           TrackingRecHitSoAView<TrackerTraits> hits) {
     // FIXME
     // the compiler seems NOT to optimize loads from views (even in a simple test case)
     // The whole gimnastic here of copying or not is a pure heuristic exercise that seems to produce the fastest code with the above signature
     // not using views (passing a gazzilion of array pointers) seems to produce the fastest code (but it is harder to mantain)

     assert(cpeParams);

     // copy average geometry corrected by beamspot . FIXME (move it somewhere else???)
     if (0 == blockIdx.x) {
       auto& agc = hits.averageGeometry();
       auto const& ag = cpeParams->averageGeometry();
       auto nLadders = TrackerTraits::numberOfLaddersInBarrel;

       for (int il = threadIdx.x, nl = nLadders; il < nl; il += blockDim.x) {
         agc.ladderZ[il] = ag.ladderZ[il] - bs->z;
         agc.ladderX[il] = ag.ladderX[il] - bs->x;
         agc.ladderY[il] = ag.ladderY[il] - bs->y;
         agc.ladderR[il] = sqrt(agc.ladderX[il] * agc.ladderX[il] + agc.ladderY[il] * agc.ladderY[il]);
         agc.ladderMinZ[il] = ag.ladderMinZ[il] - bs->z;
         agc.ladderMaxZ[il] = ag.ladderMaxZ[il] - bs->z;
       }

       if (0 == threadIdx.x) {
         agc.endCapZ[0] = ag.endCapZ[0] - bs->z;
         agc.endCapZ[1] = ag.endCapZ[1] - bs->z;
       }
     }

     // to be moved in common namespace...
     using gpuClustering::invalidModuleId;
     constexpr int32_t MaxHitsInIter = pixelCPEforGPU::MaxHitsInIter;

     using ClusParams = pixelCPEforGPU::ClusParams;

     // as usual one block per module
     __shared__ ClusParams clusParams;

     auto me = clusters[blockIdx.x].moduleId();
     int nclus = clusters[me].clusInModule();

     if (0 == nclus)
       return;
 #ifdef GPU_DEBUG
     if (threadIdx.x == 0) {
       auto k = clusters[1 + blockIdx.x].moduleStart();
       while (digis[k].moduleId() == invalidModuleId)
         ++k;
       assert(digis[k].moduleId() == me);
     }

     if (me % 100 == 1)
       if (threadIdx.x == 0)
         printf("hitbuilder: %d clusters in module %d. will write at %d\n", nclus, me, clusters[me].clusModuleStart());
 #endif

     for (int startClus = 0, endClus = nclus; startClus < endClus; startClus += MaxHitsInIter) {
       int nClusInIter = std::min(MaxHitsInIter, endClus - startClus);
       int lastClus = startClus + nClusInIter;
       assert(nClusInIter <= nclus);
       assert(nClusInIter > 0);
       assert(lastClus <= nclus);

       assert(nclus > MaxHitsInIter || (0 == startClus && nClusInIter == nclus && lastClus == nclus));

       // init
       for (int ic = threadIdx.x; ic < nClusInIter; ic += blockDim.x) {
         clusParams.minRow[ic] = std::numeric_limits<uint32_t>::max();
         clusParams.maxRow[ic] = 0;
         clusParams.minCol[ic] = std::numeric_limits<uint32_t>::max();
         clusParams.maxCol[ic] = 0;
         clusParams.charge[ic] = 0;
         clusParams.q_f_X[ic] = 0;
         clusParams.q_l_X[ic] = 0;
         clusParams.q_f_Y[ic] = 0;
         clusParams.q_l_Y[ic] = 0;
       }

       __syncthreads();

       // one thread per "digi"
       auto first = clusters[1 + blockIdx.x].moduleStart() + threadIdx.x;
       for (int i = first; i < numElements; i += blockDim.x) {
         auto id = digis[i].moduleId();
         if (id == invalidModuleId)
           continue;  // not valid
         if (id != me)
           break;  // end of module
         auto cl = digis[i].clus();
         if (cl < startClus || cl >= lastClus)
           continue;
         cl -= startClus;
         assert(cl >= 0);
         assert(cl < MaxHitsInIter);
         auto x = digis[i].xx();
         auto y = digis[i].yy();
         atomicMin(&clusParams.minRow[cl], x);
         atomicMax(&clusParams.maxRow[cl], x);
         atomicMin(&clusParams.minCol[cl], y);
         atomicMax(&clusParams.maxCol[cl], y);
       }

       __syncthreads();

       auto pixmx = cpeParams->detParams(me).pixmx;
       for (int i = first; i < numElements; i += blockDim.x) {
         auto id = digis[i].moduleId();
         if (id == invalidModuleId)
           continue;  // not valid
         if (id != me)
           break;  // end of module
         auto cl = digis[i].clus();
         if (cl < startClus || cl >= lastClus)
           continue;
         cl -= startClus;
         assert(cl >= 0);
         assert(cl < MaxHitsInIter);
         auto x = digis[i].xx();
         auto y = digis[i].yy();
         auto ch = digis[i].adc();
         atomicAdd(&clusParams.charge[cl], ch);
         ch = std::min(ch, pixmx);
         if (clusParams.minRow[cl] == x)
           atomicAdd(&clusParams.q_f_X[cl], ch);
         if (clusParams.maxRow[cl] == x)
           atomicAdd(&clusParams.q_l_X[cl], ch);
         if (clusParams.minCol[cl] == y)
           atomicAdd(&clusParams.q_f_Y[cl], ch);
         if (clusParams.maxCol[cl] == y)
           atomicAdd(&clusParams.q_l_Y[cl], ch);
       }

       __syncthreads();

       // next one cluster per thread...

       first = clusters[me].clusModuleStart() + startClus;
       for (int ic = threadIdx.x; ic < nClusInIter; ic += blockDim.x) {
         auto h = first + ic;  // output index in global memory

         assert(h < hits.nHits());
         assert(h < clusters[me + 1].clusModuleStart());

         pixelCPEforGPU::position<TrackerTraits>(cpeParams->commonParams(), cpeParams->detParams(me), clusParams, ic);

         pixelCPEforGPU::errorFromDB<TrackerTraits>(cpeParams->commonParams(), cpeParams->detParams(me), clusParams, ic);

         // store it
         hits[h].chargeAndStatus().charge = clusParams.charge[ic];
         hits[h].chargeAndStatus().status = clusParams.status[ic];
         hits[h].detectorIndex() = me;

         float xl, yl;
         hits[h].xLocal() = xl = clusParams.xpos[ic];
         hits[h].yLocal() = yl = clusParams.ypos[ic];

         hits[h].clusterSizeX() = clusParams.xsize[ic];
         hits[h].clusterSizeY() = clusParams.ysize[ic];

         hits[h].xerrLocal() = clusParams.xerr[ic] * clusParams.xerr[ic] + cpeParams->detParams(me).apeXX;
         hits[h].yerrLocal() = clusParams.yerr[ic] * clusParams.yerr[ic] + cpeParams->detParams(me).apeYY;

         // keep it local for computations
         float xg, yg, zg;
         // to global and compute phi...
         cpeParams->detParams(me).frame.toGlobal(xl, yl, xg, yg, zg);
         // here correct for the beamspot...
         xg -= bs->x;
         yg -= bs->y;
         zg -= bs->z;

         hits[h].xGlobal() = xg;
         hits[h].yGlobal() = yg;
         hits[h].zGlobal() = zg;

         hits[h].rGlobal() = std::sqrt(xg * xg + yg * yg);
         hits[h].iphi() = unsafe_atan2s<7>(yg, xg);
       }
       __syncthreads();
     }  // end loop on batches
   }

 }  // namespace gpuPixelRecHits

 #endif  // RecoLocalTracker_SiPixelRecHits_plugins_gpuPixelRecHits_h
cms::cudacompat::threadIdx
const dim3 threadIdx
Definition: cudaCompat.h:29

cms::cudacompat::atomicMax
T1 atomicMax(T1 *a, T2 b)
Definition: cudaCompat.h:97

approx_atan2.h

pixelCPEforGPU::ClusParams
ClusParamsT< MaxHitsInIter > ClusParams
Definition: pixelCPEforGPU.h:137

mps_fire.i
i
Definition: mps_fire.py:429

gpuClusteringConstants.h

SiPixelDigisCUDA.h

pixelCPEforGPU::ParamsOnGPUT::averageGeometry
constexpr AverageGeometry const  &__restrict__ averageGeometry() const
Definition: pixelCPEforGPU.h:102

__global__
#define __global__
Definition: cudaCompat.h:19

BeamSpotPOD
Definition: BeamSpotPOD.h:11

hfClusterShapes_cfi.hits
hits
Definition: hfClusterShapes_cfi.py:5

cms::cudacompat::blockDim
const dim3 blockDim
Definition: cudaCompat.h:30

pixelCPEforDevice::MaxHitsInIter
constexpr int32_t MaxHitsInIter
Definition: pixelCPEforDevice.h:110

ALPAKA_ACCELERATOR_NAMESPACE::brokenline::constexpr
if constexpr(n > 3)
Definition: BrokenLine.h:164

cms::cuda::assert
assert(be >=bs)

haddnano.cl
cl
Definition: haddnano.py:49

SiPixelDigisLayout::ConstViewTemplateFreeParams
Definition: SiPixelDigisSoA.h:13

pixelCPEforGPU::ParamsOnGPUT::detParams
constexpr DetParams const  &__restrict__ detParams(int i) const
Definition: pixelCPEforGPU.h:97

pixelCPEforDevice::ClusParams
ClusParamsT< MaxHitsInIter > ClusParams
Definition: pixelCPEforDevice.h:111

pixelTopology::AverageGeometryT::ladderZ
float ladderZ[TrackerTraits::numberOfLaddersInBarrel]
Definition: SimplePixelTopology.h:17

gpuPixelRecHits
Definition: gpuPixelRecHits.h:18

mathSSE::sqrt
T sqrt(T t)
Definition: SSEVec.h:19

BeamSpotCUDA.h

hlt_dqm_clientPB-live_cfg.me
me
Definition: hlt_dqm_clientPB-live_cfg.py:62

SiStripPI::min
Definition: SiStripPayloadInspectorHelper.h:178

SiStripPI::max
Definition: SiStripPayloadInspectorHelper.h:178

cms::cudacompat::blockIdx
const dim3 blockIdx
Definition: cudaCompat.h:32

TrackingRecHitsUtilities.h

gpuClustering::invalidModuleId
constexpr uint16_t invalidModuleId
Definition: gpuClusteringConstants.h:23

gpuClustering::numElements
uint16_t *__restrict__ uint16_t const  *__restrict__ uint32_t const  *__restrict__ uint32_t *__restrict__ uint32_t const  *__restrict__ int32_t *__restrict__ uint32_t numElements
Definition: gpuClusterChargeCut.h:25

pixelCPEforGPU::ParamsOnGPUT::commonParams
constexpr CommonParams const  &__restrict__ commonParams() const
Definition: pixelCPEforGPU.h:93

cms::cuda::bs
bs
Definition: HistoContainer.h:76

cms::cudacompat::__syncthreads
void __syncthreads()
Definition: cudaCompat.h:132

dqmdumpme.first
first
Definition: dqmdumpme.py:55

pixelCPEforGPU.h

gpuClustering::moduleId
uint16_t *__restrict__ uint16_t const  *__restrict__ uint32_t const  *__restrict__ uint32_t *__restrict__ uint32_t const  *__restrict__ moduleId
Definition: gpuClusterChargeCut.h:19

x
float x
Definition: beamSpotDipStandalone.cc:55

pixelCPEforGPU::ParamsOnGPUT< TrackerTraits >

TrackingRecHitSoAView
typename TrackingRecHitSoA< TrackerTraits >::template TrackingRecHitSoALayout<>::View TrackingRecHitSoAView
Definition: TrackingRecHitsUtilities.h:61

SiPixelClustersCUDASOAConstView
SiPixelClustersCUDALayout<>::ConstView SiPixelClustersCUDASOAConstView
Definition: SiPixelClustersCUDA.h:19

cms::cudacompat::atomicMin
T1 atomicMin(T1 *a, T2 b)
Definition: cudaCompat.h:85

h
The Signals That Services Can Subscribe To This is based on ActivityRegistry h
Helper function to determine trigger accepts.
Definition: Activities.doc:4

cms::cudacompat::atomicAdd
T1 atomicAdd(T1 *a, T2 b)
Definition: cudaCompat.h:61

cuda_assert.h

pixelCPEforGPU::MaxHitsInIter
constexpr int32_t MaxHitsInIter
Definition: pixelCPEforGPU.h:136

dqmdumpme.k
k
Definition: dqmdumpme.py:60

bsc_activity_cfg.clusters
clusters
Definition: bsc_activity_cfg.py:36