da/d01/gpuFitVertices_8h_source.html

 #ifndef RecoPixelVertexing_PixelVertexFinding_plugins_gpuFitVertices_h
 #define RecoPixelVertexing_PixelVertexFinding_plugins_gpuFitVertices_h

 #include <algorithm>
 #include <cmath>
 #include <cstdint>

 #include "HeterogeneousCore/CUDAUtilities/interface/HistoContainer.h"
 #include "HeterogeneousCore/CUDAUtilities/interface/cuda_assert.h"

 #include "gpuVertexFinder.h"

 namespace gpuVertexFinder {

   __device__ __forceinline__ void fitVertices(ZVertices* pdata,
                                               WorkSpace* pws,
                                               float chi2Max  // for outlier rejection
   ) {
     constexpr bool verbose = false;  // in principle the compiler should optmize out if false

     auto& __restrict__ data = *pdata;
     auto& __restrict__ ws = *pws;
     auto nt = ws.ntrks;
     float const* __restrict__ zt = ws.zt;
     float const* __restrict__ ezt2 = ws.ezt2;
     float* __restrict__ zv = data.zv;
     float* __restrict__ wv = data.wv;
     float* __restrict__ chi2 = data.chi2;
     uint32_t& nvFinal = data.nvFinal;
     uint32_t& nvIntermediate = ws.nvIntermediate;

     int32_t* __restrict__ nn = data.ndof;
     int32_t* __restrict__ iv = ws.iv;

     assert(pdata);
     assert(zt);

     assert(nvFinal <= nvIntermediate);
     nvFinal = nvIntermediate;
     auto foundClusters = nvFinal;

     // zero
     for (auto i = threadIdx.x; i < foundClusters; i += blockDim.x) {
       zv[i] = 0;
       wv[i] = 0;
       chi2[i] = 0;
     }

     // only for test
     __shared__ int noise;
     if (verbose && 0 == threadIdx.x)
       noise = 0;

     __syncthreads();

     // compute cluster location
     for (auto i = threadIdx.x; i < nt; i += blockDim.x) {
       if (iv[i] > 9990) {
         if (verbose)
           atomicAdd(&noise, 1);
         continue;
       }
       assert(iv[i] >= 0);
       assert(iv[i] < int(foundClusters));
       auto w = 1.f / ezt2[i];
       atomicAdd_block(&zv[iv[i]], zt[i] * w);
       atomicAdd_block(&wv[iv[i]], w);
     }

     __syncthreads();
     // reuse nn
     for (auto i = threadIdx.x; i < foundClusters; i += blockDim.x) {
       assert(wv[i] > 0.f);
       zv[i] /= wv[i];
       nn[i] = -1;  // ndof
     }
     __syncthreads();

     // compute chi2
     for (auto i = threadIdx.x; i < nt; i += blockDim.x) {
       if (iv[i] > 9990)
         continue;

       auto c2 = zv[iv[i]] - zt[i];
       c2 *= c2 / ezt2[i];
       if (c2 > chi2Max) {
         iv[i] = 9999;
         continue;
       }
       atomicAdd_block(&chi2[iv[i]], c2);
       atomicAdd_block(&nn[iv[i]], 1);
     }
     __syncthreads();
     for (auto i = threadIdx.x; i < foundClusters; i += blockDim.x)
       if (nn[i] > 0)
         wv[i] *= float(nn[i]) / chi2[i];

     if (verbose && 0 == threadIdx.x)
       printf("found %d proto clusters ", foundClusters);
     if (verbose && 0 == threadIdx.x)
       printf("and %d noise\n", noise);
   }

   __global__ void fitVerticesKernel(ZVertices* pdata,
                                     WorkSpace* pws,
                                     float chi2Max  // for outlier rejection
   ) {
     fitVertices(pdata, pws, chi2Max);
   }

 }  // namespace gpuVertexFinder

 #endif  // RecoPixelVertexing_PixelVertexFinding_plugins_gpuFitVertices_h
cms::cudacompat::threadIdx
const dim3 threadIdx
Definition: cudaCompat.h:29

gpuVertexFinder::__syncthreads
__syncthreads()
Definition: cudaCompat.h:132

gpuVertexFinder::chi2
float *__restrict__ chi2
Definition: gpuFitVertices.h:28

__forceinline__
#define __forceinline__
Definition: cudaCompat.h:22

mps_fire.i
i
Definition: mps_fire.py:428

gpuVertexFinder::chi2Max
__device__ WorkSpace float chi2Max
Definition: gpuFitVertices.h:18

gpuVertexFinder::iv
int32_t *__restrict__ iv
Definition: gpuClusterTracksDBSCAN.h:42

w
T w() const
Definition: extBasic3DVector.h:225

verbose
bool verbose
Definition: beamSpotDipStandalone.cc:87

gpuVertexFinder::assert
assert(pdata)

gpuVertexFinder::data
auto &__restrict__ data
Definition: gpuClusterTracksDBSCAN.h:31

__global__
#define __global__
Definition: cudaCompat.h:19

gpuVertexFinder::wv
float *__restrict__ wv
Definition: gpuFitVertices.h:27

gpuVertexFinder::zv
float *__restrict__ zv
Definition: gpuFitVertices.h:26

cms::cudacompat::blockDim
const dim3 blockDim
Definition: cudaCompat.h:30

gpuVertexFinder::zt
float const  *__restrict__ zt
Definition: gpuClusterTracksDBSCAN.h:34

gpuVertexFinder::ws
auto &__restrict__ ws
Definition: gpuClusterTracksDBSCAN.h:32

gpuVertexFinder::nt
auto nt
Definition: gpuClusterTracksDBSCAN.h:33

gpuVertexFinder::pws
WorkSpace * pws
Definition: gpuClusterTracksDBSCAN.h:18

gpuVertexFinder.h

gpuVertexFinder
Definition: gpuClusterTracksByDensity.h:13

f
double f[11][100]
Definition: MuScleFitUtils.cc:78

gpuVertexFinder::ezt2
float const  *__restrict__ ezt2
Definition: gpuClusterTracksDBSCAN.h:35

gpuVertexFinder::nvFinal
uint32_t & nvFinal
Definition: gpuClusterTracksDBSCAN.h:37

gpuVertexFinder::noise
__shared__ int noise
Definition: gpuFitVertices.h:50

HistoContainer.h

gpuVertexFinder::ZVertices
ZVertexSoA ZVertices
Definition: gpuVertexFinder.h:12

cms::cudacompat::atomicAdd_block
T1 atomicAdd_block(T1 *a, T2 b)
Definition: cudaCompat.h:68

gpuVertexFinder::nn
int32_t *__restrict__ nn
Definition: gpuClusterTracksDBSCAN.h:41

dqmMemoryStats.float
float
Definition: dqmMemoryStats.py:127

__device__
#define __device__
Definition: SiPixelGainForHLTonGPU.h:15

gpuVertexFinder::foundClusters
__shared__ unsigned int foundClusters
Definition: gpuClusterTracksDBSCAN.h:199

gpuVertexFinder::nvIntermediate
uint32_t & nvIntermediate
Definition: gpuClusterTracksDBSCAN.h:38

cms::cudacompat::atomicAdd
T1 atomicAdd(T1 *a, T2 b)
Definition: cudaCompat.h:61

cuda_assert.h