da/d01/gpuFitVertices_8h_source.html

 #ifndef RecoPixelVertexing_PixelVertexFinding_plugins_gpuFitVertices_h
 #define RecoPixelVertexing_PixelVertexFinding_plugins_gpuFitVertices_h

 #include <algorithm>
 #include <cmath>
 #include <cstdint>

 #include "HeterogeneousCore/CUDAUtilities/interface/HistoContainer.h"
 #include "HeterogeneousCore/CUDAUtilities/interface/cuda_assert.h"

 #include "gpuVertexFinder.h"

 namespace gpuVertexFinder {

   __device__ __forceinline__ void fitVertices(VtxSoAView& pdata,
                                               WsSoAView& pws,
                                               float chi2Max  // for outlier rejection
   ) {
     constexpr bool verbose = false;  // in principle the compiler should optmize out if false

     auto& __restrict__ data = pdata;
     auto& __restrict__ ws = pws;
     auto nt = ws.ntrks();
     float const* __restrict__ zt = ws.zt();
     float const* __restrict__ ezt2 = ws.ezt2();
     float* __restrict__ zv = data.zv();
     float* __restrict__ wv = data.wv();
     float* __restrict__ chi2 = data.chi2();
     uint32_t& nvFinal = data.nvFinal();
     uint32_t& nvIntermediate = ws.nvIntermediate();

     int32_t* __restrict__ nn = data.ndof();
     int32_t* __restrict__ iv = ws.iv();

     assert(nvFinal <= nvIntermediate);
     nvFinal = nvIntermediate;
     auto foundClusters = nvFinal;

     // zero
     for (auto i = threadIdx.x; i < foundClusters; i += blockDim.x) {
       zv[i] = 0;
       wv[i] = 0;
       chi2[i] = 0;
     }

     // only for test
     __shared__ int noise;
     if (verbose && 0 == threadIdx.x)
       noise = 0;

     __syncthreads();

     // compute cluster location
     for (auto i = threadIdx.x; i < nt; i += blockDim.x) {
       if (iv[i] > 9990) {
         if (verbose)
           atomicAdd(&noise, 1);
         continue;
       }
       assert(iv[i] >= 0);
       assert(iv[i] < int(foundClusters));
       auto w = 1.f / ezt2[i];
       atomicAdd_block(&zv[iv[i]], zt[i] * w);
       atomicAdd_block(&wv[iv[i]], w);
     }

     __syncthreads();
     // reuse nn
     for (auto i = threadIdx.x; i < foundClusters; i += blockDim.x) {
       assert(wv[i] > 0.f);
       zv[i] /= wv[i];
       nn[i] = -1;  // ndof
     }
     __syncthreads();

     // compute chi2
     for (auto i = threadIdx.x; i < nt; i += blockDim.x) {
       if (iv[i] > 9990)
         continue;

       auto c2 = zv[iv[i]] - zt[i];
       c2 *= c2 / ezt2[i];
       if (c2 > chi2Max) {
         iv[i] = 9999;
         continue;
       }
       atomicAdd_block(&chi2[iv[i]], c2);
       atomicAdd_block(&nn[iv[i]], 1);
     }
     __syncthreads();
     for (auto i = threadIdx.x; i < foundClusters; i += blockDim.x)
       if (nn[i] > 0)
         wv[i] *= float(nn[i]) / chi2[i];

     if (verbose && 0 == threadIdx.x)
       printf("found %d proto clusters ", foundClusters);
     if (verbose && 0 == threadIdx.x)
       printf("and %d noise\n", noise);
   }

   __global__ void fitVerticesKernel(VtxSoAView pdata,
                                     WsSoAView pws,
                                     float chi2Max  // for outlier rejection
   ) {
     fitVertices(pdata, pws, chi2Max);
   }

 }  // namespace gpuVertexFinder

 #endif  // RecoPixelVertexing_PixelVertexFinding_plugins_gpuFitVertices_h
cms::cudacompat::threadIdx
const dim3 threadIdx
Definition: cudaCompat.h:29

gpuVertexFinder::__syncthreads
__syncthreads()
Definition: cudaCompat.h:132

gpuVertexFinder::chi2
float *__restrict__ chi2
Definition: gpuFitVertices.h:28

__forceinline__
#define __forceinline__
Definition: cudaCompat.h:22

mps_fire.i
i
Definition: mps_fire.py:429

gpuVertexFinder::iv
int32_t *__restrict__ iv
Definition: gpuClusterTracksByDensity.h:46

w
T w() const
Definition: extBasic3DVector.h:225

gpuVertexFinder::data
auto &__restrict__ data
Definition: gpuClusterTracksByDensity.h:35

gpuVertexFinder::fitVertices
fitVertices(pdata, pws, maxChi2ForFirstFit)

__global__
#define __global__
Definition: cudaCompat.h:19

gpuVertexFinder::wv
float *__restrict__ wv
Definition: gpuFitVertices.h:27

gpuVertexFinder::zv
float *__restrict__ zv
Definition: gpuFitVertices.h:26

cms::cudacompat::blockDim
const dim3 blockDim
Definition: cudaCompat.h:30

gpuVertexFinder::zt
float const  *__restrict__ zt
Definition: gpuClusterTracksByDensity.h:38

gpuVertexFinder::ws
auto &__restrict__ ws
Definition: gpuClusterTracksByDensity.h:36

gpuVertexFinder::nt
auto nt
Definition: gpuClusterTracksByDensity.h:37

gpuVertexFinder::pws
__device__ WsSoAView & pws
Definition: gpuClusterTracksByDensity.h:21

gpuVertexFinder.h

gpuVertexFinder
Definition: gpuClusterTracksByDensity.h:13

f
double f[11][100]
Definition: MuScleFitUtils.cc:78

gpuVertexFinder::ezt2
float const  *__restrict__ ezt2
Definition: gpuClusterTracksByDensity.h:39

gpuVertexFinder::nvFinal
uint32_t & nvFinal
Definition: gpuClusterTracksByDensity.h:41

gpuVertexFinder::noise
__shared__ int noise
Definition: gpuFitVertices.h:47

HistoContainer.h

cms::cudacompat::atomicAdd_block
T1 atomicAdd_block(T1 *a, T2 b)
Definition: cudaCompat.h:68

gpuVertexFinder::WsSoAView
gpuVertexFinder::workSpace::PixelVertexWorkSpaceSoAView WsSoAView
Definition: gpuVertexFinder.h:18

gpuVertexFinder::nn
int32_t *__restrict__ nn
Definition: gpuClusterTracksByDensity.h:45

dqmMemoryStats.float
float
Definition: dqmMemoryStats.py:127

gpuVertexFinder::VtxSoAView
zVertex::ZVertexSoAView VtxSoAView
Definition: gpuVertexFinder.h:17

__device__
#define __device__
Definition: SiPixelGainForHLTonGPU.h:15

gpuVertexFinder::foundClusters
__shared__ unsigned int foundClusters
Definition: gpuClusterTracksByDensity.h:185

gpuVertexFinder::nvIntermediate
uint32_t & nvIntermediate
Definition: gpuClusterTracksByDensity.h:42

gpuVertexFinder::chi2Max
__device__ WsSoAView float chi2Max
Definition: gpuFitVertices.h:18

gpuVertexFinder::assert
assert(zt)

cms::cudacompat::atomicAdd
T1 atomicAdd(T1 *a, T2 b)
Definition: cudaCompat.h:61

cuda_assert.h

gpuVertexFinder::verbose
constexpr bool verbose
Definition: gpuClusterTracksByDensity.h:28