da/d01/gpuFitVertices_8h_source.html

 #ifndef RecoPixelVertexing_PixelVertexFinding_plugins_gpuFitVertices_h

 #define RecoPixelVertexing_PixelVertexFinding_plugins_gpuFitVertices_h


 #include <algorithm>

 #include <cmath>

 #include <cstdint>


 #include "HeterogeneousCore/CUDAUtilities/interface/HistoContainer.h"

 #include "HeterogeneousCore/CUDAUtilities/interface/cuda_assert.h"


 #include "gpuVertexFinder.h"


 namespace gpuVertexFinder {


   __device__ __forceinline__ void fitVertices(ZVertices* pdata,

                                               WorkSpace* pws,

                                               float chi2Max  // for outlier rejection

   ) {

     constexpr bool verbose = false;  // in principle the compiler should optmize out if false


     auto& __restrict__ data = *pdata;

     auto& __restrict__ ws = *pws;

     auto nt = ws.ntrks;

     float const* __restrict__ zt = ws.zt;

     float const* __restrict__ ezt2 = ws.ezt2;

     float* __restrict__ zv = data.zv;

     float* __restrict__ wv = data.wv;

     float* __restrict__ chi2 = data.chi2;

     uint32_t& nvFinal = data.nvFinal;

     uint32_t& nvIntermediate = ws.nvIntermediate;


     int32_t* __restrict__ nn = data.ndof;

     int32_t* __restrict__ iv = ws.iv;


     assert(pdata);

     assert(zt);


     assert(nvFinal <= nvIntermediate);

     nvFinal = nvIntermediate;

     auto foundClusters = nvFinal;


     // zero

     for (auto i = threadIdx.x; i < foundClusters; i += blockDim.x) {

       zv[i] = 0;

       wv[i] = 0;

       chi2[i] = 0;

     }


     // only for test

     __shared__ int noise;

     if (verbose && 0 == threadIdx.x)

       noise = 0;


     __syncthreads();


     // compute cluster location

     for (auto i = threadIdx.x; i < nt; i += blockDim.x) {

       if (iv[i] > 9990) {

         if (verbose)

           atomicAdd(&noise, 1);

         continue;

       }

       assert(iv[i] >= 0);

       assert(iv[i] < int(foundClusters));

       auto w = 1.f / ezt2[i];

       atomicAdd_block(&zv[iv[i]], zt[i] * w);

       atomicAdd_block(&wv[iv[i]], w);

     }


     __syncthreads();

     // reuse nn

     for (auto i = threadIdx.x; i < foundClusters; i += blockDim.x) {

       assert(wv[i] > 0.f);

       zv[i] /= wv[i];

       nn[i] = -1;  // ndof

     }

     __syncthreads();


     // compute chi2

     for (auto i = threadIdx.x; i < nt; i += blockDim.x) {

       if (iv[i] > 9990)

         continue;


       auto c2 = zv[iv[i]] - zt[i];

       c2 *= c2 / ezt2[i];

       if (c2 > chi2Max) {

         iv[i] = 9999;

         continue;

       }

       atomicAdd_block(&chi2[iv[i]], c2);

       atomicAdd_block(&nn[iv[i]], 1);

     }

     __syncthreads();

     for (auto i = threadIdx.x; i < foundClusters; i += blockDim.x)

       if (nn[i] > 0)

         wv[i] *= float(nn[i]) / chi2[i];


     if (verbose && 0 == threadIdx.x)

       printf("found %d proto clusters ", foundClusters);

     if (verbose && 0 == threadIdx.x)

       printf("and %d noise\n", noise);

   }


   __global__ void fitVerticesKernel(ZVertices* pdata,

                                     WorkSpace* pws,

                                     float chi2Max  // for outlier rejection

   ) {

     fitVertices(pdata, pws, chi2Max);

   }


 }  // namespace gpuVertexFinder


 #endif  // RecoPixelVertexing_PixelVertexFinding_plugins_gpuFitVertices_h

cms::cudacompat::threadIdx
const dim3 threadIdx
Definition: cudaCompat.h:29

gpuVertexFinder::__syncthreads
__syncthreads()
Definition: cudaCompat.h:108

__forceinline__
#define __forceinline__
Definition: cudaCompat.h:22

mps_fire.i
i
Definition: mps_fire.py:428

gpuVertexFinder::chi2Max
__device__ WorkSpace float chi2Max
Definition: gpuFitVertices.h:18

gpuVertexFinder::iv
int32_t *__restrict__ iv
Definition: gpuClusterTracksDBSCAN.h:42

verbose
bool verbose
Definition: beamSpotDipStandalone.cc:87

gpuVertexFinder::assert
assert(pdata)

gpuVertexFinder::ezt2
float const *__restrict__ ezt2
Definition: gpuClusterTracksDBSCAN.h:35

gpuVertexFinder::data
auto &__restrict__ data
Definition: gpuClusterTracksDBSCAN.h:31

gpuVertexFinder::zt
float const *__restrict__ zt
Definition: gpuClusterTracksDBSCAN.h:34

__global__
#define __global__
Definition: cudaCompat.h:19

gpuVertexFinder::wv
float *__restrict__ wv
Definition: gpuFitVertices.h:27

gpuVertexFinder::zv
float *__restrict__ zv
Definition: gpuFitVertices.h:26

cms::cudacompat::blockDim
const dim3 blockDim
Definition: cudaCompat.h:30

gpuVertexFinder::chi2
float *__restrict__ chi2
Definition: gpuFitVertices.h:28

gpuVertexFinder::ws
auto &__restrict__ ws
Definition: gpuClusterTracksDBSCAN.h:32

gpuVertexFinder::nt
auto nt
Definition: gpuClusterTracksDBSCAN.h:33

gpuVertexFinder::pws
WorkSpace * pws
Definition: gpuClusterTracksDBSCAN.h:18

gpuVertexFinder::printf
printf("params %d %f %f %f\n", minT, eps, errmax, chi2max)

gpuVertexFinder.h

gpuVertexFinder::nvFinal
uint32_t & nvFinal
Definition: gpuClusterTracksDBSCAN.h:37

gpuVertexFinder::noise
__shared__ int noise
Definition: gpuFitVertices.h:50

HistoContainer.h

gpuVertexFinder::ZVertices
ZVertexSoA ZVertices
Definition: gpuVertexFinder.h:12

cms::cudacompat::atomicAdd_block
T1 atomicAdd_block(T1 *a, T2 b)
Definition: cudaCompat.h:68

gpuVertexFinder::nn
int32_t *__restrict__ nn
Definition: gpuClusterTracksDBSCAN.h:41

w
T w() const
Definition: extBasic3DVector.h:225

__device__
#define __device__
Definition: SiPixelGainForHLTonGPU.h:15

gpuVertexFinder::foundClusters
__shared__ unsigned int foundClusters
Definition: gpuClusterTracksDBSCAN.h:199

gpuVertexFinder::nvIntermediate
uint32_t & nvIntermediate
Definition: gpuClusterTracksDBSCAN.h:38

cms::cudacompat::atomicAdd
T1 atomicAdd(T1 *a, T2 b)
Definition: cudaCompat.h:61

cuda_assert.h

validate-o2o-wbm.f
tuple f
Definition: validate-o2o-wbm.py:27