d5/dc7/CAHitNtupletGeneratorOnGPU_8cc_source.html

 //
 // Original Author: Felice Pantaleo, CERN
 //

 // #define GPU_DEBUG

 #include <array>
 #include <cassert>
 #include <functional>
 #include <vector>

 #include "DataFormats/Common/interface/Handle.h"
 #include "FWCore/Framework/interface/ConsumesCollector.h"
 #include "FWCore/Framework/interface/Event.h"
 #include "FWCore/MessageLogger/interface/MessageLogger.h"
 #include "FWCore/ParameterSet/interface/ParameterSetDescription.h"
 #include "FWCore/ServiceRegistry/interface/Service.h"
 #include "FWCore/Utilities/interface/EDMException.h"
 #include "FWCore/Utilities/interface/isFinite.h"
 #include "HeterogeneousCore/CUDAServices/interface/CUDAService.h"
 #include "TrackingTools/DetLayers/interface/BarrelDetLayer.h"

 #include "CAHitNtupletGeneratorOnGPU.h"

 namespace {

   template <typename T>
   T sqr(T x) {
     return x * x;
   }

   cAHitNtupletGenerator::QualityCuts makeQualityCuts(edm::ParameterSet const& pset) {
     auto coeff = pset.getParameter<std::vector<double>>("chi2Coeff");
     auto ptMax = pset.getParameter<double>("chi2MaxPt");
     if (coeff.size() != 2) {
       throw edm::Exception(edm::errors::Configuration,
                            "CAHitNtupletGeneratorOnGPU.trackQualityCuts.chi2Coeff must have 2 elements");
     }
     coeff[1] = (coeff[1] - coeff[0]) / log2(ptMax);
     return cAHitNtupletGenerator::QualityCuts{// polynomial coefficients for the pT-dependent chi2 cut
                                               {(float)coeff[0], (float)coeff[1], 0.f, 0.f},
                                               // max pT used to determine the chi2 cut
                                               (float)ptMax,
                                               // chi2 scale factor: 8 for broken line fit, ?? for Riemann fit
                                               (float)pset.getParameter<double>("chi2Scale"),
                                               // regional cuts for triplets
                                               {(float)pset.getParameter<double>("tripletMaxTip"),
                                                (float)pset.getParameter<double>("tripletMinPt"),
                                                (float)pset.getParameter<double>("tripletMaxZip")},
                                               // regional cuts for quadruplets
                                               {(float)pset.getParameter<double>("quadrupletMaxTip"),
                                                (float)pset.getParameter<double>("quadrupletMinPt"),
                                                (float)pset.getParameter<double>("quadrupletMaxZip")}};
   }

 }  // namespace

 using namespace std;

 CAHitNtupletGeneratorOnGPU::CAHitNtupletGeneratorOnGPU(const edm::ParameterSet& cfg, edm::ConsumesCollector& iC)
     : m_params(cfg.getParameter<bool>("onGPU"),
                cfg.getParameter<unsigned int>("minHitsPerNtuplet"),
                cfg.getParameter<unsigned int>("maxNumberOfDoublets"),
                cfg.getParameter<unsigned int>("minHitsForSharingCut"),
                cfg.getParameter<bool>("useRiemannFit"),
                cfg.getParameter<bool>("fitNas4"),
                cfg.getParameter<bool>("includeJumpingForwardDoublets"),
                cfg.getParameter<bool>("earlyFishbone"),
                cfg.getParameter<bool>("lateFishbone"),
                cfg.getParameter<bool>("idealConditions"),
                cfg.getParameter<bool>("fillStatistics"),
                cfg.getParameter<bool>("doClusterCut"),
                cfg.getParameter<bool>("doZ0Cut"),
                cfg.getParameter<bool>("doPtCut"),
                cfg.getParameter<bool>("doSharedHitCut"),
                cfg.getParameter<bool>("dupPassThrough"),
                cfg.getParameter<bool>("useSimpleTripletCleaner"),
                cfg.getParameter<double>("ptmin"),
                cfg.getParameter<double>("CAThetaCutBarrel"),
                cfg.getParameter<double>("CAThetaCutForward"),
                cfg.getParameter<double>("hardCurvCut"),
                cfg.getParameter<double>("dcaCutInnerTriplet"),
                cfg.getParameter<double>("dcaCutOuterTriplet"),
                makeQualityCuts(cfg.getParameterSet("trackQualityCuts"))) {
 #ifdef DUMP_GPU_TK_TUPLES
   printf("TK: %s %s %s %s %s %s %s %s %s %s %s %s %s %s %s %s %s\n",
          "tid",
          "qual",
          "nh",
          "nl",
          "charge",
          "pt",
          "eta",
          "phi",
          "tip",
          "zip",
          "chi2",
          "h1",
          "h2",
          "h3",
          "h4",
          "h5",
          "hn");
 #endif
 }

 void CAHitNtupletGeneratorOnGPU::fillDescriptions(edm::ParameterSetDescription& desc) {
   // 87 cm/GeV = 1/(3.8T * 0.3)
   // take less than radius given by the hardPtCut and reject everything below
   // auto hardCurvCut = 1.f/(0.35 * 87.f);
   desc.add<double>("ptmin", 0.9f)->setComment("Cut on minimum pt");
   desc.add<double>("CAThetaCutBarrel", 0.002f)->setComment("Cut on RZ alignement for Barrel");
   desc.add<double>("CAThetaCutForward", 0.003f)->setComment("Cut on RZ alignment for Forward");
   desc.add<double>("hardCurvCut", 1.f / (0.35 * 87.f))->setComment("Cut on minimum curvature");
   desc.add<double>("dcaCutInnerTriplet", 0.15f)->setComment("Cut on origin radius when the inner hit is on BPix1");
   desc.add<double>("dcaCutOuterTriplet", 0.25f)->setComment("Cut on origin radius when the outer hit is on BPix1");
   desc.add<bool>("earlyFishbone", true);
   desc.add<bool>("lateFishbone", false);
   desc.add<bool>("idealConditions", true);
   desc.add<bool>("fillStatistics", false);
   desc.add<unsigned int>("minHitsPerNtuplet", 4);
   desc.add<unsigned int>("maxNumberOfDoublets", caConstants::maxNumberOfDoublets);
   desc.add<unsigned int>("minHitsForSharingCut", 10)
       ->setComment("Maximum number of hits in a tuple to clean also if the shared hit is on bpx1");
   desc.add<bool>("includeJumpingForwardDoublets", false);
   desc.add<bool>("fitNas4", false)->setComment("fit only 4 hits out of N");
   desc.add<bool>("doClusterCut", true);
   desc.add<bool>("doZ0Cut", true);
   desc.add<bool>("doPtCut", true);
   desc.add<bool>("useRiemannFit", false)->setComment("true for Riemann, false for BrokenLine");
   desc.add<bool>("doSharedHitCut", true)->setComment("Sharing hit nTuples cleaning");
   desc.add<bool>("dupPassThrough", false)->setComment("Do not reject duplicate");
   desc.add<bool>("useSimpleTripletCleaner", true)->setComment("use alternate implementation");

   edm::ParameterSetDescription trackQualityCuts;
   trackQualityCuts.add<double>("chi2MaxPt", 10.)->setComment("max pT used to determine the pT-dependent chi2 cut");
   trackQualityCuts.add<std::vector<double>>("chi2Coeff", {0.9, 1.8})->setComment("chi2 at 1GeV and at ptMax above");
   trackQualityCuts.add<double>("chi2Scale", 8.)
       ->setComment(
           "Factor to multiply the pT-dependent chi2 cut (currently: 8 for the broken line fit, ?? for the Riemann "
           "fit)");
   trackQualityCuts.add<double>("tripletMinPt", 0.5)->setComment("Min pT for triplets, in GeV");
   trackQualityCuts.add<double>("tripletMaxTip", 0.3)->setComment("Max |Tip| for triplets, in cm");
   trackQualityCuts.add<double>("tripletMaxZip", 12.)->setComment("Max |Zip| for triplets, in cm");
   trackQualityCuts.add<double>("quadrupletMinPt", 0.3)->setComment("Min pT for quadruplets, in GeV");
   trackQualityCuts.add<double>("quadrupletMaxTip", 0.5)->setComment("Max |Tip| for quadruplets, in cm");
   trackQualityCuts.add<double>("quadrupletMaxZip", 12.)->setComment("Max |Zip| for quadruplets, in cm");
   desc.add<edm::ParameterSetDescription>("trackQualityCuts", trackQualityCuts)
       ->setComment(
           "Quality cuts based on the results of the track fit:\n  - apply a pT-dependent chi2 cut;\n  - apply \"region "
           "cuts\" based on the fit results (pT, Tip, Zip).");
 }

 void CAHitNtupletGeneratorOnGPU::beginJob() {
   if (m_params.onGPU_) {
     // allocate pinned host memory only if CUDA is available
     edm::Service<CUDAService> cs;
     if (cs and cs->enabled()) {
       cudaCheck(cudaMalloc(&m_counters, sizeof(Counters)));
       cudaCheck(cudaMemset(m_counters, 0, sizeof(Counters)));
     }
   } else {
     m_counters = new Counters();
     memset(m_counters, 0, sizeof(Counters));
   }
 }

 void CAHitNtupletGeneratorOnGPU::endJob() {
   if (m_params.onGPU_) {
     // print the gpu statistics and free pinned host memory only if CUDA is available
     edm::Service<CUDAService> cs;
     if (cs and cs->enabled()) {
       if (m_params.doStats_) {
         // crash on multi-gpu processes
         CAHitNtupletGeneratorKernelsGPU::printCounters(m_counters);
       }
       cudaFree(m_counters);
     }
   } else {
     if (m_params.doStats_) {
       CAHitNtupletGeneratorKernelsCPU::printCounters(m_counters);
     }
     delete m_counters;
   }
 }

 PixelTrackHeterogeneous CAHitNtupletGeneratorOnGPU::makeTuplesAsync(TrackingRecHit2DGPU const& hits_d,
                                                                     float bfield,
                                                                     cudaStream_t stream) const {
   PixelTrackHeterogeneous tracks(cms::cuda::make_device_unique<pixelTrack::TrackSoA>(stream));

   auto* soa = tracks.get();
   assert(soa);

   CAHitNtupletGeneratorKernelsGPU kernels(m_params);
   kernels.setCounters(m_counters);
   kernels.allocateOnGPU(hits_d.nHits(), stream);

   kernels.buildDoublets(hits_d, stream);
   kernels.launchKernels(hits_d, soa, stream);

   HelixFitOnGPU fitter(bfield, m_params.fitNas4_);
   fitter.allocateOnGPU(&(soa->hitIndices), kernels.tupleMultiplicity(), soa);
   if (m_params.useRiemannFit_) {
     fitter.launchRiemannKernels(hits_d.view(), hits_d.nHits(), caConstants::maxNumberOfQuadruplets, stream);
   } else {
     fitter.launchBrokenLineKernels(hits_d.view(), hits_d.nHits(), caConstants::maxNumberOfQuadruplets, stream);
   }
   kernels.classifyTuples(hits_d, soa, stream);

 #ifdef GPU_DEBUG
   cudaDeviceSynchronize();
   cudaCheck(cudaGetLastError());
   std::cout << "finished building pixel tracks on GPU" << std::endl;
 #endif

   return tracks;
 }

 PixelTrackHeterogeneous CAHitNtupletGeneratorOnGPU::makeTuples(TrackingRecHit2DCPU const& hits_d, float bfield) const {
   PixelTrackHeterogeneous tracks(std::make_unique<pixelTrack::TrackSoA>());

   auto* soa = tracks.get();
   assert(soa);

   CAHitNtupletGeneratorKernelsCPU kernels(m_params);
   kernels.setCounters(m_counters);
   kernels.allocateOnGPU(hits_d.nHits(), nullptr);

   kernels.buildDoublets(hits_d, nullptr);
   kernels.launchKernels(hits_d, soa, nullptr);

   if (0 == hits_d.nHits())
     return tracks;

   // now fit
   HelixFitOnGPU fitter(bfield, m_params.fitNas4_);
   fitter.allocateOnGPU(&(soa->hitIndices), kernels.tupleMultiplicity(), soa);

   if (m_params.useRiemannFit_) {
     fitter.launchRiemannKernelsOnCPU(hits_d.view(), hits_d.nHits(), caConstants::maxNumberOfQuadruplets);
   } else {
     fitter.launchBrokenLineKernelsOnCPU(hits_d.view(), hits_d.nHits(), caConstants::maxNumberOfQuadruplets);
   }

   kernels.classifyTuples(hits_d, soa, nullptr);

 #ifdef GPU_DEBUG
   std::cout << "finished building pixel tracks on CPU" << std::endl;
 #endif

   // check that the fixed-size SoA does not overflow
   auto const& tsoa = *soa;
   auto maxTracks = tsoa.stride();
   auto nTracks = tsoa.nTracks();
   assert(nTracks < maxTracks);
   if (nTracks == maxTracks - 1) {
     edm::LogWarning("PixelTracks") << "Unsorted reconstructed pixel tracks truncated to " << maxTracks - 1
                                    << " candidates";
   }

   return tracks;
 }
cAHitNtupletGenerator::Params::useRiemannFit_
const bool useRiemannFit_
Definition: CAHitNtupletGeneratorKernels.h:112

CAHitNtupletGeneratorKernels::launchKernels
void launchKernels(HitsOnCPU const &hh, TkSoA *tuples_d, cudaStream_t cudaStream)
Definition: CAHitNtupletGeneratorKernels.cc:81

isFinite.h

edm::Service
Definition: Service.h:30

HelixFitOnGPU::launchBrokenLineKernelsOnCPU
void launchBrokenLineKernelsOnCPU(HitsView const *hv, uint32_t nhits, uint32_t maxNumberOfTuples)
Definition: BrokenLineFitOnGPU.cc:3

Exception
Definition: hltDiff.cc:245

HelixFitOnGPU
Definition: HelixFitOnGPU.h:34

MessageLogger.h

CAHitNtupletGeneratorKernels::buildDoublets
void buildDoublets(HitsOnCPU const &hh, cudaStream_t stream)
Definition: CAHitNtupletGeneratorKernels.cc:17

caConstants::maxNumberOfQuadruplets
constexpr uint32_t maxNumberOfQuadruplets
Definition: CAConstants.h:42

CAHitNtupletGeneratorKernels::classifyTuples
void classifyTuples(HitsOnCPU const &hh, TkSoA *tuples_d, cudaStream_t cudaStream)
Definition: CAHitNtupletGeneratorKernels.cc:147

Event.h

CAHitNtupletGeneratorOnGPU.h

CAHitNtupletGeneratorOnGPU::endJob
void endJob()
Definition: CAHitNtupletGeneratorOnGPU.cc:168

CAHitNtupletGeneratorOnGPU::beginJob
void beginJob()
Definition: CAHitNtupletGeneratorOnGPU.cc:154

muonDTDigis_cfi.pset
pset
Definition: muonDTDigis_cfi.py:27

std
Definition: JetResolutionObject.h:76

cAHitNtupletGenerator::Params::doStats_
const bool doStats_
Definition: CAHitNtupletGeneratorKernels.h:118

cms::cuda::stream
uint32_t T const  *__restrict__ uint32_t const  *__restrict__ int32_t int Histo::index_type cudaStream_t stream
Definition: HistoContainer.h:51

sqr
int sqr(const T &t)
Definition: pfalgo_common_ref.h:9

TrackingRecHit2DHeterogeneous
Definition: TrackingRecHit2DHeterogeneous.h:9

cms::cuda::assert
assert(be >=bs)

cAHitNtupletGenerator::Params::onGPU_
const bool onGPU_
Definition: CAHitNtupletGeneratorKernels.h:108

BeamSpotPI::nTracks
Definition: BeamSpotPayloadInspectorHelper.h:45

HLT_2022v12_cff.maxTracks
maxTracks
Definition: HLT_2022v12_cff.py:24452

cAHitNtupletGenerator::Counters
Definition: CAHitNtupletGeneratorKernels.h:14

CAHitNtupletGeneratorKernels::printCounters
static void printCounters(Counters const *counters)
Definition: CAHitNtupletGeneratorKernels.cc:12

edm::ParameterSetDescription
Definition: ParameterSetDescription.h:52

callgraph.cs
cs
Definition: callgraph.py:102

edm::errors::Configuration
Definition: EDMException.h:36

createfilelist.int
int
Definition: createfilelist.py:10

ParameterSetDescription.h

EDMException.h

gpuVertexFinder::soa
ZVertexSoA * soa
Definition: gpuVertexFinder.cc:21

CAHitNtupletGeneratorKernels::allocateOnGPU
void allocateOnGPU(int32_t nHits, cudaStream_t stream)
Definition: CAHitNtupletGeneratorKernelsAlloc.cc:9

CAHitNtupletGeneratorKernels
Definition: CAHitNtupletGeneratorKernels.h:157

submitPVResolutionJobs.desc
string desc
Definition: submitPVResolutionJobs.py:251

CAHitNtupletGeneratorKernels::tupleMultiplicity
TupleMultiplicity const  * tupleMultiplicity() const
Definition: CAHitNtupletGeneratorKernels.h:183

CAHitNtupletGeneratorOnGPU::fillDescriptions
static void fillDescriptions(edm::ParameterSetDescription &desc)
Definition: CAHitNtupletGeneratorOnGPU.cc:107

BarrelDetLayer.h

Service.h

CAHitNtupletGeneratorOnGPU::Counters
cAHitNtupletGenerator::Counters Counters
Definition: CAHitNtupletGeneratorOnGPU.h:37

caConstants::maxNumberOfDoublets
constexpr uint32_t maxNumberOfDoublets
Definition: CAConstants.h:37

looper.cfg
cfg
Definition: looper.py:296

HelixFitOnGPU::launchRiemannKernelsOnCPU
void launchRiemannKernelsOnCPU(HitsView const *hv, uint32_t nhits, uint32_t maxNumberOfTuples)
Definition: RiemannFitOnGPU.cc:3

electrons_cff.bool
bool
Definition: electrons_cff.py:381

HelixFitOnGPU::launchRiemannKernels
void launchRiemannKernels(HitsView const *hv, uint32_t nhits, uint32_t maxNumberOfTuples, cudaStream_t cudaStream)

HLT_2022v12_cff.trackQualityCuts
trackQualityCuts
Definition: HLT_2022v12_cff.py:8225

CAHitNtupletGeneratorOnGPU::makeTuplesAsync
PixelTrackHeterogeneous makeTuplesAsync(TrackingRecHit2DGPU const &hits_d, float bfield, cudaStream_t stream) const
Definition: CAHitNtupletGeneratorOnGPU.cc:187

tracks
auto const  & tracks
cannot be loose
Definition: CAHitNtupletGeneratorKernelsImpl.h:148

CAHitNtupletGeneratorOnGPU::CAHitNtupletGeneratorOnGPU
CAHitNtupletGeneratorOnGPU(const edm::ParameterSet &cfg, edm::ConsumesCollector &&iC)
Definition: CAHitNtupletGeneratorOnGPU.h:40

AlignmentTrackSelector_cfi.ptMax
ptMax
Definition: AlignmentTrackSelector_cfi.py:12

HelixFitOnGPU::launchBrokenLineKernels
void launchBrokenLineKernels(HitsView const *hv, uint32_t nhits, uint32_t maxNumberOfTuples, cudaStream_t cudaStream)

CAHitNtupletGeneratorOnGPU::makeTuples
PixelTrackHeterogeneous makeTuples(TrackingRecHit2DCPU const &hits_d, float bfield) const
Definition: CAHitNtupletGeneratorOnGPU.cc:220

CAHitNtupletGeneratorOnGPU::m_counters
Counters * m_counters
Definition: CAHitNtupletGeneratorOnGPU.h:63

HelixFitOnGPU::allocateOnGPU
void allocateOnGPU(Tuples const *tuples, TupleMultiplicity const *tupleMultiplicity, OutputSoA *outputSoA)
Definition: HelixFitOnGPU.cc:4

cAHitNtupletGenerator::Params::fitNas4_
const bool fitNas4_
Definition: CAHitNtupletGeneratorKernels.h:113

edm::getParameterSet
ParameterSet const  & getParameterSet(ParameterSetID const &id)
Definition: ParameterSet.cc:862

CUDAService.h

CAHitNtupletGeneratorKernels::setCounters
void setCounters(Counters *counters)
Definition: CAHitNtupletGeneratorKernels.h:194

HeterogeneousSoA
Definition: HeterogeneousSoA.h:13

TrackingRecHit2DHeterogeneous::nHits
auto nHits() const
Definition: TrackingRecHit2DHeterogeneous.h:60

x
float x
Definition: beamSpotDipStandalone.cc:55

dqmMemoryStats.float
float
Definition: dqmMemoryStats.py:127

edm::ParameterSet
Definition: ParameterSet.h:47

gather_cfg.cout
cout
Definition: gather_cfg.py:144

cudaCheck
#define cudaCheck(ARG,...)
Definition: cudaCheck.h:69

TrackingRecHit2DHeterogeneous::view
TrackingRecHit2DSOAView * view()
Definition: TrackingRecHit2DHeterogeneous.h:57

edm::LogWarning
Log< level::Warning, false > LogWarning
Definition: MessageLogger.h:122

T
long double T
Definition: Basic3DVectorLD.h:48

ConsumesCollector.h

edm::ConsumesCollector
Definition: ConsumesCollector.h:45

Handle.h

cAHitNtupletGenerator::QualityCuts
Definition: CAHitNtupletGeneratorKernels.h:40

CAHitNtupletGeneratorOnGPU::m_params
Params m_params
Definition: CAHitNtupletGeneratorOnGPU.h:61