dc/d1c/alpaka_2AmplitudeComputationCommonKernels_8h_source.html

 #ifndef RecoLocalCalo_EcalRecProducers_plugins_alpaka_AmplitudeComputationCommonKernels_h
 #define RecoLocalCalo_EcalRecProducers_plugins_alpaka_AmplitudeComputationCommonKernels_h

 #include <cstdlib>
 #include <limits>
 #include <alpaka/alpaka.hpp>

 #include "CondFormats/EcalObjects/interface/alpaka/EcalMultifitConditionsDevice.h"
 #include "DataFormats/EcalDigi/interface/alpaka/EcalDigiDeviceCollection.h"
 #include "DataFormats/EcalRecHit/interface/alpaka/EcalUncalibratedRecHitDeviceCollection.h"
 #include "CondFormats/EcalObjects/interface/EcalPulseShapes.h"
 #include "DataFormats/EcalDigi/interface/EcalDataFrame.h"
 #include "DataFormats/EcalDigi/interface/EcalMGPASample.h"
 #include "DataFormats/EcalRecHit/interface/EcalUncalibratedRecHit.h"
 #include "FWCore/Utilities/interface/CMSUnrollLoop.h"
 #include "HeterogeneousCore/AlpakaInterface/interface/config.h"
 #include "HeterogeneousCore/AlpakaInterface/interface/traits.h"
 #include "RecoLocalCalo/EcalRecProducers/interface/EigenMatrixTypes_gpu.h"

 #include "DeclsForKernels.h"
 #include "KernelHelpers.h"

 namespace ALPAKA_ACCELERATOR_NAMESPACE::ecal::multifit {

   class Kernel_prep_1d_and_initialize {
   public:
     template <typename TAcc, typename = std::enable_if_t<alpaka::isAccelerator<TAcc>>>
     ALPAKA_FN_ACC void operator()(TAcc const& acc,
                                   EcalDigiDeviceCollection::ConstView digisDevEB,
                                   EcalDigiDeviceCollection::ConstView digisDevEE,
                                   EcalUncalibratedRecHitDeviceCollection::View uncalibRecHitsEB,
                                   EcalUncalibratedRecHitDeviceCollection::View uncalibRecHitsEE,
                                   EcalMultifitConditionsDevice::ConstView conditionsDev,
                                   ::ecal::multifit::SampleVector* amplitudes,
                                   ::ecal::multifit::SampleGainVector* gainsNoise,
                                   bool* hasSwitchToGain6,
                                   bool* hasSwitchToGain1,
                                   bool* isSaturated,
                                   char* acState,
                                   ::ecal::multifit::BXVectorType* bxs,
                                   bool const gainSwitchUseMaxSampleEB,
                                   bool const gainSwitchUseMaxSampleEE) const {
       constexpr bool dynamicPedestal = false;  //---- default to false, ok
       constexpr auto nsamples = EcalDataFrame::MAXSAMPLES;
       constexpr int sample_max = 5;
       constexpr int full_pulse_max = 9;
       auto const offsetForHashes = conditionsDev.offsetEE();

       auto const nchannelsEB = digisDevEB.size();
       auto const nchannelsEE = digisDevEE.size();
       auto const nchannels = nchannelsEB + nchannelsEE;
       auto const totalElements = nchannels * nsamples;

       auto const elemsPerBlock = alpaka::getWorkDiv<alpaka::Block, alpaka::Elems>(acc)[0u];

       char* shared_mem = alpaka::getDynSharedMem<char>(acc);
       auto* shr_hasSwitchToGain6 = reinterpret_cast<bool*>(shared_mem);
       auto* shr_hasSwitchToGain1 = shr_hasSwitchToGain6 + elemsPerBlock;
       auto* shr_hasSwitchToGain0 = shr_hasSwitchToGain1 + elemsPerBlock;
       auto* shr_isSaturated = shr_hasSwitchToGain0 + elemsPerBlock;
       auto* shr_hasSwitchToGain0_tmp = shr_isSaturated + elemsPerBlock;
       auto* shr_counts = reinterpret_cast<char*>(shr_hasSwitchToGain0_tmp) + elemsPerBlock;

       for (auto block : cms::alpakatools::blocks_with_stride(acc, totalElements)) {
         for (auto idx : cms::alpakatools::elements_in_block(acc, block, totalElements)) {
           // set the output collection size scalars
           if (idx.global == 0) {
             uncalibRecHitsEB.size() = nchannelsEB;
             uncalibRecHitsEE.size() = nchannelsEE;
           }

           auto const ch = idx.global / nsamples;
           // for accessing input arrays
           int const inputTx = ch >= nchannelsEB ? idx.global - nchannelsEB * nsamples : idx.global;
           // eb is first and then ee
           auto const* digis_in = ch >= nchannelsEB ? digisDevEE.data()->data() : digisDevEB.data()->data();
           auto const gainId = ecalMGPA::gainId(digis_in[inputTx]);

           // store into shared mem for initialization
           shr_hasSwitchToGain6[idx.local] = gainId == EcalMgpaBitwiseGain6;
           shr_hasSwitchToGain1[idx.local] = gainId == EcalMgpaBitwiseGain1;
           shr_hasSwitchToGain0_tmp[idx.local] = gainId == EcalMgpaBitwiseGain0;
           shr_hasSwitchToGain0[idx.local] = shr_hasSwitchToGain0_tmp[idx.local];
           shr_counts[idx.local] = 0;
         }

         alpaka::syncBlockThreads(acc);

         for (auto idx : cms::alpakatools::elements_in_block(acc, block, totalElements)) {
           auto const sample = idx.local % nsamples;

           // non-divergent branch (except for the last 4 threads)
           if (idx.local <= elemsPerBlock - 5) {
             CMS_UNROLL_LOOP
             for (int i = 0; i < 5; ++i)
               shr_counts[idx.local] += shr_hasSwitchToGain0[idx.local + i];
           }
           shr_isSaturated[idx.local] = shr_counts[idx.local] == 5;

           //
           // unrolled reductions
           //
           if (sample < 5) {
             shr_hasSwitchToGain6[idx.local] = shr_hasSwitchToGain6[idx.local] || shr_hasSwitchToGain6[idx.local + 5];
             shr_hasSwitchToGain1[idx.local] = shr_hasSwitchToGain1[idx.local] || shr_hasSwitchToGain1[idx.local + 5];

             // duplication of hasSwitchToGain0 in order not to
             // introduce another syncthreads
             shr_hasSwitchToGain0_tmp[idx.local] =
                 shr_hasSwitchToGain0_tmp[idx.local] || shr_hasSwitchToGain0_tmp[idx.local + 5];
           }
         }

         alpaka::syncBlockThreads(acc);

         for (auto idx : cms::alpakatools::elements_in_block(acc, block, totalElements)) {
           auto const sample = idx.local % nsamples;

           if (sample < 2) {
             // note, both threads per channel take value [3] twice to avoid another if
             shr_hasSwitchToGain6[idx.local] = shr_hasSwitchToGain6[idx.local] || shr_hasSwitchToGain6[idx.local + 2] ||
                                               shr_hasSwitchToGain6[idx.local + 3];
             shr_hasSwitchToGain1[idx.local] = shr_hasSwitchToGain1[idx.local] || shr_hasSwitchToGain1[idx.local + 2] ||
                                               shr_hasSwitchToGain1[idx.local + 3];

             shr_hasSwitchToGain0_tmp[idx.local] = shr_hasSwitchToGain0_tmp[idx.local] ||
                                                   shr_hasSwitchToGain0_tmp[idx.local + 2] ||
                                                   shr_hasSwitchToGain0_tmp[idx.local + 3];

             // sample < 2 -> first 2 threads of each channel will be used here
             // => 0 -> will compare 3 and 4 and put into 0
             // => 1 -> will compare 4 and 5 and put into 1
             shr_isSaturated[idx.local] = shr_isSaturated[idx.local + 3] || shr_isSaturated[idx.local + 4];
           }
         }

         alpaka::syncBlockThreads(acc);

         for (auto idx : cms::alpakatools::elements_in_block(acc, block, totalElements)) {
           auto const ch = idx.global / nsamples;
           auto const sample = idx.local % nsamples;

           if (sample == 0) {
             shr_hasSwitchToGain6[idx.local] = shr_hasSwitchToGain6[idx.local] || shr_hasSwitchToGain6[idx.local + 1];
             shr_hasSwitchToGain1[idx.local] = shr_hasSwitchToGain1[idx.local] || shr_hasSwitchToGain1[idx.local + 1];
             shr_hasSwitchToGain0_tmp[idx.local] =
                 shr_hasSwitchToGain0_tmp[idx.local] || shr_hasSwitchToGain0_tmp[idx.local + 1];

             hasSwitchToGain6[ch] = shr_hasSwitchToGain6[idx.local];
             hasSwitchToGain1[ch] = shr_hasSwitchToGain1[idx.local];

             shr_isSaturated[idx.local + 3] = shr_isSaturated[idx.local] || shr_isSaturated[idx.local + 1];
             isSaturated[ch] = shr_isSaturated[idx.local + 3];
           }
         }

         // TODO: w/o this sync, there is a race
         // if (idx.local == sample_max) below uses max sample thread, not for 0 sample
         // check if we can remove it
         alpaka::syncBlockThreads(acc);

         for (auto idx : cms::alpakatools::elements_in_block(acc, block, totalElements)) {
           auto const ch = idx.global / nsamples;
           auto const sample = idx.local % nsamples;

           // for accessing input arrays
           int const inputCh = ch >= nchannelsEB ? ch - nchannelsEB : ch;
           int const inputTx = ch >= nchannelsEB ? idx.global - nchannelsEB * nsamples : idx.global;

           auto const* dids = ch >= nchannelsEB ? digisDevEE.id() : digisDevEB.id();
           auto const did = DetId{dids[inputCh]};
           auto const isBarrel = did.subdetId() == EcalBarrel;
           // TODO offset for ee, 0 for eb
           auto const hashedId = isBarrel ? reconstruction::hashedIndexEB(did.rawId())
                                          : offsetForHashes + reconstruction::hashedIndexEE(did.rawId());

           // eb is first and then ee
           auto const* digis_in = ch >= nchannelsEB ? digisDevEE.data()->data() : digisDevEB.data()->data();

           auto* amplitudesForMinimization = reinterpret_cast<::ecal::multifit::SampleVector*>(
               ch >= nchannelsEB ? uncalibRecHitsEE.outOfTimeAmplitudes()->data()
                                 : uncalibRecHitsEB.outOfTimeAmplitudes()->data());
           auto* energies = ch >= nchannelsEB ? uncalibRecHitsEE.amplitude() : uncalibRecHitsEB.amplitude();
           auto* chi2 = ch >= nchannelsEB ? uncalibRecHitsEE.chi2() : uncalibRecHitsEB.chi2();
           auto* g_pedestal = ch >= nchannelsEB ? uncalibRecHitsEE.pedestal() : uncalibRecHitsEB.pedestal();
           auto* dids_out = ch >= nchannelsEB ? uncalibRecHitsEE.id() : uncalibRecHitsEB.id();
           auto* flags = ch >= nchannelsEB ? uncalibRecHitsEE.flags() : uncalibRecHitsEB.flags();

           auto const adc = ecalMGPA::adc(digis_in[inputTx]);
           auto const gainId = ecalMGPA::gainId(digis_in[inputTx]);
           ::ecal::multifit::SampleVector::Scalar amplitude = 0.;
           ::ecal::multifit::SampleVector::Scalar pedestal = 0.;
           ::ecal::multifit::SampleVector::Scalar gainratio = 0.;

           // TODO: divergent branch
           if (gainId == 0 || gainId == 3) {
             pedestal = conditionsDev.pedestals_mean_x1()[hashedId];
             gainratio = conditionsDev.gain6Over1()[hashedId] * conditionsDev.gain12Over6()[hashedId];
             gainsNoise[ch](sample) = 2;
           } else if (gainId == 1) {
             pedestal = conditionsDev.pedestals_mean_x12()[hashedId];
             gainratio = 1.;
             gainsNoise[ch](sample) = 0;
           } else if (gainId == 2) {
             pedestal = conditionsDev.pedestals_mean_x6()[hashedId];
             gainratio = conditionsDev.gain12Over6()[hashedId];
             gainsNoise[ch](sample) = 1;
           }

           // TODO: compile time constant -> branch should be non-divergent
           if (dynamicPedestal)
             amplitude = static_cast<::ecal::multifit::SampleVector::Scalar>(adc) * gainratio;
           else
             amplitude = (static_cast<::ecal::multifit::SampleVector::Scalar>(adc) - pedestal) * gainratio;
           amplitudes[ch][sample] = amplitude;

 #ifdef ECAL_RECO_ALPAKA_DEBUG
           printf("%d %d %d %d %f %f %f\n", idx.global, ch, sample, adc, amplitude, pedestal, gainratio);
           if (adc == 0)
             printf("adc is zero\n");
 #endif

           //
           // initialization
           //
           amplitudesForMinimization[inputCh](sample) = 0;
           bxs[ch](sample) = sample - 5;

           // select the thread for the max sample
           //---> hardcoded above to be 5th sample, ok
           if (sample == sample_max) {
             //
             // initialization
             //
             acState[ch] = static_cast<char>(MinimizationState::NotFinished);
             energies[inputCh] = 0;
             chi2[inputCh] = 0;
             g_pedestal[inputCh] = 0;
             uint32_t flag = 0;
             dids_out[inputCh] = did.rawId();

             // start of this channel in shared mem
             auto const chStart = idx.local - sample_max;
             // thread for the max sample in shared mem
             auto const threadMax = idx.local;
             auto const gainSwitchUseMaxSample = isBarrel ? gainSwitchUseMaxSampleEB : gainSwitchUseMaxSampleEE;

             // this flag setting is applied to all of the cases
             if (shr_hasSwitchToGain6[chStart])
               flag |= 0x1 << EcalUncalibratedRecHit::kHasSwitchToGain6;
             if (shr_hasSwitchToGain1[chStart])
               flag |= 0x1 << EcalUncalibratedRecHit::kHasSwitchToGain1;

             // this corresponds to cpu branching on lastSampleBeforeSaturation
             // likely false
             // check only for the idx.local corresponding to sample==0
             if (sample == 0 && shr_hasSwitchToGain0_tmp[idx.local]) {
               // assign for the case some sample having gainId == 0
               //energies[inputCh] = amplitudes[ch][sample_max];
               energies[inputCh] = amplitude;

               // check if samples before sample_max have true
               bool saturated_before_max = false;
               CMS_UNROLL_LOOP
               for (char ii = 0; ii < 5; ++ii)
                 saturated_before_max = saturated_before_max || shr_hasSwitchToGain0[chStart + ii];

               // if saturation is in the max sample and not in the first 5
               if (!saturated_before_max && shr_hasSwitchToGain0[threadMax])
                 energies[inputCh] = 49140;  // 4095 * 12 (maximum ADC range * MultiGainPreAmplifier (MGPA) gain)
                                             // This is the actual maximum range that is set when we saturate.
                                             //---- AM FIXME : no pedestal subtraction???
                                             //It should be "(4095. - pedestal) * gainratio"

               // set state flag to terminate further processing of this channel
               acState[ch] = static_cast<char>(MinimizationState::Precomputed);
               flag |= 0x1 << EcalUncalibratedRecHit::kSaturated;
               flags[inputCh] = flag;
               continue;
             }

             // according to cpu version
             //            auto max_amplitude = amplitudes[ch][sample_max];
             auto const max_amplitude = amplitude;
             // pulse shape template value
             auto shape_value = conditionsDev.pulseShapes()[hashedId][full_pulse_max - 7];
             // note, no syncing as the same thread will be accessing here
             bool hasGainSwitch =
                 shr_hasSwitchToGain6[chStart] || shr_hasSwitchToGain1[chStart] || shr_isSaturated[chStart + 3];

             // pedestal is final unconditionally
             g_pedestal[inputCh] = pedestal;
             if (hasGainSwitch && gainSwitchUseMaxSample) {
               // thread for sample=0 will access the right guys
               energies[inputCh] = max_amplitude / shape_value;
               acState[ch] = static_cast<char>(MinimizationState::Precomputed);
               flags[inputCh] = flag;
               continue;
             }

             // will be used in the future for setting state
             auto const rmsForChecking = conditionsDev.pedestals_rms_x12()[hashedId];

             // this happens cause sometimes rms_x12 is 0...
             // needs to be checkec why this is the case
             // general case here is that noisecov is a Zero matrix
             if (rmsForChecking == 0) {
               acState[ch] = static_cast<char>(MinimizationState::Precomputed);
               flags[inputCh] = flag;
               continue;
             }

             // for the case when no shortcuts were taken
             flags[inputCh] = flag;
           }
         }
       }
     }
   };

   class Kernel_prep_2d {
   public:
     template <typename TAcc, typename = std::enable_if_t<alpaka::isAccelerator<TAcc>>>
     ALPAKA_FN_ACC void operator()(TAcc const& acc,
                                   EcalDigiDeviceCollection::ConstView digisDevEB,
                                   EcalDigiDeviceCollection::ConstView digisDevEE,
                                   EcalMultifitConditionsDevice::ConstView conditionsDev,
                                   ::ecal::multifit::SampleGainVector const* gainsNoise,
                                   ::ecal::multifit::SampleMatrix* noisecov,
                                   ::ecal::multifit::PulseMatrixType* pulse_matrix,
                                   bool const* hasSwitchToGain6,
                                   bool const* hasSwitchToGain1,
                                   bool const* isSaturated) const {
       constexpr auto nsamples = EcalDataFrame::MAXSAMPLES;
       auto const offsetForHashes = conditionsDev.offsetEE();
       auto const nchannelsEB = digisDevEB.size();
       constexpr float addPedestalUncertainty = 0.f;
       constexpr bool dynamicPedestal = false;
       constexpr bool simplifiedNoiseModelForGainSwitch = true;  //---- default is true

       // pulse matrix
       auto const* pulse_shapes = reinterpret_cast<const EcalPulseShape*>(conditionsDev.pulseShapes()->data());

       auto const blockDimX = alpaka::getWorkDiv<alpaka::Grid, alpaka::Blocks>(acc)[1u];
       auto const elemsPerBlockX = alpaka::getWorkDiv<alpaka::Block, alpaka::Elems>(acc)[1u];
       auto const elemsPerBlockY = alpaka::getWorkDiv<alpaka::Block, alpaka::Elems>(acc)[0u];
       Vec2D const size_2d = {elemsPerBlockY, blockDimX * elemsPerBlockX};  // {y, x} coordinates

       for (auto ndindex : cms::alpakatools::elements_with_stride_nd(acc, size_2d)) {
         auto const ch = ndindex[1] / nsamples;
         auto const tx = ndindex[1] % nsamples;
         auto const ty = ndindex[0];

         // to access input arrays (ids and digis only)
         int const inputCh = ch >= nchannelsEB ? ch - nchannelsEB : ch;
         auto const* dids = ch >= nchannelsEB ? digisDevEE.id() : digisDevEB.id();

         auto const did = DetId{dids[inputCh]};
         auto const isBarrel = did.subdetId() == EcalBarrel;
         auto const hashedId = isBarrel ? ecal::reconstruction::hashedIndexEB(did.rawId())
                                        : offsetForHashes + ecal::reconstruction::hashedIndexEE(did.rawId());
         auto const* G12SamplesCorrelation = isBarrel ? conditionsDev.sampleCorrelation_EB_G12().data()
                                                      : conditionsDev.sampleCorrelation_EE_G12().data();
         auto const* G6SamplesCorrelation =
             isBarrel ? conditionsDev.sampleCorrelation_EB_G6().data() : conditionsDev.sampleCorrelation_EE_G6().data();
         auto const* G1SamplesCorrelation =
             isBarrel ? conditionsDev.sampleCorrelation_EB_G1().data() : conditionsDev.sampleCorrelation_EE_G1().data();
         auto const hasGainSwitch = hasSwitchToGain6[ch] || hasSwitchToGain1[ch] || isSaturated[ch];

         auto const vidx = std::abs(static_cast<int>(ty) - static_cast<int>(tx));

         // non-divergent branch for all threads per block
         if (hasGainSwitch) {
           // TODO: did not include simplified noise model
           float noise_value = 0;

           // non-divergent branch - all threads per block
           // TODO: all of these constants indicate that
           // that these parts could be splitted into completely different
           // kernels and run one of them only depending on the config
           if (simplifiedNoiseModelForGainSwitch) {
             constexpr int isample_max = 5;  // according to cpu defs
             auto const gainidx = gainsNoise[ch][isample_max];

             // non-divergent branches
             if (gainidx == 0) {
               auto const rms_x12 = conditionsDev.pedestals_rms_x12()[hashedId];
               noise_value = rms_x12 * rms_x12 * G12SamplesCorrelation[vidx];
             } else if (gainidx == 1) {
               auto const gain12Over6 = conditionsDev.gain12Over6()[hashedId];
               auto const rms_x6 = conditionsDev.pedestals_rms_x6()[hashedId];
               noise_value = gain12Over6 * gain12Over6 * rms_x6 * rms_x6 * G6SamplesCorrelation[vidx];
             } else if (gainidx == 2) {
               auto const gain12Over6 = conditionsDev.gain12Over6()[hashedId];
               auto const gain6Over1 = conditionsDev.gain6Over1()[hashedId];
               auto const gain12Over1 = gain12Over6 * gain6Over1;
               auto const rms_x1 = conditionsDev.pedestals_rms_x1()[hashedId];
               noise_value = gain12Over1 * gain12Over1 * rms_x1 * rms_x1 * G1SamplesCorrelation[vidx];
             }
             if (!dynamicPedestal && addPedestalUncertainty > 0.f)
               noise_value += addPedestalUncertainty * addPedestalUncertainty;
           } else {
             int gainidx = 0;
             char mask = gainidx;
             int pedestal = gainsNoise[ch][ty] == mask ? 1 : 0;
             //            NB: gainratio is 1, that is why it does not appear in the formula
             auto const rms_x12 = conditionsDev.pedestals_rms_x12()[hashedId];
             noise_value += rms_x12 * rms_x12 * pedestal * G12SamplesCorrelation[vidx];
             // non-divergent branch
             if (!dynamicPedestal && addPedestalUncertainty > 0.f) {
               noise_value += addPedestalUncertainty * addPedestalUncertainty * pedestal;  // gainratio is 1
             }

             //
             gainidx = 1;
             mask = gainidx;
             pedestal = gainsNoise[ch][ty] == mask ? 1 : 0;
             auto const gain12Over6 = conditionsDev.gain12Over6()[hashedId];
             auto const rms_x6 = conditionsDev.pedestals_rms_x6()[hashedId];
             noise_value += gain12Over6 * gain12Over6 * rms_x6 * rms_x6 * pedestal * G6SamplesCorrelation[vidx];
             // non-divergent branch
             if (!dynamicPedestal && addPedestalUncertainty > 0.f) {
               noise_value += gain12Over6 * gain12Over6 * addPedestalUncertainty * addPedestalUncertainty * pedestal;
             }

             //
             gainidx = 2;
             mask = gainidx;
             pedestal = gainsNoise[ch][ty] == mask ? 1 : 0;
             auto const gain6Over1 = conditionsDev.gain6Over1()[hashedId];
             auto const gain12Over1 = gain12Over6 * gain6Over1;
             auto const rms_x1 = conditionsDev.pedestals_rms_x1()[hashedId];
             noise_value += gain12Over1 * gain12Over1 * rms_x1 * rms_x1 * pedestal * G1SamplesCorrelation[vidx];
             // non-divergent branch
             if (!dynamicPedestal && addPedestalUncertainty > 0.f) {
               noise_value += gain12Over1 * gain12Over1 * addPedestalUncertainty * addPedestalUncertainty * pedestal;
             }
           }

           noisecov[ch](ty, tx) = noise_value;
         } else {
           auto const rms = conditionsDev.pedestals_rms_x12()[hashedId];
           float noise_value = rms * rms * G12SamplesCorrelation[vidx];
           if (!dynamicPedestal && addPedestalUncertainty > 0.f) {
             //----  add fully correlated component to noise covariance to inflate pedestal uncertainty
             noise_value += addPedestalUncertainty * addPedestalUncertainty;
           }
           noisecov[ch](ty, tx) = noise_value;
         }

         auto const posToAccess = 9 - static_cast<int>(tx) + static_cast<int>(ty);  // see cpu for reference
         float const value = posToAccess >= 7 ? pulse_shapes[hashedId].pdfval[posToAccess - 7] : 0;
         pulse_matrix[ch](ty, tx) = value;
       }
     }
   };

 }  // namespace ALPAKA_ACCELERATOR_NAMESPACE::ecal::multifit

 namespace alpaka::trait {
   using namespace ALPAKA_ACCELERATOR_NAMESPACE::ecal::multifit;

   template <typename TAcc>
   struct BlockSharedMemDynSizeBytes<Kernel_prep_1d_and_initialize, TAcc> {
     template <typename TVec, typename... TArgs>
     ALPAKA_FN_HOST_ACC static auto getBlockSharedMemDynSizeBytes(Kernel_prep_1d_and_initialize const&,
                                                                  TVec const& threadsPerBlock,
                                                                  TVec const& elemsPerThread,
                                                                  TArgs const&...) -> std::size_t {
       // return the amount of dynamic shared memory needed
       std::size_t bytes = threadsPerBlock[0u] * elemsPerThread[0u] * (5 * sizeof(bool) + sizeof(char));
       return bytes;
     }
   };
 }  // namespace alpaka::trait

 #endif  // RecoLocalCalo_EcalRecProducers_plugins_AmplitudeComputationCommonKernels_h
ALPAKA_ACCELERATOR_NAMESPACE::pixelClustering::pixelStatus::mask
constexpr uint32_t mask
Definition: PixelClustering.h:35

cms::alpakatools::blocks_with_stride
ALPAKA_FN_ACC auto blocks_with_stride(TAcc const &acc, TArgs... args)
Definition: workdivision.h:784

EcalUncalibratedRecHit.h

EcalUncalibratedRecHit::kHasSwitchToGain1
Definition: EcalUncalibratedRecHit.h:19

EcalDigiDeviceCollection.h

mps_fire.i
i
Definition: mps_fire.py:429

ecal::multifit::SampleMatrix
Eigen::Matrix< data_type, SampleVectorSize, SampleVectorSize > SampleMatrix
Definition: EigenMatrixTypes_gpu.h:28

HLT_2023v12_cff.gainSwitchUseMaxSampleEE
gainSwitchUseMaxSampleEE
Definition: HLT_2023v12_cff.py:6358

ALPAKA_ACCELERATOR_NAMESPACE::ecal::multifit::Kernel_prep_1d_and_initialize::operator()
ALPAKA_FN_ACC void operator()(TAcc const &acc, EcalDigiDeviceCollection::ConstView digisDevEB, EcalDigiDeviceCollection::ConstView digisDevEE, EcalUncalibratedRecHitDeviceCollection::View uncalibRecHitsEB, EcalUncalibratedRecHitDeviceCollection::View uncalibRecHitsEE, EcalMultifitConditionsDevice::ConstView conditionsDev, ::ecal::multifit::SampleVector *amplitudes, ::ecal::multifit::SampleGainVector *gainsNoise, bool *hasSwitchToGain6, bool *hasSwitchToGain1, bool *isSaturated, char *acState, ::ecal::multifit::BXVectorType *bxs, bool const gainSwitchUseMaxSampleEB, bool const gainSwitchUseMaxSampleEE) const
Definition: AmplitudeComputationCommonKernels.h:33

align::Scalar
double Scalar
Definition: Definitions.h:25

heavyIonCSV_trainingSettings.idx
idx
Definition: heavyIonCSV_trainingSettings.py:5

nano_mu_local_reco_cff.chi2
chi2
Definition: nano_mu_local_reco_cff.py:205

alpaka_common::Vec2D
Vec< Dim2D > Vec2D
Definition: config.h:26

RemoveAddSevLevel.flag
flag
Definition: RemoveAddSevLevel.py:117

alpaka::trait::BlockSharedMemDynSizeBytes< Kernel_prep_1d_and_initialize, TAcc >::getBlockSharedMemDynSizeBytes
static ALPAKA_FN_HOST_ACC auto getBlockSharedMemDynSizeBytes(Kernel_prep_1d_and_initialize const &, TVec const &threadsPerBlock, TVec const &elemsPerThread, TArgs const &...) -> std::size_t
Definition: AmplitudeComputationCommonKernels.h:477

CMSUnrollLoop.h

EigenMatrixTypes_gpu.h

SiStripPI::rms
Definition: SiStripPayloadInspectorHelper.h:178

KernelHelpers.h

ALPAKA_ACCELERATOR_NAMESPACE::brokenline::constexpr
if constexpr(n > 3)
Definition: BrokenLine.h:164

CustomPhysics_cfi.amplitude
amplitude
Definition: CustomPhysics_cfi.py:12

ALPAKA_ACCELERATOR_NAMESPACE::ecal::multifit::TimeComputationState::NotFinished

CMS_UNROLL_LOOP
#define CMS_UNROLL_LOOP
Definition: CMSUnrollLoop.h:47

ecal::multifit::SampleVector
Eigen::Matrix< data_type, SampleVectorSize, 1 > SampleVector
Definition: EigenMatrixTypes_gpu.h:23

EcalCondDBWriter_cfi.pedestal
pedestal
Definition: EcalCondDBWriter_cfi.py:49

ecal::multifit::PulseMatrixType
Eigen::Matrix< data_type, SampleVectorSize, SampleVectorSize > PulseMatrixType
Definition: EigenMatrixTypes_gpu.h:19

ecalGpuTask_cfi.sample
sample
Definition: ecalGpuTask_cfi.py:48

ALPAKA_ACCELERATOR_NAMESPACE::ecal::reconstruction::hashedIndexEB
ALPAKA_FN_ACC uint32_t hashedIndexEB(uint32_t id)
Definition: KernelHelpers.dev.cc:99

EcalMgpaBitwiseGain1
#define EcalMgpaBitwiseGain1
Definition: EcalDataFrame.h:10

PixelPluginsPhase0_cfi.isBarrel
isBarrel
Definition: PixelPluginsPhase0_cfi.py:17

ALPAKA_ACCELERATOR_NAMESPACE::ecal::multifit
Definition: AmplitudeComputationCommonKernels.h:23

EcalPulseShapes.h

HLT_2023v12_cff.simplifiedNoiseModelForGainSwitch
simplifiedNoiseModelForGainSwitch
Definition: HLT_2023v12_cff.py:6362

ecal::multifit::SampleGainVector
Eigen::Matrix< char, SampleVectorSize, 1 > SampleGainVector
Definition: EigenMatrixTypes_gpu.h:27

ALPAKA_ACCELERATOR_NAMESPACE::ecal::reconstruction::hashedIndexEE
ALPAKA_FN_ACC uint32_t hashedIndexEE(uint32_t id)
Definition: KernelHelpers.dev.cc:227

cms::alpakatools::elements_with_stride_nd
ALPAKA_FN_ACC auto elements_with_stride_nd(TAcc const &acc)
Definition: workdivision.h:565

funct::abs
Abs< T >::type abs(const T &t)
Definition: Abs.h:22

f
double f[11][100]
Definition: MuScleFitUtils.cc:78

value
Definition: value.py:1

ecalMGPA::adc
constexpr int adc(sample_type sample)
get the ADC sample (12 bits)
Definition: EcalMGPASample.h:12

groupFilesInBlocks.block
block
Definition: groupFilesInBlocks.py:150

alpaka::trait
Definition: HostOnlyTask.h:25

cuy.ii
ii
Definition: cuy.py:589

EcalMultifitConditionsDevice.h

traits.h

EcalMGPASample.h

DetId
Definition: DetId.h:17

ecalLiteDTU::gainId
constexpr int gainId(sample_type sample)
get the gainId (2 bits)
Definition: EcalLiteDTUSample.h:14

HLT_2023v12_cff.flags
flags
Definition: HLT_2023v12_cff.py:10095

cms::alpakatools::elements_in_block
ALPAKA_FN_ACC auto elements_in_block(TAcc const &acc, TArgs... args)
Definition: workdivision.h:999

EcalUncalibratedRecHit::kSaturated
Definition: EcalUncalibratedRecHit.h:15

nano_mu_local_reco_cff.bool
bool
Definition: nano_mu_local_reco_cff.py:13

EcalUncalibratedRecHitDeviceCollection.h

ecalMGPA::gainId
constexpr int gainId(sample_type sample)
get the gainId (2 bits)
Definition: EcalMGPASample.h:14

CastorSimpleRecAlgoImpl::isSaturated
bool isSaturated(const Digi &digi, const int &maxADCvalue, int ifirst, int n)
Definition: CastorSimpleRecAlgo.cc:97

ecal::multifit::BXVectorType
Eigen::Matrix< char, SampleVectorSize, 1 > BXVectorType
Definition: EigenMatrixTypes_gpu.h:20

EcalMgpaBitwiseGain6
#define EcalMgpaBitwiseGain6
Definition: EcalDataFrame.h:9

ALPAKA_ACCELERATOR_NAMESPACE::ecal::multifit::MinimizationState::Precomputed

EcalBarrel
Definition: EcalSubdetector.h:10

EcalDataFrame::MAXSAMPLES
static constexpr int MAXSAMPLES
Definition: EcalDataFrame.h:48

EcalUncalibratedRecHit::kHasSwitchToGain6
Definition: EcalUncalibratedRecHit.h:18

EcalMgpaBitwiseGain0
#define EcalMgpaBitwiseGain0
Definition: EcalDataFrame.h:11

config.h

ALPAKA_ACCELERATOR_NAMESPACE::ecal::multifit::Kernel_prep_2d::operator()
ALPAKA_FN_ACC void operator()(TAcc const &acc, EcalDigiDeviceCollection::ConstView digisDevEB, EcalDigiDeviceCollection::ConstView digisDevEE, EcalMultifitConditionsDevice::ConstView conditionsDev, ::ecal::multifit::SampleGainVector const *gainsNoise, ::ecal::multifit::SampleMatrix *noisecov, ::ecal::multifit::PulseMatrixType *pulse_matrix, bool const *hasSwitchToGain6, bool const *hasSwitchToGain1, bool const *isSaturated) const
Definition: AmplitudeComputationCommonKernels.h:333

DeclsForKernels.h

sistrip::View
View
Definition: ConstantsForView.h:26

EcalPulseShape
Definition: EcalPulseShapes.h:8

HLT_2023v12_cff.gainSwitchUseMaxSampleEB
gainSwitchUseMaxSampleEB
Definition: HLT_2023v12_cff.py:6348

gpuClustering::adc
uint16_t *__restrict__ uint16_t const  *__restrict__ adc
Definition: gpuClusterChargeCut.h:19

EcalDataFrame.h

ALPAKA_ACCELERATOR_NAMESPACE::ecal::multifit::Kernel_prep_1d_and_initialize
Definition: AmplitudeComputationCommonKernels.h:30

ALPAKA_ACCELERATOR_NAMESPACE::ecal::multifit::Kernel_prep_2d
Definition: AmplitudeComputationCommonKernels.h:330