d8/d3c/TritonData_8h_source.html

 #ifndef HeterogeneousCore_SonicTriton_TritonData
 #define HeterogeneousCore_SonicTriton_TritonData

 #include "FWCore/Utilities/interface/Exception.h"
 #include "FWCore/Utilities/interface/Span.h"
 #include "HeterogeneousCore/SonicTriton/interface/triton_utils.h"

 #include <vector>
 #include <string>
 #include <unordered_map>
 #include <numeric>
 #include <algorithm>
 #include <memory>
 #include <atomic>
 #include <typeinfo>

 #include "grpc_client.h"
 #include "grpc_service.pb.h"

 //forward declaration
 class TritonClient;
 template <typename IO>
 class TritonMemResource;
 template <typename IO>
 class TritonHeapResource;
 template <typename IO>
 class TritonCpuShmResource;
 #ifdef TRITON_ENABLE_GPU
 template <typename IO>
 class TritonGpuShmResource;
 #endif

 //aliases for local input and output types
 template <typename DT>
 using TritonInput = std::vector<std::vector<DT>>;
 template <typename DT>
 using TritonOutput = std::vector<edm::Span<const DT*>>;

 //other useful typdefs
 template <typename DT>
 using TritonInputContainer = std::shared_ptr<TritonInput<DT>>;

 //store all the info needed for triton input and output
 //NOTE: this class is not const-thread-safe, and should only be used with stream or one modules
 //(generally recommended for SONIC, but especially necessary here)
 template <typename IO>
 class TritonData {
 public:
   using Result = triton::client::InferResult;
   using TensorMetadata = inference::ModelMetadataResponse_TensorMetadata;
   using ShapeType = std::vector<int64_t>;
   using ShapeView = edm::Span<ShapeType::const_iterator>;

   //constructor
   TritonData(const std::string& name, const TensorMetadata& model_info, TritonClient* client, const std::string& pid);

   //some members can be modified
   void setShape(const ShapeType& newShape, unsigned entry = 0);
   void setShape(unsigned loc, int64_t val, unsigned entry = 0);

   //io accessors
   template <typename DT>
   TritonInputContainer<DT> allocate(bool reserve = true);
   template <typename DT>
   void toServer(TritonInputContainer<DT> ptr);
   void prepare();
   template <typename DT>
   TritonOutput<DT> fromServer() const;

   //const accessors
   const ShapeView& shape(unsigned entry = 0) const { return entries_.at(entry).shape_; }
   int64_t byteSize() const { return byteSize_; }
   const std::string& dname() const { return dname_; }

   //utilities
   bool variableDims() const { return variableDims_; }
   int64_t sizeDims() const { return productDims_; }
   //default to dims if shape isn't filled
   int64_t sizeShape(unsigned entry = 0) const {
     return variableDims_ ? dimProduct(entries_.at(entry).shape_) : sizeDims();
   }

 private:
   friend class TritonClient;
   friend class TritonMemResource<IO>;
   friend class TritonHeapResource<IO>;
   friend class TritonCpuShmResource<IO>;
 #ifdef TRITON_ENABLE_GPU
   friend class TritonGpuShmResource<IO>;
 #endif

   //group together all relevant information for a single request
   //helpful for organizing multi-request ragged batching case
   class TritonDataEntry {
   public:
     //constructors
     TritonDataEntry(const ShapeType& dims, bool noOuterDim, const std::string& name, const std::string& dname)
         : fullShape_(dims),
           shape_(fullShape_.begin() + (noOuterDim ? 0 : 1), fullShape_.end()),
           sizeShape_(0),
           byteSizePerBatch_(0),
           totalByteSize_(0),
           offset_(0),
           output_(nullptr) {
       //create input or output object
       IO* iotmp;
       createObject(&iotmp, name, dname);
       data_.reset(iotmp);
     }
     //default needed to be able to use std::vector resize()
     TritonDataEntry()
         : shape_(fullShape_.begin(), fullShape_.end()),
           sizeShape_(0),
           byteSizePerBatch_(0),
           totalByteSize_(0),
           offset_(0),
           output_(nullptr) {}

   private:
     friend class TritonData<IO>;
     friend class TritonClient;
     friend class TritonMemResource<IO>;
     friend class TritonHeapResource<IO>;
     friend class TritonCpuShmResource<IO>;
 #ifdef TRITON_ENABLE_GPU
     friend class TritonGpuShmResource<IO>;
 #endif

     //accessors
     void createObject(IO** ioptr, const std::string& name, const std::string& dname);
     void computeSizes(int64_t shapeSize, int64_t byteSize, int64_t batchSize);

     //members
     ShapeType fullShape_;
     ShapeView shape_;
     size_t sizeShape_, byteSizePerBatch_, totalByteSize_;
     std::shared_ptr<IO> data_;
     std::shared_ptr<Result> result_;
     unsigned offset_;
     const uint8_t* output_;
   };

   //private accessors only used internally or by client
   void checkShm() {}
   unsigned fullLoc(unsigned loc) const;
   void reset();
   void setResult(std::shared_ptr<Result> result, unsigned entry = 0) { entries_[entry].result_ = result; }
   IO* data(unsigned entry = 0) { return entries_[entry].data_.get(); }
   void updateMem(size_t size);
   void computeSizes();
   triton::client::InferenceServerGrpcClient* client();
   template <typename DT>
   void checkType() const {
     if (!triton_utils::checkType<DT>(dtype_))
       throw cms::Exception("TritonDataError")
           << name_ << ": inconsistent data type " << typeid(DT).name() << " for " << dname_;
   }

   //helpers
   bool anyNeg(const ShapeView& vec) const {
     return std::any_of(vec.begin(), vec.end(), [](int64_t i) { return i < 0; });
   }
   int64_t dimProduct(const ShapeView& vec) const {
     //lambda treats negative dimensions as 0 to avoid overflows
     return std::accumulate(
         vec.begin(), vec.end(), 1, [](int64_t dim1, int64_t dim2) { return dim1 * std::max(0l, dim2); });
   }
   //generates a unique id number for each instance of the class
   unsigned uid() const {
     static std::atomic<unsigned> uid{0};
     return ++uid;
   }
   std::string xput() const;
   void addEntry(unsigned entry);
   void addEntryImpl(unsigned entry);

   //members
   std::string name_;
   TritonClient* client_;
   bool useShm_;
   std::string shmName_;
   const ShapeType dims_;
   bool variableDims_;
   int64_t productDims_;
   std::string dname_;
   inference::DataType dtype_;
   int64_t byteSize_;
   std::vector<TritonDataEntry> entries_;
   size_t totalByteSize_;
   //can be modified in otherwise-const fromServer() method in TritonMemResource::copyOutput():
   //TritonMemResource holds a non-const pointer to an instance of this class
   //so that TritonOutputGpuShmResource can store data here
   std::shared_ptr<void> holder_;
   std::shared_ptr<TritonMemResource<IO>> memResource_;
   //can be modified in otherwise-const fromServer() method to prevent multiple calls
   CMS_SA_ALLOW mutable bool done_{};
 };

 using TritonInputData = TritonData<triton::client::InferInput>;
 using TritonInputMap = std::unordered_map<std::string, TritonInputData>;
 using TritonOutputData = TritonData<triton::client::InferRequestedOutput>;
 using TritonOutputMap = std::unordered_map<std::string, TritonOutputData>;

 //avoid "explicit specialization after instantiation" error
 template <>
 void TritonInputData::TritonDataEntry::createObject(triton::client::InferInput** ioptr,
                                                     const std::string& name,
                                                     const std::string& dname);
 template <>
 void TritonOutputData::TritonDataEntry::createObject(triton::client::InferRequestedOutput** ioptr,
                                                      const std::string& name,
                                                      const std::string& dname);
 template <>
 void TritonOutputData::checkShm();
 template <>
 std::string TritonInputData::xput() const;
 template <>
 std::string TritonOutputData::xput() const;
 template <>
 template <typename DT>
 TritonInputContainer<DT> TritonInputData::allocate(bool reserve);
 template <>
 template <typename DT>
 void TritonInputData::toServer(std::shared_ptr<TritonInput<DT>> ptr);
 template <>
 void TritonOutputData::prepare();
 template <>
 template <typename DT>
 TritonOutput<DT> TritonOutputData::fromServer() const;

 //explicit template instantiation declarations
 extern template class TritonData<triton::client::InferInput>;
 extern template class TritonData<triton::client::InferRequestedOutput>;

 #endif
TritonInput
std::vector< std::vector< DT > > TritonInput
Definition: TritonData.h:35

TritonData::entries_
std::vector< TritonDataEntry > entries_
Definition: TritonData.h:188

findQualityFiles.size
size
Write out results.
Definition: findQualityFiles.py:443

TritonData::sizeShape
int64_t sizeShape(unsigned entry=0) const
Definition: TritonData.h:79

TritonData::uid
unsigned uid() const
Definition: TritonData.h:169

CMS_SA_ALLOW
#define CMS_SA_ALLOW

TritonData::addEntryImpl
void addEntryImpl(unsigned entry)
Definition: TritonData.cc:53

mps_fire.i
i
Definition: mps_fire.py:429

Exception
Definition: hltDiff.cc:245

mps_fire.result
result
Definition: mps_fire.py:311

TritonData::TritonDataEntry::output_
const uint8_t * output_
Definition: TritonData.h:140

TritonData::holder_
std::shared_ptr< void > holder_
Definition: TritonData.h:193

TritonData::done_
bool done_
Definition: TritonData.h:196

TritonData::totalByteSize_
size_t totalByteSize_
Definition: TritonData.h:189

TritonData::fullLoc
unsigned fullLoc(unsigned loc) const
Definition: TritonData.cc:286

TritonData::TritonDataEntry::createObject
void createObject(IO **ioptr, const std::string &name, const std::string &dname)

TritonData::TritonDataEntry::data_
std::shared_ptr< IO > data_
Definition: TritonData.h:137

TritonHeapResource
Definition: TritonData.h:25

Span.h

TritonData::byteSize
int64_t byteSize() const
Definition: TritonData.h:72

TritonData::computeSizes
void computeSizes()
Definition: TritonData.cc:128

TritonData::dims_
const ShapeType dims_
Definition: TritonData.h:182

TritonData::useShm_
bool useShm_
Definition: TritonData.h:180

TritonData::dname
const std::string & dname() const
Definition: TritonData.h:73

TritonData::TritonDataEntry::computeSizes
void computeSizes(int64_t shapeSize, int64_t byteSize, int64_t batchSize)
Definition: TritonData.cc:121

TritonData::updateMem
void updateMem(size_t size)
Definition: TritonData.cc:141

TritonData::reset
void reset()
Definition: TritonData.cc:276

TritonData::TritonDataEntry::sizeShape_
size_t sizeShape_
Definition: TritonData.h:136

AlCaHLTBitMon_QueryRunRegistry.string
string string
Definition: AlCaHLTBitMon_QueryRunRegistry.py:256

TritonData::checkType
void checkType() const
Definition: TritonData.h:153

TritonData::checkShm
void checkShm()
Definition: TritonData.h:144

TritonData::shape
const ShapeView & shape(unsigned entry=0) const
Definition: TritonData.h:71

TritonData::data
IO * data(unsigned entry=0)
Definition: TritonData.h:148

HLT_FULL_cff.batchSize
batchSize
Definition: HLT_FULL_cff.py:98400

TritonCpuShmResource
Definition: TritonData.h:27

TritonData::productDims_
int64_t productDims_
Definition: TritonData.h:184

TritonData::TritonDataEntry::shape_
ShapeView shape_
Definition: TritonData.h:135

mps_splice.entry
entry
Definition: mps_splice.py:68

TritonData::byteSize_
int64_t byteSize_
Definition: TritonData.h:187

TritonData::allocate
TritonInputContainer< DT > allocate(bool reserve=true)
Definition: TritonData.cc:170

edm::Span::begin
T begin() const
Definition: Span.h:20

TritonData::TritonDataEntry::result_
std::shared_ptr< Result > result_
Definition: TritonData.h:138

TritonOutput
std::vector< edm::Span< const DT * > > TritonOutput
Definition: TritonData.h:37

TritonData::TritonDataEntry::offset_
unsigned offset_
Definition: TritonData.h:139

HLT_2024v10_cff.DataType
DataType
Definition: HLT_2024v10_cff.py:45058

TritonData::setResult
void setResult(std::shared_ptr< Result > result, unsigned entry=0)
Definition: TritonData.h:147

TritonData::Result
triton::client::InferResult Result
Definition: TritonData.h:49

TritonData::setShape
void setShape(const ShapeType &newShape, unsigned entry=0)

TritonData::TritonDataEntry::TritonDataEntry
TritonDataEntry()
Definition: TritonData.h:111

SiStripPI::max
Definition: SiStripPayloadInspectorHelper.h:178

TritonData::TritonDataEntry::totalByteSize_
size_t totalByteSize_
Definition: TritonData.h:136

TritonData::TritonDataEntry::TritonDataEntry
TritonDataEntry(const ShapeType &dims, bool noOuterDim, const std::string &name, const std::string &dname)
Definition: TritonData.h:97

RefreshWebPage.dname
dname
Definition: RefreshWebPage.py:56

TritonData::client_
TritonClient * client_
Definition: TritonData.h:179

TritonData::anyNeg
bool anyNeg(const ShapeView &vec) const
Definition: TritonData.h:160

TritonData::prepare
void prepare()
Definition: TritonData.cc:236

TritonData::TritonData
TritonData(const std::string &name, const TensorMetadata &model_info, TritonClient *client, const std::string &pid)
Definition: TritonData.cc:18

Exception.h

mps_fire.end
end
Definition: mps_fire.py:242

TritonData::TritonDataEntry
Definition: TritonData.h:94

TritonInputMap
std::unordered_map< std::string, TritonInputData > TritonInputMap
Definition: TritonData.h:200

TritonData::TensorMetadata
inference::ModelMetadataResponse_TensorMetadata TensorMetadata
Definition: TritonData.h:50

TritonInputContainer
std::shared_ptr< TritonInput< DT > > TritonInputContainer
Definition: TritonData.h:41

TritonData::fromServer
TritonOutput< DT > fromServer() const
Definition: TritonData.cc:244

TritonData::client
triton::client::InferenceServerGrpcClient * client()
Definition: TritonData.cc:87

TritonClient
Definition: TritonClient.h:21

triton_utils.h

TritonData::sizeDims
int64_t sizeDims() const
Definition: TritonData.h:77

TritonData::dtype_
inference::DataType dtype_
Definition: TritonData.h:186

TritonData::memResource_
std::shared_ptr< TritonMemResource< IO > > memResource_
Definition: TritonData.h:194

TritonData::dimProduct
int64_t dimProduct(const ShapeView &vec) const
Definition: TritonData.h:163

TritonData::xput
std::string xput() const
Definition: TritonData.cc:77

TritonData::TritonDataEntry::fullShape_
ShapeType fullShape_
Definition: TritonData.h:134

TritonData::dname_
std::string dname_
Definition: TritonData.h:185

TritonMemResource
Definition: TritonData.h:23

edm::Span< ShapeType::const_iterator >

TritonData::name_
std::string name_
Definition: TritonData.h:178

TritonData::ShapeType
std::vector< int64_t > ShapeType
Definition: TritonData.h:51

TritonData::variableDims
bool variableDims() const
Definition: TritonData.h:76

TritonData::shmName_
std::string shmName_
Definition: TritonData.h:181

TritonData::variableDims_
bool variableDims_
Definition: TritonData.h:183

TritonData::toServer
void toServer(TritonInputContainer< DT > ptr)
Definition: TritonData.cc:188

TritonOutputMap
std::unordered_map< std::string, TritonOutputData > TritonOutputMap
Definition: TritonData.h:202

TritonData
Definition: TritonData.h:47

TritonData::addEntry
void addEntry(unsigned entry)
Definition: TritonData.cc:47

heppy_batch.val
val
Definition: heppy_batch.py:351

TritonData::TritonDataEntry::byteSizePerBatch_
size_t byteSizePerBatch_
Definition: TritonData.h:136

GeomDetEnumerators::DT
Definition: GeomDetEnumerators.h:18

edm::Span::end
T end() const
Definition: Span.h:21

Skims_PA_cff.name
name
Definition: Skims_PA_cff.py:17

MainPageGenerator.l
l
Definition: MainPageGenerator.py:429