d2/dc1/TritonClient_8h_source.html

 #ifndef HeterogeneousCore_SonicTriton_TritonClient
 #define HeterogeneousCore_SonicTriton_TritonClient

 #include "FWCore/ParameterSet/interface/ParameterSet.h"
 #include "FWCore/ParameterSet/interface/ParameterSetDescription.h"
 #include "HeterogeneousCore/SonicCore/interface/SonicClient.h"
 #include "HeterogeneousCore/SonicTriton/interface/TritonData.h"
 #include "HeterogeneousCore/SonicTriton/interface/TritonService.h"

 #include <map>
 #include <vector>
 #include <string>
 #include <exception>
 #include <unordered_map>

 #include "grpc_client.h"
 #include "grpc_service.pb.h"

 class TritonClient : public SonicClient<TritonInputMap, TritonOutputMap> {
 public:
   struct ServerSideStats {
     uint64_t inference_count_;
     uint64_t execution_count_;
     uint64_t success_count_;
     uint64_t cumm_time_ns_;
     uint64_t queue_time_ns_;
     uint64_t compute_input_time_ns_;
     uint64_t compute_infer_time_ns_;
     uint64_t compute_output_time_ns_;
   };

   //constructor
   TritonClient(const edm::ParameterSet& params, const std::string& debugName);

   //destructor
   ~TritonClient() override;

   //accessors
   unsigned batchSize() const { return batchSize_; }
   bool verbose() const { return verbose_; }
   bool useSharedMemory() const { return useSharedMemory_; }
   void setUseSharedMemory(bool useShm) { useSharedMemory_ = useShm; }
   bool setBatchSize(unsigned bsize);
   void reset() override;
   bool noBatch() const { return noBatch_; }
   TritonServerType serverType() const { return serverType_; }

   //for fillDescriptions
   static void fillPSetDescription(edm::ParameterSetDescription& iDesc);

 protected:
   //helpers
   void getResults(std::shared_ptr<triton::client::InferResult> results);
   void evaluate() override;
   template <typename F>
   bool handle_exception(F&& call);

   void reportServerSideStats(const ServerSideStats& stats) const;
   ServerSideStats summarizeServerStats(const inference::ModelStatistics& start_status,
                                        const inference::ModelStatistics& end_status) const;

   inference::ModelStatistics getServerSideStatus() const;

   //members
   unsigned maxBatchSize_;
   unsigned batchSize_;
   bool noBatch_;
   bool verbose_;
   bool useSharedMemory_;
   TritonServerType serverType_;
   grpc_compression_algorithm compressionAlgo_;
   triton::client::Headers headers_;

   //IO pointers for triton
   std::vector<triton::client::InferInput*> inputsTriton_;
   std::vector<const triton::client::InferRequestedOutput*> outputsTriton_;

   std::unique_ptr<triton::client::InferenceServerGrpcClient> client_;
   //stores timeout, model name and version
   triton::client::InferOptions options_;

 private:
   friend TritonInputData;
   friend TritonOutputData;

   //private accessors only used by data
   auto client() { return client_.get(); }
 };

 #endif
TritonClient::ServerSideStats::execution_count_
uint64_t execution_count_
Definition: TritonClient.h:23

TritonClient::verbose
bool verbose() const
Definition: TritonClient.h:40

TritonClient::ServerSideStats::cumm_time_ns_
uint64_t cumm_time_ns_
Definition: TritonClient.h:25

SonicClientBase::debugName
const std::string & debugName() const
Definition: SonicClientBase.h:26

TritonClient::setBatchSize
bool setBatchSize(unsigned bsize)
Definition: TritonClient.cc:178

TritonClient::~TritonClient
~TritonClient() override
Definition: TritonClient.cc:169

TritonClient::ServerSideStats
Definition: TritonClient.h:21

TritonService.h

TritonClient::ServerSideStats::success_count_
uint64_t success_count_
Definition: TritonClient.h:24

TritonClient::outputsTriton_
std::vector< const triton::client::InferRequestedOutput * > outputsTriton_
Definition: TritonClient.h:76

TritonClient::useSharedMemory_
bool useSharedMemory_
Definition: TritonClient.h:69

TritonClient::TritonOutputData
friend TritonOutputData
Definition: TritonClient.h:84

TritonClient::client_
std::unique_ptr< triton::client::InferenceServerGrpcClient > client_
Definition: TritonClient.h:78

TritonClient::maxBatchSize_
unsigned maxBatchSize_
Definition: TritonClient.h:65

TritonClient::TritonClient
TritonClient(const edm::ParameterSet &params, const std::string &debugName)
Definition: TritonClient.cc:39

TritonClient::TritonInputData
friend TritonInputData
Definition: TritonClient.h:83

TritonClient::ServerSideStats::compute_infer_time_ns_
uint64_t compute_infer_time_ns_
Definition: TritonClient.h:28

SonicClient
Definition: SonicClient.h:9

TritonClient::ServerSideStats::inference_count_
uint64_t inference_count_
Definition: TritonClient.h:22

TritonClient::summarizeServerStats
ServerSideStats summarizeServerStats(const inference::ModelStatistics &start_status, const inference::ModelStatistics &end_status) const
Definition: TritonClient.cc:374

AlCaHLTBitMon_QueryRunRegistry.string
string string
Definition: AlCaHLTBitMon_QueryRunRegistry.py:256

TritonClient::noBatch
bool noBatch() const
Definition: TritonClient.h:45

edm::ParameterSetDescription
Definition: ParameterSetDescription.h:52

ParameterSet.h

TritonClient::verbose_
bool verbose_
Definition: TritonClient.h:68

TritonClient::serverType_
TritonServerType serverType_
Definition: TritonClient.h:70

ParameterSetDescription.h

TritonClient::handle_exception
bool handle_exception(F &&call)
Definition: TritonClient.cc:206

TritonData.h

TritonClient::batchSize_
unsigned batchSize_
Definition: TritonClient.h:66

SonicClient.h

TritonClient::compressionAlgo_
grpc_compression_algorithm compressionAlgo_
Definition: TritonClient.h:71

TritonClient::serverType
TritonServerType serverType() const
Definition: TritonClient.h:46

TritonClient::client
auto client()
Definition: TritonClient.h:87

submitPVValidationJobs.params
def params
Definition: submitPVValidationJobs.py:482

TritonClient::getServerSideStatus
inference::ModelStatistics getServerSideStatus() const
Definition: TritonClient.cc:395

TritonClient::headers_
triton::client::Headers headers_
Definition: TritonClient.h:72

cond::uint64_t
unsigned long long uint64_t
Definition: Time.h:13

TritonClient::inputsTriton_
std::vector< triton::client::InferInput * > inputsTriton_
Definition: TritonClient.h:75

TritonClient
Definition: TritonClient.h:19

TritonClient::setUseSharedMemory
void setUseSharedMemory(bool useShm)
Definition: TritonClient.h:42

TritonClient::options_
triton::client::InferOptions options_
Definition: TritonClient.h:80

TritonClient::batchSize
unsigned batchSize() const
Definition: TritonClient.h:39

TritonClient::evaluate
void evaluate() override
Definition: TritonClient.cc:242

TritonClient::getResults
void getResults(std::shared_ptr< triton::client::InferResult > results)
Definition: TritonClient.cc:225

TritonClient::reportServerSideStats
void reportServerSideStats(const ServerSideStats &stats) const
Definition: TritonClient.cc:337

TritonClient::reset
void reset() override
Definition: TritonClient.cc:196

TritonServerType
TritonServerType
Definition: TritonService.h:25

TritonClient::useSharedMemory
bool useSharedMemory() const
Definition: TritonClient.h:41

mysort.results
results
Definition: mysort.py:8

TritonClient::noBatch_
bool noBatch_
Definition: TritonClient.h:67

TritonClient::ServerSideStats::queue_time_ns_
uint64_t queue_time_ns_
Definition: TritonClient.h:26

edm::ParameterSet
Definition: ParameterSet.h:47

TritonClient::ServerSideStats::compute_output_time_ns_
uint64_t compute_output_time_ns_
Definition: TritonClient.h:29

TritonClient::fillPSetDescription
static void fillPSetDescription(edm::ParameterSetDescription &iDesc)
Definition: TritonClient.cc:406

F
static uInt32 F(BLOWFISH_CTX *ctx, uInt32 x)
Definition: blowfish.cc:163

TritonClient::ServerSideStats::compute_input_time_ns_
uint64_t compute_input_time_ns_
Definition: TritonClient.h:27

dqmMemoryStats.stats
stats
Definition: dqmMemoryStats.py:134