d5/d2b/TritonClient_8cc_source.html

 #include "FWCore/MessageLogger/interface/MessageLogger.h"
 #include "FWCore/ParameterSet/interface/FileInPath.h"
 #include "FWCore/ServiceRegistry/interface/Service.h"
 #include "FWCore/Utilities/interface/Exception.h"
 #include "HeterogeneousCore/SonicTriton/interface/TritonClient.h"
 #include "HeterogeneousCore/SonicTriton/interface/TritonException.h"
 #include "HeterogeneousCore/SonicTriton/interface/TritonService.h"
 #include "HeterogeneousCore/SonicTriton/interface/triton_utils.h"

 #include "grpc_client.h"
 #include "grpc_service.pb.h"

 #include <string>
 #include <cmath>
 #include <exception>
 #include <sstream>
 #include <utility>
 #include <tuple>

 namespace tc = triton::client;

 namespace {
   grpc_compression_algorithm getCompressionAlgo(const std::string& name) {
     if (name.empty() or name.compare("none") == 0)
       return grpc_compression_algorithm::GRPC_COMPRESS_NONE;
     else if (name.compare("deflate") == 0)
       return grpc_compression_algorithm::GRPC_COMPRESS_DEFLATE;
     else if (name.compare("gzip") == 0)
       return grpc_compression_algorithm::GRPC_COMPRESS_GZIP;
     else
       throw cms::Exception("GrpcCompression")
           << "Unknown compression algorithm requested: " << name << " (choices: none, deflate, gzip)";
   }
 }  // namespace

 //based on https://github.com/triton-inference-server/server/blob/v2.3.0/src/clients/c++/examples/simple_grpc_async_infer_client.cc
 //and https://github.com/triton-inference-server/server/blob/v2.3.0/src/clients/c++/perf_client/perf_client.cc

 TritonClient::TritonClient(const edm::ParameterSet& params, const std::string& debugName)
     : SonicClient(params, debugName, "TritonClient"),
       verbose_(params.getUntrackedParameter<bool>("verbose")),
       useSharedMemory_(params.getUntrackedParameter<bool>("useSharedMemory")),
       compressionAlgo_(getCompressionAlgo(params.getUntrackedParameter<std::string>("compression"))),
       options_(params.getParameter<std::string>("modelName")) {
   //get appropriate server for this model
   edm::Service<TritonService> ts;
   const auto& server =
       ts->serverInfo(options_.model_name_, params.getUntrackedParameter<std::string>("preferredServer"));
   serverType_ = server.type;
   if (verbose_)
     edm::LogInfo(fullDebugName_) << "Using server: " << server.url;
   //enforce sync mode for fallback CPU server to avoid contention
   //todo: could enforce async mode otherwise (unless mode was specified by user?)
   if (serverType_ == TritonServerType::LocalCPU)
     setMode(SonicMode::Sync);

   //connect to the server
   TRITON_THROW_IF_ERROR(
       tc::InferenceServerGrpcClient::Create(&client_, server.url, false, server.useSsl, server.sslOptions),
       "TritonClient(): unable to create inference context");

   //set options
   options_.model_version_ = params.getParameter<std::string>("modelVersion");
   //convert seconds to microseconds
   options_.client_timeout_ = params.getUntrackedParameter<unsigned>("timeout") * 1e6;

   //config needed for batch size
   inference::ModelConfigResponse modelConfigResponse;
   TRITON_THROW_IF_ERROR(client_->ModelConfig(&modelConfigResponse, options_.model_name_, options_.model_version_),
                         "TritonClient(): unable to get model config");
   inference::ModelConfig modelConfig(modelConfigResponse.config());

   //check batch size limitations (after i/o setup)
   //triton uses max batch size = 0 to denote a model that does not support batching
   //but for models that do support batching, a given event may set batch size 0 to indicate no valid input is present
   //so set the local max to 1 and keep track of "no batch" case
   maxBatchSize_ = modelConfig.max_batch_size();
   noBatch_ = maxBatchSize_ == 0;
   maxBatchSize_ = std::max(1u, maxBatchSize_);

   //get model info
   inference::ModelMetadataResponse modelMetadata;
   TRITON_THROW_IF_ERROR(client_->ModelMetadata(&modelMetadata, options_.model_name_, options_.model_version_),
                         "TritonClient(): unable to get model metadata");

   //get input and output (which know their sizes)
   const auto& nicInputs = modelMetadata.inputs();
   const auto& nicOutputs = modelMetadata.outputs();

   //report all model errors at once
   std::stringstream msg;
   std::string msg_str;

   //currently no use case is foreseen for a model with zero inputs or outputs
   if (nicInputs.empty())
     msg << "Model on server appears malformed (zero inputs)\n";

   if (nicOutputs.empty())
     msg << "Model on server appears malformed (zero outputs)\n";

   //stop if errors
   msg_str = msg.str();
   if (!msg_str.empty())
     throw cms::Exception("ModelErrors") << msg_str;

   //setup input map
   std::stringstream io_msg;
   if (verbose_)
     io_msg << "Model inputs: "
            << "\n";
   inputsTriton_.reserve(nicInputs.size());
   for (const auto& nicInput : nicInputs) {
     const auto& iname = nicInput.name();
     auto [curr_itr, success] = input_.emplace(std::piecewise_construct,
                                               std::forward_as_tuple(iname),
                                               std::forward_as_tuple(iname, nicInput, this, ts->pid()));
     auto& curr_input = curr_itr->second;
     inputsTriton_.push_back(curr_input.data());
     if (verbose_) {
       io_msg << "  " << iname << " (" << curr_input.dname() << ", " << curr_input.byteSize()
              << " b) : " << triton_utils::printColl(curr_input.shape()) << "\n";
     }
   }

   //allow selecting only some outputs from server
   const auto& v_outputs = params.getUntrackedParameter<std::vector<std::string>>("outputs");
   std::unordered_set s_outputs(v_outputs.begin(), v_outputs.end());

   //setup output map
   if (verbose_)
     io_msg << "Model outputs: "
            << "\n";
   outputsTriton_.reserve(nicOutputs.size());
   for (const auto& nicOutput : nicOutputs) {
     const auto& oname = nicOutput.name();
     if (!s_outputs.empty() and s_outputs.find(oname) == s_outputs.end())
       continue;
     auto [curr_itr, success] = output_.emplace(std::piecewise_construct,
                                                std::forward_as_tuple(oname),
                                                std::forward_as_tuple(oname, nicOutput, this, ts->pid()));
     auto& curr_output = curr_itr->second;
     outputsTriton_.push_back(curr_output.data());
     if (verbose_) {
       io_msg << "  " << oname << " (" << curr_output.dname() << ", " << curr_output.byteSize()
              << " b) : " << triton_utils::printColl(curr_output.shape()) << "\n";
     }
     if (!s_outputs.empty())
       s_outputs.erase(oname);
   }

   //check if any requested outputs were not available
   if (!s_outputs.empty())
     throw cms::Exception("MissingOutput")
         << "Some requested outputs were not available on the server: " << triton_utils::printColl(s_outputs);

   //propagate batch size to inputs and outputs
   setBatchSize(1);

   //print model info
   std::stringstream model_msg;
   if (verbose_) {
     model_msg << "Model name: " << options_.model_name_ << "\n"
               << "Model version: " << options_.model_version_ << "\n"
               << "Model max batch size: " << (noBatch_ ? 0 : maxBatchSize_) << "\n";
     edm::LogInfo(fullDebugName_) << model_msg.str() << io_msg.str();
   }
 }

 TritonClient::~TritonClient() {
   //by default: members of this class destroyed before members of base class
   //in shared memory case, TritonMemResource (member of TritonData) unregisters from client_ in its destructor
   //but input/output objects are member of base class, so destroyed after client_ (member of this class)
   //therefore, clear the maps here
   input_.clear();
   output_.clear();
 }

 bool TritonClient::setBatchSize(unsigned bsize) {
   if (bsize > maxBatchSize_) {
     edm::LogWarning(fullDebugName_) << "Requested batch size " << bsize << " exceeds server-specified max batch size "
                                     << maxBatchSize_ << ". Batch size will remain as" << batchSize_;
     return false;
   } else {
     batchSize_ = bsize;
     //set for input and output
     for (auto& element : input_) {
       element.second.setBatchSize(bsize);
     }
     for (auto& element : output_) {
       element.second.setBatchSize(bsize);
     }
     return true;
   }
 }

 void TritonClient::reset() {
   for (auto& element : input_) {
     element.second.reset();
   }
   for (auto& element : output_) {
     element.second.reset();
   }
 }

 template <typename F>
 bool TritonClient::handle_exception(F&& call) {
   //caught exceptions will be propagated to edm::WaitingTaskWithArenaHolder
   CMS_SA_ALLOW try {
     call();
     return true;
   }
   //TritonExceptions are intended/expected to be recoverable, i.e. retries should be allowed
   catch (TritonException& e) {
     e.convertToWarning();
     finish(false);
     return false;
   }
   //other exceptions are not: execution should stop if they are encountered
   catch (...) {
     finish(false, std::current_exception());
     return false;
   }
 }

 void TritonClient::getResults(std::shared_ptr<tc::InferResult> results) {
   for (auto& [oname, output] : output_) {
     //set shape here before output becomes const
     if (output.variableDims()) {
       std::vector<int64_t> tmp_shape;
       TRITON_THROW_IF_ERROR(results->Shape(oname, &tmp_shape), "getResults(): unable to get output shape for " + oname);
       if (!noBatch_)
         tmp_shape.erase(tmp_shape.begin());
       output.setShape(tmp_shape);
       output.computeSizes();
     }
     //extend lifetime
     output.setResult(results);
   }
 }

 //default case for sync and pseudo async
 void TritonClient::evaluate() {
   //in case there is nothing to process
   if (batchSize_ == 0) {
     finish(true);
     return;
   }

   //set up shared memory for output
   auto success = handle_exception([&]() {
     for (auto& element : output_) {
       element.second.prepare();
     }
   });
   if (!success)
     return;

   // Get the status of the server prior to the request being made.
   inference::ModelStatistics start_status;
   success = handle_exception([&]() {
     if (verbose())
       start_status = getServerSideStatus();
   });
   if (!success)
     return;

   if (mode_ == SonicMode::Async) {
     //non-blocking call
     success = handle_exception([&]() {
       TRITON_THROW_IF_ERROR(
           client_->AsyncInfer(
               [start_status, this](tc::InferResult* results) {
                 //get results
                 std::shared_ptr<tc::InferResult> results_ptr(results);
                 auto success = handle_exception(
                     [&]() { TRITON_THROW_IF_ERROR(results_ptr->RequestStatus(), "evaluate(): unable to get result"); });
                 if (!success)
                   return;

                 if (verbose()) {
                   inference::ModelStatistics end_status;
                   success = handle_exception([&]() { end_status = getServerSideStatus(); });
                   if (!success)
                     return;

                   const auto& stats = summarizeServerStats(start_status, end_status);
                   reportServerSideStats(stats);
                 }

                 //check result
                 success = handle_exception([&]() { getResults(results_ptr); });
                 if (!success)
                   return;

                 //finish
                 finish(true);
               },
               options_,
               inputsTriton_,
               outputsTriton_,
               headers_,
               compressionAlgo_),
           "evaluate(): unable to launch async run");
     });
     if (!success)
       return;
   } else {
     //blocking call
     tc::InferResult* results;
     success = handle_exception([&]() {
       TRITON_THROW_IF_ERROR(
           client_->Infer(&results, options_, inputsTriton_, outputsTriton_, headers_, compressionAlgo_),
           "evaluate(): unable to run and/or get result");
     });
     if (!success)
       return;

     if (verbose()) {
       inference::ModelStatistics end_status;
       success = handle_exception([&]() { end_status = getServerSideStatus(); });
       if (!success)
         return;

       const auto& stats = summarizeServerStats(start_status, end_status);
       reportServerSideStats(stats);
     }

     std::shared_ptr<tc::InferResult> results_ptr(results);
     success = handle_exception([&]() { getResults(results_ptr); });
     if (!success)
       return;

     finish(true);
   }
 }

 void TritonClient::reportServerSideStats(const TritonClient::ServerSideStats& stats) const {
   std::stringstream msg;

   // https://github.com/triton-inference-server/server/blob/v2.3.0/src/clients/c++/perf_client/inference_profiler.cc
   const uint64_t count = stats.success_count_;
   msg << "  Inference count: " << stats.inference_count_ << "\n";
   msg << "  Execution count: " << stats.execution_count_ << "\n";
   msg << "  Successful request count: " << count << "\n";

   if (count > 0) {
     auto get_avg_us = [count](uint64_t tval) {
       constexpr uint64_t us_to_ns = 1000;
       return tval / us_to_ns / count;
     };

     const uint64_t cumm_avg_us = get_avg_us(stats.cumm_time_ns_);
     const uint64_t queue_avg_us = get_avg_us(stats.queue_time_ns_);
     const uint64_t compute_input_avg_us = get_avg_us(stats.compute_input_time_ns_);
     const uint64_t compute_infer_avg_us = get_avg_us(stats.compute_infer_time_ns_);
     const uint64_t compute_output_avg_us = get_avg_us(stats.compute_output_time_ns_);
     const uint64_t compute_avg_us = compute_input_avg_us + compute_infer_avg_us + compute_output_avg_us;
     const uint64_t overhead =
         (cumm_avg_us > queue_avg_us + compute_avg_us) ? (cumm_avg_us - queue_avg_us - compute_avg_us) : 0;

     msg << "  Avg request latency: " << cumm_avg_us << " usec"
         << "\n"
         << "  (overhead " << overhead << " usec + "
         << "queue " << queue_avg_us << " usec + "
         << "compute input " << compute_input_avg_us << " usec + "
         << "compute infer " << compute_infer_avg_us << " usec + "
         << "compute output " << compute_output_avg_us << " usec)" << std::endl;
   }

   if (!debugName_.empty())
     edm::LogInfo(fullDebugName_) << msg.str();
 }

 TritonClient::ServerSideStats TritonClient::summarizeServerStats(const inference::ModelStatistics& start_status,
                                                                  const inference::ModelStatistics& end_status) const {
   TritonClient::ServerSideStats server_stats;

   server_stats.inference_count_ = end_status.inference_count() - start_status.inference_count();
   server_stats.execution_count_ = end_status.execution_count() - start_status.execution_count();
   server_stats.success_count_ =
       end_status.inference_stats().success().count() - start_status.inference_stats().success().count();
   server_stats.cumm_time_ns_ =
       end_status.inference_stats().success().ns() - start_status.inference_stats().success().ns();
   server_stats.queue_time_ns_ = end_status.inference_stats().queue().ns() - start_status.inference_stats().queue().ns();
   server_stats.compute_input_time_ns_ =
       end_status.inference_stats().compute_input().ns() - start_status.inference_stats().compute_input().ns();
   server_stats.compute_infer_time_ns_ =
       end_status.inference_stats().compute_infer().ns() - start_status.inference_stats().compute_infer().ns();
   server_stats.compute_output_time_ns_ =
       end_status.inference_stats().compute_output().ns() - start_status.inference_stats().compute_output().ns();

   return server_stats;
 }

 inference::ModelStatistics TritonClient::getServerSideStatus() const {
   if (verbose_) {
     inference::ModelStatisticsResponse resp;
     TRITON_THROW_IF_ERROR(client_->ModelInferenceStatistics(&resp, options_.model_name_, options_.model_version_),
                           "getServerSideStatus(): unable to get model statistics");
     return *(resp.model_stats().begin());
   }
   return inference::ModelStatistics{};
 }

 //for fillDescriptions
 void TritonClient::fillPSetDescription(edm::ParameterSetDescription& iDesc) {
   edm::ParameterSetDescription descClient;
   fillBasePSetDescription(descClient);
   descClient.add<std::string>("modelName");
   descClient.add<std::string>("modelVersion", "");
   descClient.add<edm::FileInPath>("modelConfigPath");
   //server parameters should not affect the physics results
   descClient.addUntracked<std::string>("preferredServer", "");
   descClient.addUntracked<unsigned>("timeout");
   descClient.addUntracked<bool>("useSharedMemory", true);
   descClient.addUntracked<std::string>("compression", "");
   descClient.addUntracked<std::vector<std::string>>("outputs", {});
   iDesc.add<edm::ParameterSetDescription>("Client", descClient);
 }
TritonClient::ServerSideStats::execution_count_
uint64_t execution_count_
Definition: TritonClient.h:23

TritonClient::verbose
bool verbose() const
Definition: TritonClient.h:40

TritonClient::ServerSideStats::cumm_time_ns_
uint64_t cumm_time_ns_
Definition: TritonClient.h:25

TritonService::pid
const std::string & pid() const
Definition: TritonService.h:111

CMS_SA_ALLOW
#define CMS_SA_ALLOW

edm::Service
Definition: Service.h:30

SonicClientBase::mode_
SonicMode mode_
Definition: SonicClientBase.h:54

TritonClient::setBatchSize
bool setBatchSize(unsigned bsize)
Definition: TritonClient.cc:178

edm::ParameterSetDescription::addUntracked
ParameterDescriptionBase * addUntracked(U const &iLabel, T const &value)
Definition: ParameterSetDescription.h:100

TritonClient::~TritonClient
~TritonClient() override
Definition: TritonClient.cc:169

Exception
Definition: hltDiff.cc:245

HLTObjectMonitor_Client_cff.client
client
Definition: HLTObjectMonitor_Client_cff.py:6

MessageLogger.h

TritonClient::ServerSideStats
Definition: TritonClient.h:21

SonicMode::Sync

TRITON_THROW_IF_ERROR
#define TRITON_THROW_IF_ERROR(X, MSG)
Definition: triton_utils.h:75

verbose
bool verbose
Definition: beamSpotDipStandalone.cc:87

TritonService.h

TritonClient::ServerSideStats::success_count_
uint64_t success_count_
Definition: TritonClient.h:24

TritonClient::outputsTriton_
std::vector< const triton::client::InferRequestedOutput * > outputsTriton_
Definition: TritonClient.h:76

bookConverter.results
results
Definition: bookConverter.py:144

std
Definition: JetResolutionObject.h:76

SonicClientBase::setMode
void setMode(SonicMode mode)
Definition: SonicClientBase.cc:26

TritonClient::client_
std::unique_ptr< triton::client::InferenceServerGrpcClient > client_
Definition: TritonClient.h:78

TritonClient::maxBatchSize_
unsigned maxBatchSize_
Definition: TritonClient.h:65

TritonClient::TritonClient
TritonClient(const edm::ParameterSet &params, const std::string &debugName)
Definition: TritonClient.cc:39

SonicClientBase::debugName_
std::string debugName_
Definition: SonicClientBase.h:61

MillePedeFileConverter_cfg.e
e
Definition: MillePedeFileConverter_cfg.py:37

TritonClient::ServerSideStats::compute_infer_time_ns_
uint64_t compute_infer_time_ns_
Definition: TritonClient.h:28

SonicClient
Definition: SonicClient.h:9

TritonClient::ServerSideStats::inference_count_
uint64_t inference_count_
Definition: TritonClient.h:22

SonicClientBase::finish
void finish(bool success, std::exception_ptr eptr=std::exception_ptr{})
Definition: SonicClientBase.cc:45

TritonClient::summarizeServerStats
ServerSideStats summarizeServerStats(const inference::ModelStatistics &start_status, const inference::ModelStatistics &end_status) const
Definition: TritonClient.cc:374

AlCaHLTBitMon_QueryRunRegistry.string
string string
Definition: AlCaHLTBitMon_QueryRunRegistry.py:256

edm::ParameterSetDescription
Definition: ParameterSetDescription.h:52

FileInPath.h

summarizeEdmComparisonLogfiles.success
success
Definition: summarizeEdmComparisonLogfiles.py:114

TritonClient.h

TritonClient::verbose_
bool verbose_
Definition: TritonClient.h:68

SonicClientTypes< TritonInputMap, TritonOutputMap >::input_
Input input_
Definition: SonicClientTypes.h:19

contentValuesFiles.server
server
Definition: contentValuesFiles.py:37

TritonClient::serverType_
TritonServerType serverType_
Definition: TritonClient.h:70

or
The Signals That Services Can Subscribe To This is based on ActivityRegistry and is current per Services can connect to the signals distributed by the ActivityRegistry in order to monitor the activity of the application Each possible callback has some defined which we here list in angle e< void, edm::EventID const  &, edm::Timestamp const  & > We also list in braces which AR_WATCH_USING_METHOD_ is used for those or
Definition: Activities.doc:12

TritonClient::handle_exception
bool handle_exception(F &&call)
Definition: TritonClient.cc:206

SonicClientTypes< TritonInputMap, TritonOutputMap >::output_
Output output_
Definition: SonicClientTypes.h:20

TritonClient::batchSize_
unsigned batchSize_
Definition: TritonClient.h:66

TritonServerType::LocalCPU

Service.h

TritonClient::compressionAlgo_
grpc_compression_algorithm compressionAlgo_
Definition: TritonClient.h:71

TritonException.h

edm::ParameterSetDescription::add
ParameterDescriptionBase * add(U const &iLabel, T const &value)
Definition: ParameterSetDescription.h:95

SiStripPI::max
Definition: SiStripPayloadInspectorHelper.h:178

submitPVResolutionJobs.count
count
Definition: submitPVResolutionJobs.py:352

submitPVValidationJobs.params
def params
Definition: submitPVValidationJobs.py:482

SonicClientTypes< TritonInputMap, TritonOutputMap >::output
const Output & output() const
Definition: SonicClientTypes.h:16

SonicClientBase::fillBasePSetDescription
static void fillBasePSetDescription(edm::ParameterSetDescription &desc, bool allowRetry=true)
Definition: SonicClientBase.cc:73

electrons_cff.bool
bool
Definition: electrons_cff.py:381

edm::FileInPath
Definition: FileInPath.h:61

TritonClient::getServerSideStatus
inference::ModelStatistics getServerSideStatus() const
Definition: TritonClient.cc:395

edm::LogInfo
Log< level::Info, false > LogInfo
Definition: MessageLogger.h:125

TritonClient::headers_
triton::client::Headers headers_
Definition: TritonClient.h:72

Exception.h

cond::uint64_t
unsigned long long uint64_t
Definition: Time.h:13

TritonClient::inputsTriton_
std::vector< triton::client::InferInput * > inputsTriton_
Definition: TritonClient.h:75

cms::Exception
Definition: Exception.h:70

TritonException
Definition: TritonException.h:8

SonicMode::Async

mps_check.msg
tuple msg
Definition: mps_check.py:285

triton_utils.h

TritonClient::options_
triton::client::InferOptions options_
Definition: TritonClient.h:80

TritonClient::evaluate
void evaluate() override
Definition: TritonClient.cc:242

heppy_report.oname
oname
Definition: heppy_report.py:57

TritonService::serverInfo
Server serverInfo(const std::string &model, const std::string &preferred="") const
Definition: TritonService.cc:182

TritonClient::getResults
void getResults(std::shared_ptr< triton::client::InferResult > results)
Definition: TritonClient.cc:225

TritonClient::reportServerSideStats
void reportServerSideStats(const ServerSideStats &stats) const
Definition: TritonClient.cc:337

TritonClient::reset
void reset() override
Definition: TritonClient.cc:196

SonicClientBase::fullDebugName_
std::string fullDebugName_
Definition: SonicClientBase.h:61

edm::Log
Definition: MessageLogger.h:70

TritonClient::noBatch_
bool noBatch_
Definition: TritonClient.h:67

TritonClient::ServerSideStats::queue_time_ns_
uint64_t queue_time_ns_
Definition: TritonClient.h:26

edm::ParameterSet
Definition: ParameterSet.h:47

TritonClient::ServerSideStats::compute_output_time_ns_
uint64_t compute_output_time_ns_
Definition: TritonClient.h:29

TritonClient::fillPSetDescription
static void fillPSetDescription(edm::ParameterSetDescription &iDesc)
Definition: TritonClient.cc:406

edm::LogWarning
Log< level::Warning, false > LogWarning
Definition: MessageLogger.h:122

F
static uInt32 F(BLOWFISH_CTX *ctx, uInt32 x)
Definition: blowfish.cc:163

triton_utils::printColl
std::string printColl(const C &coll, const std::string &delim=", ")
Definition: triton_utils.cc:9

TritonClient::ServerSideStats::compute_input_time_ns_
uint64_t compute_input_time_ns_
Definition: TritonClient.h:27

dqmMemoryStats.stats
stats
Definition: dqmMemoryStats.py:134

Skims_PA_cff.name
name
Definition: Skims_PA_cff.py:17