df/d25/src_2TritonService_8cc_source.html

 #include "HeterogeneousCore/SonicTriton/interface/TritonService.h"
 #include "HeterogeneousCore/SonicTriton/interface/triton_utils.h"

 #include "DataFormats/Provenance/interface/ModuleDescription.h"
 #include "FWCore/MessageLogger/interface/MessageLogger.h"
 #include "FWCore/ParameterSet/interface/ConfigurationDescriptions.h"
 #include "FWCore/ParameterSet/interface/ParameterSetDescription.h"
 #include "FWCore/ServiceRegistry/interface/ActivityRegistry.h"
 #include "FWCore/ServiceRegistry/interface/SystemBounds.h"
 #include "FWCore/ServiceRegistry/interface/ProcessContext.h"
 #include "FWCore/Utilities/interface/Exception.h"

 #include "grpc_client.h"
 #include "grpc_service.pb.h"

 #include <cstdio>
 #include <cstdlib>
 #include <filesystem>
 #include <fstream>
 #include <utility>
 #include <tuple>
 #include <unistd.h>

 namespace tc = triton::client;

 const std::string TritonService::Server::fallbackName{"fallback"};
 const std::string TritonService::Server::fallbackAddress{"0.0.0.0"};

 namespace {
   std::pair<std::string, int> execSys(const std::string& cmd) {
     //redirect stderr to stdout
     auto pipe = popen((cmd + " 2>&1").c_str(), "r");
     int thisErrno = errno;
     if (!pipe)
       throw cms::Exception("SystemError")
           << "TritonService: popen() failed with errno " << thisErrno << " for command: " << cmd;

     //extract output
     constexpr static unsigned buffSize = 128;
     std::array<char, buffSize> buffer;
     std::string result;
     while (!feof(pipe)) {
       if (fgets(buffer.data(), buffSize, pipe))
         result += buffer.data();
       else {
         thisErrno = ferror(pipe);
         if (thisErrno)
           throw cms::Exception("SystemError")
               << "TritonService: failed reading command output with errno " << thisErrno;
       }
     }

     int rv = pclose(pipe);
     return std::make_pair(result, rv);
   }
 }  // namespace

 TritonService::TritonService(const edm::ParameterSet& pset, edm::ActivityRegistry& areg)
     : verbose_(pset.getUntrackedParameter<bool>("verbose")),
       fallbackOpts_(pset.getParameterSet("fallback")),
       currentModuleId_(0),
       allowAddModel_(false),
       startedFallback_(false),
       pid_(std::to_string(::getpid())) {
   //module construction is assumed to be serial (correct at the time this code was written)

   areg.watchPreallocate(this, &TritonService::preallocate);

   areg.watchPreModuleConstruction(this, &TritonService::preModuleConstruction);
   areg.watchPostModuleConstruction(this, &TritonService::postModuleConstruction);
   areg.watchPreModuleDestruction(this, &TritonService::preModuleDestruction);
   //fallback server will be launched (if needed) before beginJob
   areg.watchPreBeginJob(this, &TritonService::preBeginJob);
   areg.watchPostEndJob(this, &TritonService::postEndJob);

   //include fallback server in set if enabled
   if (fallbackOpts_.enable) {
     auto serverType = TritonServerType::Remote;
     if (!fallbackOpts_.useGPU)
       serverType = TritonServerType::LocalCPU;
 #ifdef TRITON_ENABLE_GPU
     else
       serverType = TritonServerType::LocalGPU;
 #endif

     servers_.emplace(std::piecewise_construct,
                      std::forward_as_tuple(Server::fallbackName),
                      std::forward_as_tuple(Server::fallbackName, Server::fallbackAddress, serverType));
   }

   //loop over input servers: check which models they have
   std::string msg;
   if (verbose_)
     msg = "List of models for each server:\n";
   for (const auto& serverPset : pset.getUntrackedParameterSetVector("servers")) {
     const std::string& serverName(serverPset.getUntrackedParameter<std::string>("name"));
     //ensure uniqueness
     auto [sit, unique] = servers_.emplace(serverName, serverPset);
     if (!unique)
       throw cms::Exception("DuplicateServer")
           << "TritonService: Not allowed to specify more than one server with same name (" << serverName << ")";
     auto& server(sit->second);

     std::unique_ptr<tc::InferenceServerGrpcClient> client;
     TRITON_THROW_IF_ERROR(
         tc::InferenceServerGrpcClient::Create(&client, server.url, false, server.useSsl, server.sslOptions),
         "TritonService(): unable to create inference context for " + serverName + " (" + server.url + ")");

     if (verbose_) {
       inference::ServerMetadataResponse serverMetaResponse;
       TRITON_THROW_IF_ERROR(client->ServerMetadata(&serverMetaResponse),
                             "TritonService(): unable to get metadata for " + serverName + " (" + server.url + ")");
       edm::LogInfo("TritonService") << "Server " << serverName << ": url = " << server.url
                                     << ", version = " << serverMetaResponse.version();
     }

     inference::RepositoryIndexResponse repoIndexResponse;
     TRITON_THROW_IF_ERROR(
         client->ModelRepositoryIndex(&repoIndexResponse),
         "TritonService(): unable to get repository index for " + serverName + " (" + server.url + ")");

     //servers keep track of models and vice versa
     if (verbose_)
       msg += serverName + ": ";
     for (const auto& modelIndex : repoIndexResponse.models()) {
       const auto& modelName = modelIndex.name();
       auto mit = models_.find(modelName);
       if (mit == models_.end())
         mit = models_.emplace(modelName, "").first;
       auto& modelInfo(mit->second);
       modelInfo.servers.insert(serverName);
       server.models.insert(modelName);
       if (verbose_)
         msg += modelName + ", ";
     }
     if (verbose_)
       msg += "\n";
   }
   if (verbose_)
     edm::LogInfo("TritonService") << msg;
 }

 void TritonService::preallocate(edm::service::SystemBounds const& bounds) {
   numberOfThreads_ = bounds.maxNumberOfThreads();
 }

 void TritonService::preModuleConstruction(edm::ModuleDescription const& desc) {
   currentModuleId_ = desc.id();
   allowAddModel_ = true;
 }

 void TritonService::addModel(const std::string& modelName, const std::string& path) {
   //should only be called in module constructors
   if (!allowAddModel_)
     throw cms::Exception("DisallowedAddModel")
         << "TritonService: Attempt to call addModel() outside of module constructors";
   //if model is not in the list, then no specified server provides it
   auto mit = models_.find(modelName);
   if (mit == models_.end()) {
     auto& modelInfo(unservedModels_.emplace(modelName, path).first->second);
     modelInfo.modules.insert(currentModuleId_);
     //only keep track of modules that need unserved models
     modules_.emplace(currentModuleId_, modelName);
   }
 }

 void TritonService::postModuleConstruction(edm::ModuleDescription const& desc) { allowAddModel_ = false; }

 void TritonService::preModuleDestruction(edm::ModuleDescription const& desc) {
   //remove destructed modules from unserved list
   if (unservedModels_.empty())
     return;
   auto id = desc.id();
   auto oit = modules_.find(id);
   if (oit != modules_.end()) {
     const auto& moduleInfo(oit->second);
     auto mit = unservedModels_.find(moduleInfo.model);
     if (mit != unservedModels_.end()) {
       auto& modelInfo(mit->second);
       modelInfo.modules.erase(id);
       //remove a model if it is no longer needed by any modules
       if (modelInfo.modules.empty())
         unservedModels_.erase(mit);
     }
     modules_.erase(oit);
   }
 }

 //second return value is only true if fallback CPU server is being used
 TritonService::Server TritonService::serverInfo(const std::string& model, const std::string& preferred) const {
   auto mit = models_.find(model);
   if (mit == models_.end())
     throw cms::Exception("MissingModel") << "TritonService: There are no servers that provide model " << model;
   const auto& modelInfo(mit->second);
   const auto& modelServers = modelInfo.servers;

   auto msit = modelServers.end();
   if (!preferred.empty()) {
     msit = modelServers.find(preferred);
     //todo: add a "strict" parameter to stop execution if preferred server isn't found?
     if (msit == modelServers.end())
       edm::LogWarning("PreferredServer") << "Preferred server " << preferred << " for model " << model
                                          << " not available, will choose another server";
   }
   const auto& serverName(msit == modelServers.end() ? *modelServers.begin() : preferred);

   //todo: use some algorithm to select server rather than just picking arbitrarily
   const auto& server(servers_.find(serverName)->second);
   return server;
 }

 void TritonService::preBeginJob(edm::PathsAndConsumesOfModulesBase const&, edm::ProcessContext const&) {
   //only need fallback if there are unserved models
   if (!fallbackOpts_.enable or unservedModels_.empty())
     return;

   std::string msg;
   if (verbose_)
     msg = "List of models for fallback server: ";
   //all unserved models are provided by fallback server
   auto& server(servers_.find(Server::fallbackName)->second);
   for (const auto& [modelName, model] : unservedModels_) {
     auto& modelInfo(models_.emplace(modelName, model).first->second);
     modelInfo.servers.insert(Server::fallbackName);
     server.models.insert(modelName);
     if (verbose_)
       msg += modelName + ", ";
   }
   if (verbose_)
     edm::LogInfo("TritonService") << msg;

   //assemble server start command
   fallbackOpts_.command = "cmsTriton -P -1 -p " + pid_;
   if (fallbackOpts_.debug)
     fallbackOpts_.command += " -c";
   if (fallbackOpts_.verbose)
     fallbackOpts_.command += " -v";
   if (fallbackOpts_.useDocker)
     fallbackOpts_.command += " -d";
   if (fallbackOpts_.useGPU)
     fallbackOpts_.command += " -g";
   if (!fallbackOpts_.instanceName.empty())
     fallbackOpts_.command += " -n " + fallbackOpts_.instanceName;
   if (fallbackOpts_.retries >= 0)
     fallbackOpts_.command += " -r " + std::to_string(fallbackOpts_.retries);
   if (fallbackOpts_.wait >= 0)
     fallbackOpts_.command += " -w " + std::to_string(fallbackOpts_.wait);
   for (const auto& [modelName, model] : unservedModels_) {
     fallbackOpts_.command += " -m " + model.path;
   }
   std::string thread_string = " -I " + std::to_string(numberOfThreads_);
   fallbackOpts_.command += thread_string;
   if (!fallbackOpts_.imageName.empty())
     fallbackOpts_.command += " -i " + fallbackOpts_.imageName;
   if (!fallbackOpts_.sandboxName.empty())
     fallbackOpts_.command += " -s " + fallbackOpts_.sandboxName;
   //don't need this anymore
   unservedModels_.clear();

   //get a random temporary directory if none specified
   if (fallbackOpts_.tempDir.empty()) {
     auto tmp_dir_path{std::filesystem::temp_directory_path() /= edm::createGlobalIdentifier()};
     fallbackOpts_.tempDir = tmp_dir_path.string();
   }
   //special case ".": use script default (temp dir = .$instanceName)
   if (fallbackOpts_.tempDir != ".")
     fallbackOpts_.command += " -t " + fallbackOpts_.tempDir;

   std::string command = fallbackOpts_.command + " start";

   if (fallbackOpts_.debug)
     edm::LogInfo("TritonService") << "Fallback server temporary directory: " << fallbackOpts_.tempDir;
   if (verbose_)
     edm::LogInfo("TritonService") << command;

   //mark as started before executing in case of ctrl+c while command is running
   startedFallback_ = true;
   const auto& [output, rv] = execSys(command);
   if (rv != 0) {
     edm::LogError("TritonService") << output;
     printFallbackServerLog<edm::LogError>();
     throw cms::Exception("FallbackFailed")
         << "TritonService: Starting the fallback server failed with exit code " << rv;
   } else if (verbose_)
     edm::LogInfo("TritonService") << output;
   //get the port
   const std::string& portIndicator("CMS_TRITON_GRPC_PORT: ");
   //find last instance in log in case multiple ports were tried
   auto pos = output.rfind(portIndicator);
   if (pos != std::string::npos) {
     auto pos2 = pos + portIndicator.size();
     auto pos3 = output.find('\n', pos2);
     const auto& portNum = output.substr(pos2, pos3 - pos2);
     server.url += ":" + portNum;
   } else
     throw cms::Exception("FallbackFailed") << "TritonService: Unknown port for fallback server, log follows:\n"
                                            << output;
 }

 void TritonService::postEndJob() {
   if (!startedFallback_)
     return;

   std::string command = fallbackOpts_.command + " stop";
   if (verbose_)
     edm::LogInfo("TritonService") << command;

   const auto& [output, rv] = execSys(command);
   if (rv != 0) {
     edm::LogError("TritonService") << output;
     printFallbackServerLog<edm::LogError>();
     throw cms::Exception("FallbackFailed")
         << "TritonService: Stopping the fallback server failed with exit code " << rv;
   } else if (verbose_) {
     edm::LogInfo("TritonService") << output;
     printFallbackServerLog<edm::LogInfo>();
   }
 }

 template <typename LOG>
 void TritonService::printFallbackServerLog() const {
   std::vector<std::string> logNames{"log_" + fallbackOpts_.instanceName + ".log"};
   //cmsTriton script moves log from temp to current dir in verbose mode or in some cases when auto_stop is called
   // -> check both places
   logNames.push_back(fallbackOpts_.tempDir + "/" + logNames[0]);
   bool foundLog = false;
   for (const auto& logName : logNames) {
     std::ifstream infile(logName);
     if (infile.is_open()) {
       LOG("TritonService") << "TritonService: server log " << logName << "\n" << infile.rdbuf();
       foundLog = true;
       break;
     }
   }
   if (!foundLog)
     LOG("TritonService") << "TritonService: could not find server log " << logNames[0] << " in current directory or "
                          << fallbackOpts_.tempDir;
 }

 void TritonService::fillDescriptions(edm::ConfigurationDescriptions& descriptions) {
   edm::ParameterSetDescription desc;
   desc.addUntracked<bool>("verbose", false);

   edm::ParameterSetDescription validator;
   validator.addUntracked<std::string>("name");
   validator.addUntracked<std::string>("address");
   validator.addUntracked<unsigned>("port");
   validator.addUntracked<bool>("useSsl", false);
   validator.addUntracked<std::string>("rootCertificates", "");
   validator.addUntracked<std::string>("privateKey", "");
   validator.addUntracked<std::string>("certificateChain", "");

   desc.addVPSetUntracked("servers", validator, {});

   edm::ParameterSetDescription fallbackDesc;
   fallbackDesc.addUntracked<bool>("enable", false);
   fallbackDesc.addUntracked<bool>("debug", false);
   fallbackDesc.addUntracked<bool>("verbose", false);
   fallbackDesc.addUntracked<bool>("useDocker", false);
   fallbackDesc.addUntracked<bool>("useGPU", false);
   fallbackDesc.addUntracked<int>("retries", -1);
   fallbackDesc.addUntracked<int>("wait", -1);
   fallbackDesc.addUntracked<std::string>("instanceBaseName", "triton_server_instance");
   fallbackDesc.addUntracked<std::string>("instanceName", "");
   fallbackDesc.addUntracked<std::string>("tempDir", "");
   fallbackDesc.addUntracked<std::string>("imageName", "");
   fallbackDesc.addUntracked<std::string>("sandboxName", "");
   desc.add<edm::ParameterSetDescription>("fallback", fallbackDesc);

   descriptions.addWithDefaultLabel(desc);
 }
edm::ActivityRegistry::watchPostModuleConstruction
void watchPostModuleConstruction(PostModuleConstruction::slot_type const &iSlot)
Definition: ActivityRegistry.h:670

edm::ConfigurationDescriptions::addWithDefaultLabel
void addWithDefaultLabel(ParameterSetDescription const &psetDescription)
Definition: ConfigurationDescriptions.cc:87

TritonService::models_
std::unordered_map< std::string, Model > models_
Definition: TritonService.h:139

edm::ActivityRegistry::watchPreallocate
void watchPreallocate(Preallocate::slot_type const &iSlot)
Definition: ActivityRegistry.h:146

edm::ParameterSetDescription::addUntracked
ParameterDescriptionBase * addUntracked(U const &iLabel, T const &value)
Definition: ParameterSetDescription.h:100

Exception
Definition: hltDiff.cc:245

HLTObjectMonitor_Client_cff.client
client
Definition: HLTObjectMonitor_Client_cff.py:6

edm::ActivityRegistry::watchPostEndJob
void watchPostEndJob(PostEndJob::slot_type const &iSlot)
Definition: ActivityRegistry.h:181

MessageLogger.h

mps_fire.result
result
Definition: mps_fire.py:311

castor_dqm_sourceclient_file_cfg.path
path
Definition: castor_dqm_sourceclient_file_cfg.py:37

TritonService::unservedModels_
std::unordered_map< std::string, Model > unservedModels_
Definition: TritonService.h:136

TRITON_THROW_IF_ERROR
#define TRITON_THROW_IF_ERROR(X, MSG)
Definition: triton_utils.h:75

edm::ActivityRegistry::watchPreModuleConstruction
void watchPreModuleConstruction(PreModuleConstruction::slot_type const &iSlot)
Definition: ActivityRegistry.h:661

funct::false
false
Definition: Factorize.h:29

TritonService.h

TritonService::FallbackOpts::imageName
std::string imageName
Definition: TritonService.h:62

edmScanValgrind.buffer
buffer
Definition: edmScanValgrind.py:171

TritonService::postModuleConstruction
void postModuleConstruction(edm::ModuleDescription const &)
Definition: TritonService.cc:167

TritonService::FallbackOpts::useDocker
bool useDocker
Definition: TritonService.h:56

TritonService::verbose_
bool verbose_
Definition: TritonService.h:130

edm::ActivityRegistry::watchPreModuleDestruction
void watchPreModuleDestruction(PreModuleDestruction::slot_type const &iSlot)
Definition: ActivityRegistry.h:679

muonDTDigis_cfi.pset
pset
Definition: muonDTDigis_cfi.py:27

TritonService::FallbackOpts::verbose
bool verbose
Definition: TritonService.h:55

TritonService::currentModuleId_
unsigned currentModuleId_
Definition: TritonService.h:132

TritonService::preallocate
void preallocate(edm::service::SystemBounds const &)
Definition: TritonService.cc:143

std
Definition: JetResolutionObject.h:76

convertSQLitetoXML_cfg.output
output
Definition: convertSQLitetoXML_cfg.py:72

LOG
#define LOG(A)
Definition: Simplify_begin.h:61

TritonService::FallbackOpts::retries
int retries
Definition: TritonService.h:58

ModuleDescription.h

edm::LogError
Log< level::Error, false > LogError
Definition: MessageLogger.h:129

TritonService::TritonService
TritonService(const edm::ParameterSet &pset, edm::ActivityRegistry &areg)
Definition: TritonService.cc:58

TritonService::Server::fallbackAddress
static const std::string fallbackAddress
Definition: TritonService.h:90

edm::ProcessContext
Definition: ProcessContext.h:27

bounds
bounds
Definition: SiStripHitEfficiencyHelpers.h:25

edm::service::SystemBounds
Definition: SystemBounds.h:29

TritonService::FallbackOpts::useGPU
bool useGPU
Definition: TritonService.h:57

AlCaHLTBitMon_QueryRunRegistry.string
string string
Definition: AlCaHLTBitMon_QueryRunRegistry.py:256

to_string
static std::string to_string(const XMLCh *ch)
Definition: TotemDAQMappingESSourceXML.cc:353

edm::ParameterSetDescription
Definition: ParameterSetDescription.h:52

TritonService::addModel
void addModel(const std::string &modelName, const std::string &path)
Definition: TritonService.cc:152

contentValuesFiles.server
server
Definition: contentValuesFiles.py:37

TritonService::postEndJob
void postEndJob()
Definition: TritonService.cc:300

TritonService::FallbackOpts::debug
bool debug
Definition: TritonService.h:54

timingPdfMaker.infile
infile
Definition: timingPdfMaker.py:349

TritonService::fallbackOpts_
FallbackOpts fallbackOpts_
Definition: TritonService.h:131

ParameterSetDescription.h

TritonService::FallbackOpts::sandboxName
std::string sandboxName
Definition: TritonService.h:63

SystemBounds.h

or
The Signals That Services Can Subscribe To This is based on ActivityRegistry and is current per Services can connect to the signals distributed by the ActivityRegistry in order to monitor the activity of the application Each possible callback has some defined which we here list in angle e< void, edm::EventID const  &, edm::Timestamp const  & > We also list in braces which AR_WATCH_USING_METHOD_ is used for those or
Definition: Activities.doc:12

tier0.unique
def unique(seq, keepstr=True)
Definition: tier0.py:24

submitPVResolutionJobs.desc
string desc
Definition: submitPVResolutionJobs.py:251

TritonServerType::LocalCPU

TritonService::pid_
std::string pid_
Definition: TritonService.h:135

TritonService::preBeginJob
void preBeginJob(edm::PathsAndConsumesOfModulesBase const &, edm::ProcessContext const &)
Definition: TritonService.cc:212

TritonService::printFallbackServerLog
void printFallbackServerLog() const
Definition: TritonService.cc:321

TritonService::FallbackOpts::wait
int wait
Definition: TritonService.h:59

pipe.pipe
def pipe(cmdline, input=None)
Definition: pipe.py:5

TritonService::preModuleConstruction
void preModuleConstruction(edm::ModuleDescription const &)
Definition: TritonService.cc:147

TritonService::allowAddModel_
bool allowAddModel_
Definition: TritonService.h:133

pos
Definition: PixelCalibBase.h:13

TritonServerType::LocalGPU

caHitNtupletGeneratorKernels::if
if(0==first)
Definition: CAHitNtupletGeneratorKernelsImpl.h:86

TritonService::FallbackOpts::enable
bool enable
Definition: TritonService.h:53

edm::createGlobalIdentifier
std::string createGlobalIdentifier(bool binary=false)
Definition: GlobalIdentifier.cc:5

edm::LogInfo
Log< level::Info, false > LogInfo
Definition: MessageLogger.h:131

TritonService::numberOfThreads_
int numberOfThreads_
Definition: TritonService.h:141

TritonService::preModuleDestruction
void preModuleDestruction(edm::ModuleDescription const &)
Definition: TritonService.cc:169

Exception.h

TritonService::fillDescriptions
static void fillDescriptions(edm::ConfigurationDescriptions &descriptions)
Definition: TritonService.cc:340

TritonService::FallbackOpts::tempDir
std::string tempDir
Definition: TritonService.h:61

TritonService::modules_
std::unordered_map< unsigned, Module > modules_
Definition: TritonService.h:140

cms::Exception
Definition: Exception.h:71

nano_mu_local_reco_cff.bool
bool
Definition: nano_mu_local_reco_cff.py:13

mps_check.msg
tuple msg
Definition: mps_check.py:286

TritonService::FallbackOpts::command
std::string command
Definition: TritonService.h:64

edm::ActivityRegistry::watchPreBeginJob
void watchPreBeginJob(PreBeginJob::slot_type const &iSlot)
convenience function for attaching to signal
Definition: ActivityRegistry.h:162

triton_utils.h

ecalBarrelClusterFastTimer_cfi.modelName
modelName
Definition: ecalBarrelClusterFastTimer_cfi.py:10

ActivityRegistry.h

edm::getParameterSet
ParameterSet const  & getParameterSet(ParameterSetID const &id)
Definition: ParameterSet.cc:918

mps_check.command
list command
Definition: mps_check.py:25

TritonServerType::Remote

TritonService::FallbackOpts::instanceName
std::string instanceName
Definition: TritonService.h:60

TritonService::serverInfo
Server serverInfo(const std::string &model, const std::string &preferred="") const
Definition: TritonService.cc:190

mps_setup.cmd
list cmd
Definition: mps_setup.py:244

edm::Log
Definition: MessageLogger.h:70

edm::ParameterSet
Definition: ParameterSet.h:48

ConfigurationDescriptions.h

output
Definition: output.py:1

edm::PathsAndConsumesOfModulesBase
Definition: PathsAndConsumesOfModulesBase.h:35

edm::ModuleDescription
Definition: ModuleDescription.h:21

ProcessContext.h

ReggeGribovPartonMC_EposLHC_2760GeV_PbPb_cfi.model
model
Definition: ReggeGribovPartonMC_EposLHC_2760GeV_PbPb_cfi.py:11

pipe
Definition: pipe.py:1

TritonService::servers_
std::unordered_map< std::string, Server > servers_
Definition: TritonService.h:138

TritonService::startedFallback_
bool startedFallback_
Definition: TritonService.h:134

edm::ActivityRegistry
Definition: ActivityRegistry.h:136

edm::ConfigurationDescriptions
Definition: ConfigurationDescriptions.h:28

TritonService::Server::fallbackName
static const std::string fallbackName
Definition: TritonService.h:89

heppy_check.logName
logName
Definition: heppy_check.py:35

TritonService::Server
Definition: TritonService.h:66