da/d3b/libminifloat_8h_source.html

 #ifndef libminifloat_h
 #define libminifloat_h
 #include "FWCore/Utilities/interface/thread_safety_macros.h"
 #include "FWCore/Utilities/interface/bit_cast.h"
 #include <cstdint>
 #include <cassert>
 #include <algorithm>

 // ftp://ftp.fox-toolkit.org/pub/fasthalffloatconversion.pdf
 class MiniFloatConverter {
 public:
   MiniFloatConverter();
   inline static float float16to32(uint16_t h) {
     uint32_t i32 = mantissatable[offsettable[h >> 10] + (h & 0x3ff)] + exponenttable[h >> 10];
     return edm::bit_cast<float>(i32);
   }
   inline static uint16_t float32to16(float x) { return float32to16round(x); }
   inline static uint16_t float32to16crop(float x) {
     uint32_t i32 = edm::bit_cast<uint32_t>(x);
     return basetable[(i32 >> 23) & 0x1ff] + ((i32 & 0x007fffff) >> shifttable[(i32 >> 23) & 0x1ff]);
   }
   inline static uint16_t float32to16round(float x) {
     uint32_t i32 = edm::bit_cast<uint32_t>(x);
     uint8_t shift = shifttable[(i32 >> 23) & 0x1ff];
     if (shift == 13) {
       uint16_t base2 = (i32 & 0x007fffff) >> 12;
       uint16_t base = base2 >> 1;
       if (((base2 & 1) != 0) && (base < 1023))
         base++;
       return basetable[(i32 >> 23) & 0x1ff] + base;
     } else {
       return basetable[(i32 >> 23) & 0x1ff] + ((i32 & 0x007fffff) >> shifttable[(i32 >> 23) & 0x1ff]);
     }
   }
   template <int bits>
   inline static float reduceMantissaToNbits(const float &f) {
     static_assert(bits <= 23, "max mantissa size is 23 bits");
     constexpr uint32_t mask = (0xFFFFFFFF >> (23 - bits)) << (23 - bits);
     uint32_t i32 = edm::bit_cast<uint32_t>(f);
     i32 &= mask;
     return edm::bit_cast<float>(i32);
   }
   inline static float reduceMantissaToNbits(const float &f, int bits) {
     uint32_t mask = (0xFFFFFFFF >> (23 - bits)) << (23 - bits);
     uint32_t i32 = edm::bit_cast<uint32_t>(f);
     i32 &= mask;
     return edm::bit_cast<float>(i32);
   }

   class ReduceMantissaToNbitsRounding {
   public:
     ReduceMantissaToNbitsRounding(int bits)
         : shift(23 - bits), mask((0xFFFFFFFF >> (shift)) << (shift)), test(1 << (shift - 1)), maxn((1 << bits) - 2) {
       assert(bits <= 23);  // "max mantissa size is 23 bits"
     }
     float operator()(float f) const {
       constexpr uint32_t low23 = (0x007FFFFF);  // mask to keep lowest 23 bits = mantissa
       constexpr uint32_t hi9 = (0xFF800000);    // mask to keep highest 9 bits = the rest
       uint32_t i32 = edm::bit_cast<uint32_t>(f);
       if (i32 & test) {  // need to round
         uint32_t mantissa = (i32 & low23) >> shift;
         if (mantissa < maxn)
           mantissa++;
         i32 = (i32 & hi9) | (mantissa << shift);
       } else {
         i32 &= mask;
       }
       return edm::bit_cast<float>(i32);
     }

   private:
     const int shift;
     const uint32_t mask, test, maxn;
   };

   template <int bits>
   inline static float reduceMantissaToNbitsRounding(const float &f) {
     static const ReduceMantissaToNbitsRounding reducer(bits);
     return reducer(f);
   }

   inline static float reduceMantissaToNbitsRounding(float f, int bits) {
     return ReduceMantissaToNbitsRounding(bits)(f);
   }

   template <typename InItr, typename OutItr>
   static void reduceMantissaToNbitsRounding(int bits, InItr begin, InItr end, OutItr out) {
     std::transform(begin, end, out, ReduceMantissaToNbitsRounding(bits));
   }

   inline static float max() {
     constexpr uint32_t i32 = 0x477fe000;  // = mantissatable[offsettable[0x1e]+0x3ff]+exponenttable[0x1e]
     return edm::bit_cast<float>(i32);
   }

   // Maximum float32 value that gets rounded to max()
   inline static float max32RoundedToMax16() {
     // 2^16 in float32 is the first to result inf in float16, so
     // 2^16-1 is the last float32 to result max() in float16
     constexpr uint32_t i32 = (0x8f << 23) - 1;
     return edm::bit_cast<float>(i32);
   }

   inline static float min() {
     constexpr uint32_t i32 = 0x38800000;  // = mantissatable[offsettable[1]+0]+exponenttable[1]
     return edm::bit_cast<float>(i32);
   }

   // Minimum float32 value that gets rounded to min()
   inline static float min32RoundedToMin16() {
     // 2^-14-1 in float32 is the first to result denormalized in float16, so
     // 2^-14 is the first float32 to result min() in float16
     constexpr uint32_t i32 = (0x71 << 23);
     return edm::bit_cast<float>(i32);
   }

   inline static float denorm_min() {
     constexpr uint32_t i32 = 0x33800000;  // mantissatable[offsettable[0]+1]+exponenttable[0]
     return edm::bit_cast<float>(i32);
   }

   inline static bool isdenorm(uint16_t h) {
     // if exponent is zero (sign-bit excluded of course) and mantissa is not zero
     return ((h >> 10) & 0x1f) == 0 && (h & 0x3ff) != 0;
   }

 private:
   CMS_THREAD_SAFE static uint32_t mantissatable[2048];
   CMS_THREAD_SAFE static uint32_t exponenttable[64];
   CMS_THREAD_SAFE static uint16_t offsettable[64];
   CMS_THREAD_SAFE static uint16_t basetable[512];
   CMS_THREAD_SAFE static uint8_t shifttable[512];
   static void filltables();
 };
 #endif
MiniFloatConverter::float32to16crop
static uint16_t float32to16crop(float x)
Fast implementation, but it crops the number so it biases low.
Definition: libminifloat.h:19

bit_cast.h

MiniFloatConverter::min32RoundedToMin16
static float min32RoundedToMin16()
Definition: libminifloat.h:112

MiniFloatConverter::MiniFloatConverter
MiniFloatConverter()
Definition: libminifloat.cc:12

MiniFloatConverter::offsettable
static uint16_t offsettable[64]
Definition: libminifloat.h:132

edm::bit_cast
To bit_cast(const From &src) noexcept
Definition: bit_cast.h:29

newFWLiteAna.base
base
Main Program
Definition: newFWLiteAna.py:92

test
Definition: SmallWORMDict.h:13

gpuClustering::pixelStatus::bits
constexpr uint32_t bits
Definition: gpuClustering.h:23

compare_using_db.base2
base2
Definition: compare_using_db.py:175

thread_safety_macros.h

cms::cuda::assert
assert(be >=bs)

MiniFloatConverter::float16to32
static float float16to32(uint16_t h)
Definition: libminifloat.h:13

MiniFloatConverter::ReduceMantissaToNbitsRounding::shift
const int shift
Definition: libminifloat.h:74

MiniFloatConverter::basetable
static uint16_t basetable[512]
Definition: libminifloat.h:133

gpuClustering::pixelStatus::mask
constexpr uint32_t mask
Definition: gpuClustering.h:24

MiniFloatConverter::denorm_min
static float denorm_min()
Definition: libminifloat.h:119

MiniFloatConverter::shifttable
static uint8_t shifttable[512]
Definition: libminifloat.h:134

MiniFloatConverter::ReduceMantissaToNbitsRounding::maxn
const uint32_t maxn
Definition: libminifloat.h:75

MiniFloatConverter::ReduceMantissaToNbitsRounding
Definition: libminifloat.h:52

MiniFloatConverter::float32to16
static uint16_t float32to16(float x)
Definition: libminifloat.h:17

MiniFloatConverter::mantissatable
static uint32_t mantissatable[2048]
Definition: libminifloat.h:130

MiniFloatConverter::reduceMantissaToNbits
static float reduceMantissaToNbits(const float &f, int bits)
Definition: libminifloat.h:45

f
double f[11][100]
Definition: MuScleFitUtils.cc:78

CMS_THREAD_SAFE
#define CMS_THREAD_SAFE

MiniFloatConverter::min
static float min()
Definition: libminifloat.h:106

MiniFloatConverter::reduceMantissaToNbitsRounding
static float reduceMantissaToNbitsRounding(float f, int bits)
Definition: libminifloat.h:84

mps_fire.end
end
Definition: mps_fire.py:242

MillePedeFileConverter_cfg.out
out
Definition: MillePedeFileConverter_cfg.py:31

MiniFloatConverter
Definition: libminifloat.h:10

MiniFloatConverter::isdenorm
static bool isdenorm(uint16_t h)
Definition: libminifloat.h:124

MiniFloatConverter::ReduceMantissaToNbitsRounding::ReduceMantissaToNbitsRounding
ReduceMantissaToNbitsRounding(int bits)
Definition: libminifloat.h:54

MiniFloatConverter::reduceMantissaToNbitsRounding
static float reduceMantissaToNbitsRounding(const float &f)
Definition: libminifloat.h:79

MiniFloatConverter::max32RoundedToMax16
static float max32RoundedToMax16()
Definition: libminifloat.h:99

MiniFloatConverter::ReduceMantissaToNbitsRounding::test
const uint32_t test
Definition: libminifloat.h:75

edm::shift
static unsigned int const shift
Definition: LuminosityBlockID.cc:7

MiniFloatConverter::ReduceMantissaToNbitsRounding::mask
const uint32_t mask
Definition: libminifloat.h:75

MiniFloatConverter::ReduceMantissaToNbitsRounding::operator()
float operator()(float f) const
Definition: libminifloat.h:58

MiniFloatConverter::max
static float max()
Definition: libminifloat.h:93

MiniFloatConverter::filltables
static void filltables()
Definition: libminifloat.cc:20

h
The Signals That Services Can Subscribe To This is based on ActivityRegistry h
Helper function to determine trigger accepts.
Definition: Activities.doc:4

MiniFloatConverter::float32to16round
static uint16_t float32to16round(float x)
Slower implementation, but it rounds to avoid biases.
Definition: libminifloat.h:24

DDAxes::x

MiniFloatConverter::reduceMantissaToNbits
static float reduceMantissaToNbits(const float &f)
Definition: libminifloat.h:38

MiniFloatConverter::exponenttable
static uint32_t exponenttable[64]
Definition: libminifloat.h:131

MiniFloatConverter::reduceMantissaToNbitsRounding
static void reduceMantissaToNbitsRounding(int bits, InItr begin, InItr end, OutItr out)
Definition: libminifloat.h:89

HcalDetIdTransform::transform
unsigned transform(const HcalDetId &id, unsigned transformCode)
Definition: HcalDetIdTransform.cc:7