da/d3b/libminifloat_8h_source.html

 #ifndef libminifloat_h

 #define libminifloat_h

 #include "FWCore/Utilities/interface/thread_safety_macros.h"

 #include <cstdint>


 // ftp://ftp.fox-toolkit.org/pub/fasthalffloatconversion.pdf

 class MiniFloatConverter {

     public:

         MiniFloatConverter() ;

         inline static float float16to32(uint16_t h) {

             union { float flt; uint32_t i32; } conv;

             conv.i32 = mantissatable[offsettable[h>>10]+(h&0x3ff)]+exponenttable[h>>10];

             return conv.flt;

         }

         inline static uint16_t float32to16(float x) {

             return float32to16round(x);

         }

         inline static uint16_t float32to16crop(float x) {

             union { float flt; uint32_t i32; } conv;

             conv.flt = x;

             return basetable[(conv.i32>>23)&0x1ff]+((conv.i32&0x007fffff)>>shifttable[(conv.i32>>23)&0x1ff]);

         }

         inline static uint16_t float32to16round(float x) {

             union { float flt; uint32_t i32; } conv;

             conv.flt = x;

             uint8_t shift = shifttable[(conv.i32>>23)&0x1ff];

             if (shift == 13) {

                 uint16_t base2 = (conv.i32&0x007fffff)>>12;

                 uint16_t base = base2 >> 1;

                 if (((base2 & 1) != 0) && (base < 1023)) base++;

                 return basetable[(conv.i32>>23)&0x1ff]+base;

             } else {

                 return basetable[(conv.i32>>23)&0x1ff]+((conv.i32&0x007fffff)>>shifttable[(conv.i32>>23)&0x1ff]);

             }

         }

         template<int bits>

         inline static float reduceMantissaToNbits(const float &f)

         {

             static_assert(bits <= 23,"max mantissa size is 23 bits");

             constexpr uint32_t mask = (0xFFFFFFFF >> (23-bits)) << (23-bits);

             union { float flt; uint32_t i32; } conv;

             conv.flt=f;

             conv.i32&=mask;

             return conv.flt;

         }


         inline static float max() {

             union { float flt; uint32_t i32; } conv;

             conv.i32 = 0x477fe000; // = mantissatable[offsettable[0x1e]+0x3ff]+exponenttable[0x1e]

             return conv.flt;

         }


         // Maximum float32 value that gets rounded to max()

         inline static float max32RoundedToMax16() {

             union { float flt; uint32_t i32; } conv;

             // 2^16 in float32 is the first to result inf in float16, so

             // 2^16-1 is the last float32 to result max() in float16

             conv.i32 = (0x8f<<23) - 1;

             return conv.flt;

         }


         inline static float min() {

             union { float flt; uint32_t i32; } conv;

             conv.i32 = 0x38800000; // = mantissatable[offsettable[1]+0]+exponenttable[1]

             return conv.flt;

         }


         // Minimum float32 value that gets rounded to min()

         inline static float min32RoundedToMin16() {

             union { float flt; uint32_t i32; } conv;

             // 2^-14-1 in float32 is the first to result denormalized in float16, so

             // 2^-14 is the first float32 to result min() in float16

             conv.i32 = (0x71<<23);

             return conv.flt;

         }


         inline static float denorm_min() {

             union { float flt; uint32_t i32; } conv;

             conv.i32 = 0x33800000; // mantissatable[offsettable[0]+1]+exponenttable[0]

             return conv.flt;

         }


         inline static bool isdenorm(uint16_t h) {

             // if exponent is zero (sign-bit excluded of course) and mantissa is not zero

             return ((h >> 10) & 0x1f) == 0 && (h & 0x3ff) != 0;

         }


     private:

         CMS_THREAD_SAFE static uint32_t mantissatable[2048];

         CMS_THREAD_SAFE static uint32_t exponenttable[64];

         CMS_THREAD_SAFE static uint16_t offsettable[64];

         CMS_THREAD_SAFE static uint16_t basetable[512];

         CMS_THREAD_SAFE static uint8_t  shifttable[512];

         static void filltables() ;

 };

 #endif

MiniFloatConverter::float32to16crop
static uint16_t float32to16crop(float x)
Fast implementation, but it crops the number so it biases low.
Definition: libminifloat.h:19

newFWLiteAna.base
tuple base
Main Program
Definition: newFWLiteAna.py:91

MiniFloatConverter::min32RoundedToMin16
static float min32RoundedToMin16()
Definition: libminifloat.h:71

h
FWCore Framework interface EventSetupRecordImplementation h
Helper function to determine trigger accepts.
Definition: L1TUtmAlgorithmRcd.h:4

MiniFloatConverter::MiniFloatConverter
MiniFloatConverter()
Definition: libminifloat.cc:13

MiniFloatConverter::offsettable
static uint16_t offsettable[64]
Definition: libminifloat.h:93

conv
static HepMC::IO_HEPEVT conv
Definition: BeamHaloProducer.cc:50

bits
How EventSelector::AcceptEvent() decides whether to accept an event for output otherwise it is excluding the probing of A single or multiple positive and the trigger will pass if any such matching triggers are PASS or EXCEPTION[A criterion thatmatches no triggers at all is detected and causes a throw.] A single negative with an expectation of appropriate bit checking in the decision bits
Definition: EventSelector-behavior.doc:35

thread_safety_macros.h

MiniFloatConverter::float16to32
static float float16to32(uint16_t h)
Definition: libminifloat.h:10

MiniFloatConverter::basetable
static uint16_t basetable[512]
Definition: libminifloat.h:94

constexpr
#define constexpr

MiniFloatConverter::denorm_min
static float denorm_min()
Definition: libminifloat.h:79

MiniFloatConverter::shifttable
static uint8_t shifttable[512]
Definition: libminifloat.h:95

MiniFloatConverter::float32to16
static uint16_t float32to16(float x)
Definition: libminifloat.h:15

MiniFloatConverter::mantissatable
static uint32_t mantissatable[2048]
Definition: libminifloat.h:91

f
double f[11][100]
Definition: MuScleFitUtils.cc:78

CMS_THREAD_SAFE
#define CMS_THREAD_SAFE

compare_using_db.base2
string base2
Definition: compare_using_db.py:174

MiniFloatConverter::min
static float min()
Definition: libminifloat.h:64

MiniFloatConverter
Definition: libminifloat.h:7

MiniFloatConverter::isdenorm
static bool isdenorm(uint16_t h)
Definition: libminifloat.h:85

MiniFloatConverter::max32RoundedToMax16
static float max32RoundedToMax16()
Definition: libminifloat.h:56

edm::shift
static unsigned int const shift
Definition: LuminosityBlockID.cc:9

MiniFloatConverter::max
static float max()
Definition: libminifloat.h:49

MiniFloatConverter::filltables
static void filltables()
Definition: libminifloat.cc:18

MiniFloatConverter::float32to16round
static uint16_t float32to16round(float x)
Slower implementation, but it rounds to avoid biases.
Definition: libminifloat.h:25

DDAxes::x

MiniFloatConverter::reduceMantissaToNbits
static float reduceMantissaToNbits(const float &f)
Definition: libminifloat.h:39

MiniFloatConverter::exponenttable
static uint32_t exponenttable[64]
Definition: libminifloat.h:92