#include <libminifloat.h>

Classes
class	ReduceMantissaToNbitsRounding

Public Member Functions
	MiniFloatConverter ()

Static Public Member Functions
static float	denorm_min ()

static float	float16to32 (uint16_t h)

static uint16_t	float32to16 (float x)

static uint16_t	float32to16crop (float x)
	Fast implementation, but it crops the number so it biases low. More...

static uint16_t	float32to16round (float x)
	Slower implementation, but it rounds to avoid biases. More...

static bool	isdenorm (uint16_t h)

static float	max ()

static float	max32RoundedToMax16 ()

static float	min ()

static float	min32RoundedToMin16 ()

template<int bits>
static float	reduceMantissaToNbits (const float &f)

static float	reduceMantissaToNbits (const float &f, int bits)

template<int bits>
static float	reduceMantissaToNbitsRounding (const float &f)

static float	reduceMantissaToNbitsRounding (float f, int bits)

template<typename InItr , typename OutItr >
static void	reduceMantissaToNbitsRounding (int bits, InItr begin, InItr end, OutItr out)

Static Private Member Functions
static void	filltables ()

Static Private Attributes
static uint16_t	basetable [512]

static uint32_t	exponenttable [64]

static uint32_t	mantissatable [2048]

static uint16_t	offsettable [64]

static uint8_t	shifttable [512]

Detailed Description

Definition at line 10 of file libminifloat.h.

Constructor & Destructor Documentation

◆ MiniFloatConverter()

MiniFloatConverter::MiniFloatConverter ( )

Definition at line 12 of file libminifloat.cc.

References filltables().

                                        {
   static bool once = false;
   if (!once) {
     filltables();
     once = true;
   }
 }

Member Function Documentation

◆ denorm_min()

static float MiniFloatConverter::denorm_min ( )

inlinestatic

Definition at line 119 of file libminifloat.h.

References edm::bit_cast().

                                    {
     constexpr uint32_t i32 = 0x33800000;  // mantissatable[offsettable[0]+1]+exponenttable[0]
     return edm::bit_cast<float>(i32);
   }

◆ filltables()

void MiniFloatConverter::filltables ( )

staticprivate

Definition at line 20 of file libminifloat.cc.

References basetable, MillePedeFileConverter_cfg::e, exponenttable, mps_fire::i, createfilelist::int, visualization-live-secondInstance_cfg::m, mantissatable, offsettable, and shifttable.

Referenced by MiniFloatConverter().

                                     {
   // ==== mantissatable ===
   // -- zero --
   mantissatable[0] = 0;
   // -- denorm --
   for (unsigned int i = 1; i <= 1023; ++i) {
     unsigned int m = (i << 13), e = 0;
     while (!(m & 0x00800000)) {  // While not normalized
       e -= 0x00800000;           // Decrement exponent (1<<23)
       m <<= 1;                   // Shift mantissa
     }
     m &= ~0x00800000;  // Clear leading 1 bit
     e += 0x38800000;   // Adjust bias ((127-14)<<23)
     mantissatable[i] = m | e;
   }
   // -- norm --
   for (unsigned int i = 1024; i <= 2047; ++i) {
     mantissatable[i] = 0x38000000 + ((i - 1024) << 13);
   }
   // ==== exponenttable ===
   exponenttable[0] = 0;
   for (unsigned int i = 1; i <= 30; ++i)
     exponenttable[i] = i << 23;
   exponenttable[31] = 0x47800000;
   exponenttable[32] = 0x80000000u;
   for (unsigned int i = 33; i <= 62; ++i)
     exponenttable[i] = 0x80000000u | ((i - 32) << 23);
   exponenttable[63] = 0xC7800000;
 
   // ==== offsettable ====
   for (unsigned int i = 0; i <= 63; ++i)
     offsettable[i] = ((i == 0 || i == 32) ? 0 : 1024);
 
   // ==== basetable, shifttable ===
   for (unsigned i = 0; i < 256; ++i) {
     int e = int(i) - 127;
     if (e < -24) {  // Very small numbers map to zero
       basetable[i | 0x000] = 0x0000;
       basetable[i | 0x100] = 0x8000;
       shifttable[i | 0x000] = 24;
       shifttable[i | 0x100] = 24;
     } else if (e < -14) {  // Small numbers map to denorms
       basetable[i | 0x000] = (0x0400 >> (-e - 14));
       basetable[i | 0x100] = (0x0400 >> (-e - 14)) | 0x8000;
       shifttable[i | 0x000] = -e - 1;
       shifttable[i | 0x100] = -e - 1;
     } else if (e <= 15) {  // Normal numbers just lose precision
       basetable[i | 0x000] = ((e + 15) << 10);
       basetable[i | 0x100] = ((e + 15) << 10) | 0x8000;
       shifttable[i | 0x000] = 13;
       shifttable[i | 0x100] = 13;
     } else if (e < 128) {  // Large numbers map to Infinity
       basetable[i | 0x000] = 0x7C00;
       basetable[i | 0x100] = 0xFC00;
       shifttable[i | 0x000] = 24;
       shifttable[i | 0x100] = 24;
     } else {  // Infinity and NaN's stay Infinity and NaN's
       basetable[i | 0x000] = 0x7C00;
       basetable[i | 0x100] = 0xFC00;
       shifttable[i | 0x000] = 13;
       shifttable[i | 0x100] = 13;
     }
   }
 }

◆ float16to32()

static float MiniFloatConverter::float16to32 ( uint16_t h )

inlinestatic

Definition at line 13 of file libminifloat.h.

References edm::bit_cast(), exponenttable, h, mantissatable, and offsettable.

Referenced by convertPackedEtaToPackedY(), CompressionElement::unpack(), pat::MET::PackedMETUncertainty::unpack(), pat::PackedGenParticle::unpack(), pat::PackedCandidate::unpack(), BeamCurrentInfo::unpackData(), pat::MET::PackedMETUncertainty::unpackDpx(), pat::MET::PackedMETUncertainty::unpackDpy(), pat::MET::PackedMETUncertainty::unpackDSumEt(), and pat::PackedCandidate::unpackVtx().

                                               {
     uint32_t i32 = mantissatable[offsettable[h >> 10] + (h & 0x3ff)] + exponenttable[h >> 10];
     return edm::bit_cast<float>(i32);
   }

◆ float32to16()

static uint16_t MiniFloatConverter::float32to16 ( float x )

inlinestatic

Definition at line 17 of file libminifloat.h.

References float32to16round(), and x.

Referenced by CompressionElement::pack(), pat::MET::PackedMETUncertainty::pack(), pat::PackedGenParticle::pack(), pat::PackedCandidate::pack(), BeamCurrentInfo::packData(), and pat::PackedCandidate::packVtx().

17 { return float32to16round(x); }

MiniFloatConverter::float32to16round

static uint16_t float32to16round(float x)

Slower implementation, but it rounds to avoid biases.

Definition: libminifloat.h:24

DDAxes::x

◆ float32to16crop()

static uint16_t MiniFloatConverter::float32to16crop ( float x )

inlinestatic

Fast implementation, but it crops the number so it biases low.

Definition at line 19 of file libminifloat.h.

References basetable, edm::bit_cast(), shifttable, and x.

                                                   {
     uint32_t i32 = edm::bit_cast<uint32_t>(x);
     return basetable[(i32 >> 23) & 0x1ff] + ((i32 & 0x007fffff) >> shifttable[(i32 >> 23) & 0x1ff]);
   }

◆ float32to16round()

static uint16_t MiniFloatConverter::float32to16round ( float x )

inlinestatic

Slower implementation, but it rounds to avoid biases.

Definition at line 24 of file libminifloat.h.

References newFWLiteAna::base, compare_using_db::base2, basetable, edm::bit_cast(), edm::shift, shifttable, and x.

Referenced by float32to16().

                                                    {
     uint32_t i32 = edm::bit_cast<uint32_t>(x);
     uint8_t shift = shifttable[(i32 >> 23) & 0x1ff];
     if (shift == 13) {
       uint16_t base2 = (i32 & 0x007fffff) >> 12;
       uint16_t base = base2 >> 1;
       if (((base2 & 1) != 0) && (base < 1023))
         base++;
       return basetable[(i32 >> 23) & 0x1ff] + base;
     } else {
       return basetable[(i32 >> 23) & 0x1ff] + ((i32 & 0x007fffff) >> shifttable[(i32 >> 23) & 0x1ff]);
     }
   }

◆ isdenorm()

static bool MiniFloatConverter::isdenorm ( uint16_t h )

inlinestatic

Definition at line 124 of file libminifloat.h.

References h.

                                           {
     // if exponent is zero (sign-bit excluded of course) and mantissa is not zero
     return ((h >> 10) & 0x1f) == 0 && (h & 0x3ff) != 0;
   }

◆ max()

static float MiniFloatConverter::max ( )

inlinestatic

Definition at line 93 of file libminifloat.h.

References edm::bit_cast().

Referenced by pat::PackedCandidate::pack().

                             {
     constexpr uint32_t i32 = 0x477fe000;  // = mantissatable[offsettable[0x1e]+0x3ff]+exponenttable[0x1e]
     return edm::bit_cast<float>(i32);
   }

◆ max32RoundedToMax16()

static float MiniFloatConverter::max32RoundedToMax16 ( )

inlinestatic

Definition at line 99 of file libminifloat.h.

References edm::bit_cast().

                                             {
     // 2^16 in float32 is the first to result inf in float16, so
     // 2^16-1 is the last float32 to result max() in float16
     constexpr uint32_t i32 = (0x8f << 23) - 1;
     return edm::bit_cast<float>(i32);
   }

◆ min()

static float MiniFloatConverter::min ( )

inlinestatic

Definition at line 106 of file libminifloat.h.

References edm::bit_cast().

                             {
     constexpr uint32_t i32 = 0x38800000;  // = mantissatable[offsettable[1]+0]+exponenttable[1]
     return edm::bit_cast<float>(i32);
   }

◆ min32RoundedToMin16()

static float MiniFloatConverter::min32RoundedToMin16 ( )

inlinestatic

Definition at line 112 of file libminifloat.h.

References edm::bit_cast().

                                             {
     // 2^-14-1 in float32 is the first to result denormalized in float16, so
     // 2^-14 is the first float32 to result min() in float16
     constexpr uint32_t i32 = (0x71 << 23);
     return edm::bit_cast<float>(i32);
   }

◆ reduceMantissaToNbits() [1/2]

template<int bits>

static float MiniFloatConverter::reduceMantissaToNbits ( const float & f )

inlinestatic

Definition at line 38 of file libminifloat.h.

References edm::bit_cast(), gpuClustering::pixelStatus::bits, f, and gpuClustering::pixelStatus::mask.

Referenced by CompressionElement::pack().

                                                             {
     static_assert(bits <= 23, "max mantissa size is 23 bits");
     constexpr uint32_t mask = (0xFFFFFFFF >> (23 - bits)) << (23 - bits);
     uint32_t i32 = edm::bit_cast<uint32_t>(f);
     i32 &= mask;
     return edm::bit_cast<float>(i32);
   }

◆ reduceMantissaToNbits() [2/2]

static float MiniFloatConverter::reduceMantissaToNbits	(	const float &	f,
		int	bits
	)

inlinestatic

Definition at line 45 of file libminifloat.h.

References edm::bit_cast(), gpuClustering::pixelStatus::bits, f, and gpuClustering::pixelStatus::mask.

                                                                       {
     uint32_t mask = (0xFFFFFFFF >> (23 - bits)) << (23 - bits);
     uint32_t i32 = edm::bit_cast<uint32_t>(f);
     i32 &= mask;
     return edm::bit_cast<float>(i32);
   }

◆ reduceMantissaToNbitsRounding() [1/3]

template<int bits>

static float MiniFloatConverter::reduceMantissaToNbitsRounding ( const float & f )

inlinestatic

Definition at line 79 of file libminifloat.h.

References gpuClustering::pixelStatus::bits, and f.

Referenced by nanoaod::flatTableHelper::MaybeMantissaReduce< float >::bulk(), FuncVariable< ObjType, StringFunctor, ValType >::fill(), nanoaod::flatTableHelper::MaybeMantissaReduce< float >::one(), HLTScoutingPrimaryVertexProducer::produce(), HLTScoutingTrackProducer::produce(), HLTScoutingPFProducer::produce(), and HLTScoutingEgammaProducer::produce().

                                                                     {
     static const ReduceMantissaToNbitsRounding reducer(bits);
     return reducer(f);
   }

◆ reduceMantissaToNbitsRounding() [2/3]

static float MiniFloatConverter::reduceMantissaToNbitsRounding	(	float	f,
		int	bits
	)

inlinestatic

Definition at line 84 of file libminifloat.h.

References gpuClustering::pixelStatus::bits, and f.

                                                                        {
     return ReduceMantissaToNbitsRounding(bits)(f);
   }

◆ reduceMantissaToNbitsRounding() [3/3]

template<typename InItr , typename OutItr >

static void MiniFloatConverter::reduceMantissaToNbitsRounding	(	int	bits,
		InItr	begin,
		InItr	end,
		OutItr	out
	)

inlinestatic

Definition at line 89 of file libminifloat.h.

References gpuClustering::pixelStatus::bits, mps_fire::end, MillePedeFileConverter_cfg::out, and HcalDetIdTransform::transform().

                                                                                           {
     std::transform(begin, end, out, ReduceMantissaToNbitsRounding(bits));
   }

Member Data Documentation

◆ basetable

uint16_t MiniFloatConverter::basetable

staticprivate

Definition at line 133 of file libminifloat.h.

Referenced by filltables(), float32to16crop(), and float32to16round().

◆ exponenttable

uint32_t MiniFloatConverter::exponenttable

staticprivate

Definition at line 131 of file libminifloat.h.

Referenced by filltables(), and float16to32().

◆ mantissatable

uint32_t MiniFloatConverter::mantissatable

staticprivate

Definition at line 130 of file libminifloat.h.

Referenced by filltables(), and float16to32().

◆ offsettable

uint16_t MiniFloatConverter::offsettable

staticprivate

Definition at line 132 of file libminifloat.h.

Referenced by filltables(), and float16to32().

◆ shifttable

uint8_t MiniFloatConverter::shifttable

staticprivate

Definition at line 134 of file libminifloat.h.

Referenced by filltables(), float32to16crop(), and float32to16round().

Classes

Public Member Functions

Static Public Member Functions

Static Private Member Functions

Static Private Attributes

Detailed Description

Constructor & Destructor Documentation

◆ MiniFloatConverter()

Member Function Documentation

◆ denorm_min()

◆ filltables()

◆ float16to32()

◆ float32to16()

◆ float32to16crop()

◆ float32to16round()

◆ isdenorm()

◆ max()

◆ max32RoundedToMax16()

◆ min()

◆ min32RoundedToMin16()

◆ reduceMantissaToNbits() [1/2]

◆ reduceMantissaToNbits() [2/2]

◆ reduceMantissaToNbitsRounding() [1/3]

◆ reduceMantissaToNbitsRounding() [2/3]

◆ reduceMantissaToNbitsRounding() [3/3]

Member Data Documentation

◆ basetable

◆ exponenttable

◆ mantissatable

◆ offsettable

◆ shifttable