Bet kurį kompiuterio failą sudaro baitai. Baito reikšmės gali būti nuo 0 iki 255. Informacijos entropija yra statistinis parametras, rodantis tikimybę, kad faile atsiras tam tikri baitai.
Galite vizualiai įvertinti entropijos laipsnį naudodami histogramą - tikimybės pasikartoti tuos pačius baitus faile pasiskirstymą. Iš failo entropijos galime atspėti, koks failo tipas yra priešais mus, matydami tik jo histogramą.
Norėdami parodyti, paimkime tris skirtingų tipų failus ir palyginkime jų histogramas. Pirmasis tegul būna tekstinis failas (*. TXT). Jo histograma parodyta paveikslėlyje:
Teksto faile yra tik tekstas. Kiekvienas teksto simbolis yra užkoduotas tam tikrais baitais pagal kodavimo lentelę. Nors yra daug kodavimo tipų, akivaizdu, kad raidinių ir skaitinių simbolių yra ribotas skaičius, kuris paprastai yra mažesnis nei 255. Todėl pirmojoje histogramoje užimtos tik kai kurios sritys, o kai kurie baitai visai ne.
Šis failas bus PDF formatu:
Šiame faile yra visi galimi baitai, nes PDF yra užkoduotas kitaip nei tekstiniai failai. Joje saugoma daug paslaugų informacijos: formatavimas, šriftai, vaizdai ir kt. Tačiau jo histograma rodo, kad kai kurie baitai įvyksta maždaug vienodai tikėtina, o kiti - daug dažniau nei kiti. Taigi histogramoje yra daugybė staigių sprogimų ir apskritai ji yra gana „nuskurusi“išvaizda, nors užima visą turimą plotį.
Paskutinis failas yra supakuotas 7Z formatu:
Ši histograma turi du pagrindinius bruožus: pirma, visi baitai randami užklijuotame faile su daugmaž vienoda tikimybe (gana plokščiu viršutiniu kraštu), antra, virš histogramos praktiškai nėra laisvos vietos, o tai rodo beveik visišką nebuvimą atleisti tokią bylą. Taigi galime daryti išvadą, kad archyvo algoritmas tam tikru specialiu būdu „sumaišo“failo baitus, kad pasiektų maksimalų vienodą jų paskirstymą.
Taigi, entropija informatikoje, kaip ir fizikoje, yra sistemos sutrikimo, šiuo atveju - baitų pasiskirstymo byloje matas. Entropija leidžia spręsti apie failo glaudinimo laipsnį ir - netiesiogiai - apie jo tipą.