Tartalmi kivonat
Állományok tömörítése és kicsomagolása, a tömörítés fontosabb típusai Ismertesse az adatok tömörítésének lehetőségét és szükségességét! Milyen szerepet játszik a redudancia? Hogyan lehet adatokat, például egy számsort tömöríteni, azaz rövidebben leírni? Mutasson rá egyszerű példát! Mit nevezünk veszteségmentes és veszteséges tömörítésnek? Hol alkalmazzák ezeket? Gyakorlati feladat: Végezzen el egy tömörítést a megadott fájlokon a megadott programmal, és állapítsa meg a tömörítés mértékét! (A tömörített fájl adatmennyisége osztva az eredeti fájl adatmennyiségével.) Adatok tömörítésének elvi lehetősége Az adathalmazok általában redudánsak, terjengősek, nem a lehető legrövidebbek, legtömörebbek. Sokszor ugyanazt az információt rövidebben is le lehet írni, kódolni az adatok tömörítésének lehetősége. A tömörítő eljárások segítségével adatainkat olyan alakra hozhatjuk, amelynek kisebb
az adatmennyisége, mint az eredetinek, gyakran csak töredéke. Kisebb helyet foglal az adathordozón, rövidebb idő alatt továbbítható a hálózaton. A felhasználáshoz általában vissza kell alakítani az eredeti formátumra. A veszteségmentes tömörítés olyan kódolás, aminek eredményeként létrejött kódolt (tömörített) jelhalmaz rövidebb, mint az eredeti, azaz kisebb az adatmennyisége, és a tömörített adathalmazból tökéletesen visszaállítható az eredeti információt nem veszítünk. A veszteségmentes tömörítés az adattömörítési algoritmusok egy osztálya, ami lehetővé teszi a tömörített adatból az eredeti adatok pontos rekonstrukcióját. ~Például programokat, dokumentumokat így tömörítünk, hiszen fontos a tökéletes visszaállítás lehetősége. ~Példa tömörítési eljárásra: Mivel mindenféle adatot digitálisan (számokkal) kódolunk, elég foglalkoznunk egy tetszőleges számsorozattal. Például a 3 5 5 5 5 5 5 2 2 7
7 7 7 számsor 13db egyjegyű számból áll. Kódoljuk ezt a következőképpen: balról haladva adjuk meg a számot és azt, hogy hányszor ismétlődik. Az eredmény 3 1 5 6 2 2 7, ez 8db szám, tehát 8/13 arányban tömörítettük az eredeti adatsort, ami egyértelműen visszaállítható. Képek esetében gyakori, hogy sok azonos színű pont van egymás mellett, így jelentős rövidítést érhetünk el. ~A tömörítés mértéke nem csak a tömörítési eljárástól, hanem az adathalmaz tulajdonságaitól is függ. Például, vannak-e ismétlődő adatok, vannak-e más szabályszerűségek, az egyes jelek vagy jelcsoportok milyen gyakorisággal fordulnak elő? (A gyakori hosszú jelcsoportokat lehet helyettesíteni egy rövid kóddal, ezt a hétköznapi életben is gyakran megtesszük. Például: matematika-fizika matfiz) ~A tömörítőprogramok hatékony eljárásokat alkalmaznak. Elemzik az állomány szerkezetét, és annak függvényében határozzák meg a
tömörítési eljárást. ~Adataink archiválása során gyakran alkalmazzuk a tömörítést. ~Néhány ismert tömörítés: ZIP, ARJ, RAR. A veszteséges tömörítés olyan kódolás, aminek eredményeként létrejött kódolt (tömörített) jelhalmaz sokkal rövidebb, mint az eredeti, azaz kisebb az adatmennyisége, de a tömörített adathalmazból nem állítható tökéletesen vissza az eredeti, csak jó közelítéssel információt vesztünk bár nem sokat. ~Például digitális fényképek, hangok, mozgóképek esetén így tömöríthetünk, ha nem fontos a tökéletes visszaállítás lehetősége. (A kis eltéréseket a szem, illetve a néző általában észre sem veszi. Kétségtelen, hogy valamit romlik a digitalizált és tömörített anyag minősége) Néhány ismert veszteséges tömörítés: MP3 (hangoknál), JPEG (színes képeknél), MPEG (mozgóképeknél). ~Minél nagyobb a tömörítés mértéke, annál rosszabb lesz a kép vagy a hangállomány
minősége. A veszteséges módszerek használatának az az előnye a veszteségmentes módszerekhez képest, hogy sok esetben a veszteséges tömörítés sokkal kisebb fájlt képes előállítani, mint bármely veszteségmentes, és még így is kellően jó minőséget ér el. Kérdések: - Van-e összefüggés a redudancia és a hibajavítás lehetősége között? - Van-e határa a tömörítésnek? Ha igen, akkor mi az?