Datové komprese zvukových signálů

jindrich · Příspěvek od **jindrich** » 22 kvě 2013 12:08

Jak fungují datové komprese a jejich vliv na zvukovou praxi.

22. 5. 2013

Datové komprese patří k dnešnímu uchovávání a distribuci zvukového obsahu celkem neodmyslitelně a ani moc nezáleží na tom, jedná-li se o samostatný zvuk nebo součást audiovizuálního díla. Pojďme se na tento problém podívat trošku v kontextu celkové zvukové praxe, protože diskuzí na téma „který kodek má zelenější středy“, případně „jaká jsou nejlepší CD pro vypalování MP3 souborů“ už bylo dost. Mnoho lidí se denně setkává s nutností exportovat zvuk a rozhodováním jaký formát zvolit, pojďme si tedy nastínit, o co se vlastně jedná.

Co je vlastně datová komprese?
Jak jsme si již řekli v prvních dílech seriálu „Stopařův průvodce digitálním zvukem“, zvukový signál při tzv. plné kvalitě (tedy uložen pomocí tzv. PCM - pulzně-kódové modulace) je sledem čísel, kdy každé z nich ukazuje hodnotu jeho amplitudy v jednom vzorkovacím okamžiku. Kolik těchto čísel bude reprezentovat jednu sekundu zvukového záznamu a jak budou tato čísla velká co do počtu číslic určují známé parametry vzorkovací frekvence, resp. bitová hloubka. (Více viz 1. díl a 2. díl zmiňovaného seriálu). Jednoduchými kupeckými počty dojdeme také k tzv. bitrate neboli datovému toku signálu, což je jednoduše počet dat potřebný k uložení jedné sekundy signálu. Pro klasický signál CD-DA formátu (čili bitová hloubka 16 bitů a vzorkovací frekvence 44,1 kHz) dojdeme nepříliš komplikovaným výpočtem (16 bitů každého čísla x 44 100 čísel za sekundu) k datovému toku 705 600 bit/s. To je hodnota pro jeden kanál, čili když budeme u většiny signálů předpokládat stereo, dostáváme se k číslu 1411,2 kbit/s (při použití předpony kilo tak, jak ji definuje soustava SI, tedy 1000). Pokud tedy chceme přibližně vypočítat velikost výsledného souboru takového formátu, není nic jednoduššího než toto číslo vynásobit jeho délkou v sekundách. Vypočtěme si tedy pro ilustraci minutu onoho stereo signálu CD kvality. Jednoduchým násobením dojdeme k číslu 84 672 kbit/min, což pro uživatele moc velkou výpovědní hodnotu nemá. Převedením na megabyte začne dávat hodnota větší informační smysl a bude to cca 10,1 MB/min (převod bit na byte je proveden dělením 8), což je, zjednodušeně řečeno, „docela dost“.

Obecně se tedy snažíme uspořit data, která k uložení informace potřebujeme a k tomu nám mohou posloužit dvě základní cesty:
· Odstranit části informace, které nejsou podstatné.
· Použít jiný způsob ukládání informací.
Obrázek

Spektogram komprimovaného signálu pomocí kodeku MP3 s datovým tokem 16 kbit/s.

Jak to funguje?
Kompresních formátů zvuku existuje samozřejmě poměrně mnoho. Základní dělení, které je důležité i pro uživatele a každého, kdo potřebuje ukládat zvukové soubory, je dělení na ztrátové a bezeztrátové komprese. Bezeztrátově můžeme data zkomprimovat ve chvíli, kdy z dvou cest uvedených v minulém odstavci použijeme pouze tu druhou, čili odlišné způsoby ukládání kompletních informací (obdoba komprese dat v počítači pomocí ZIP nebo RAR). V dnešním světě jsme ale v podstatě obklopeni ztrátovými kompresemi, ať už se jedná o algoritmy zajišťující např. hlasová volání přes telefony a komunikační programy, nebo o zvukové streamy z internetu (internetová rádia, videa apod.). Nejznámějším formátem je ale určitě MP3, který dokonce dal název celému odvětví spotřební elektroniky - nějakou tu empétrojku má v kapse skoro každý. Vezměme si tedy právě MPEG Layer 3 a podívejme se jak funguje, aniž bychom zbytečně zabíhali do technických detailů.

Využití intenzitního prahu slyšení - lidské ucho slyší pouze zvuky překračující určitou úroveň, závislost této úrovně na frekvenci není ani zdaleka lineární a je popsána jednou z Fletcher-Munsonových křivek. Složky zvukového signálu, které se nacházejí pod touto křivkou, proto není třeba kódovat, protože je posluchači neuslyší.

Využití maskování - tento psychoakustický fenomén ovlivňuje neustále námi vnímaný zvuk. Zjednodušeně řečeno, pokud přijde hlasitý zvuk a nedlouho po něm nebo s ním i zvuk tichý, kvůli hlasitému vjemu ten tichý neuslyšíme. Celá problematika je samozřejmě značně frekvenčně závislá a funguje dokonce i zpětně v čase (sluch dává přednost hlasitým věcem, které mohou značit nebezpečí, čili dostanou přednost při odbavení v mozku).

Joint Stereo kódování - je využito omezené schopnosti lidského ucha lokalizovat některé frekvence ve stereo bázi. Jedná se zejména o velmi nízké a velmi vysoké kmitočty. Určité části spektra jsou tak uloženy jen jako mono a k nim je přidávána určitá zbytková informace popisující, jak stereo rozložení při dekódování částečně obnovit. Dalším způsobem jak ušetřit data je využití M/S kódování, kdy se pro uložení stranové informace S dá v mnoha případech použít nižší množství dat.

Huffmanovo kódování - jedná se o příklad ušetření množství dat pomocí odlišného způsobu jejich ukládání. Zjednodušeně řečeno jsou vybrána data, která se nejvíc opakují a těm je přidělen nějaký krátký a jednoduchý symbol. S klesající četností opakování se v případě nutnosti zvyšuje i délka symbolu. Dochází k úspoře dat ve srovnání s PCM souborem (popsaným výše), kde má každá hodnota signálu stejný způsob popisu.

Datový rezervoár - některé pasáže by nebylo možné při daném datovém toku zakódovat bez evidentních problémů a proto je neustále šetřeno datovým objemem v méně náročných pasážích, abychom se pak „vešli“.

Samozřejmě existují ještě další techniky využívané výkonnějšími kodeky nebo třeba variantou MP3Pro, ale pro tento článek uvedený výčet postačí.
Obrázek

Spektogramy komprimovaného signálu pomocí kodeku MP3 s datovým tokem 96 kbit/s.

Všeho moc škodí...
U bezeztrátového kódování máme prostě určitý poměr, jakým se soubor zmenší, v zásadě závislý na určitých parametrech signálu jako takového a schopnostech kodeku. Ztrátové kódování má samozřejmě podstatně větší možnosti, ale přirozeně nelze zvuk komprimovat libovolně a myslet si, že vždy dostaneme použitelný výsledek. Už proto, že nejnižší nastavitelné datové toky používají i nižší vzorkovací frekvence než 44,1 nebo 48 kHz. Ona použitelnost je samozřejmě dost proměnlivá věc a je dobré ji zohlednit. Pokud např. chceme poslouchat mluvené slovo z malého přehrávače v kapse pomocí tzv. pecek, těžko máme v plánu kochat se barevným podáním hlasu a jeho plností. Proto můžeme jít při kompresi třeba do formátu MP3 spíše po srozumitelnosti a absenci chybových artefaktů, které by nás v poslechu rušily. Zvukové artefakty jsou pravděpodobně tím, čeho si nejsnadněji všimne i nezkušený posluchač. Dalším snadno odhalitelným jevem je omezení frekvenčního pásma. Opět je třeba brát v potaz, že je to problém výrazně ovlivňující poslech spektrálně bohaté hudby na dobrém poslechovém zařízení. To MP3 přehrávač se zmiňovanými miniaturními sluchátky opravdu není. Čili aby to i při takovém poslechu bylo největším problémem, musíme se opět nacházet ve skutečně malých hodnotách datového toku. Ani nemluvě o tom, že např. některé artefakty ani nemusí být důsledkem datové komprese, ale třeba brutální dynamické komprese a limitace ve snaze vyhrát nevyhratelnou válku hlasitostí.

Další možnou chybou, která při nevhodně velké kompresi dat vzniká, je tzv. pre-echo a celkové oslabení tranzientů. Zjednodušeně řečeno, perkusivní nástroje a různé velké rány přestávají být ranami a navíc se jakoby rozpliznou v čase, protože vlivem zpracování po segmentech může dojít k vytvoření jakési „před-ozvěny“, tedy zmiňovaného pre-echa.
Obrázek

Spektogramy komprimovaného signálu pomocí kodeku MP3 s datovým tokem 320 kbit/s.

Co to všechno znamená v praxi
Myslím, že vnímání formátu MP3 a kompresí obecně je poměrně bláznivé. Na jedné straně máme až militantní kliku znalců, kteří by se něčeho takového nikdy ani „nedotkli“ a na druhé straně generaci, která v podstatě již vyrostla obklopená ztrátově komprimovaným zvukem a v podstatě v jiné podobě než jako MP3 stažené z internetu nebo zase MP3 protažené FM vysílačem či internetovým streamovacím kodekem.

Z hlediska autora zvukového signálu jsou kompresní algoritmy jednoznačnou výhodou při práci a rozesílání materiálů. Ke schvalovacímu procesu téměř jakéhokoli projektu jsou tyto formáty ideální, přece jen datová úspora 192 kbit/s MP3 je proti 1411 kbit/s CD kvality jen asi 13 %. To je při posílání dat přes internet stále nezanedbatelné. Download má sice dneska rychlý leckdo, ale symetrickou linku s pořádným uploadem je stále obtížné sehnat. Protože nežijeme v ideální společnosti, může se také hodit posílat pouze náhledovou kvalitu a nedat plná a ke všemu použitelná data z ruky dříve než dostaneme zaplaceno apod. Rozhodně je ale dobré vyhnout se nesmyslnému překódovávání a pokud možno i používání komprimovaných materiálů při kreativní práci se zvukem. Samozřejmě se tomu nelze vyhnout zcela (děláme video a dostáváme zdrojovou hudbu jen v MP3). Komprese by ale měly sloužit pouze k uložení a distribuci výsledku, nikoli k přenášení pracovních materiálů, snažme se tedy až do finální fáze pracovat jen s plnou kvalitou.

Z hlediska znalce, tedy zvukového fajnšmekra, je vše naprosto jasné. Dokonce je často jasný i rozdíl mezi bezeztrátovým algoritmem jako FLAC a zvukem nekomprimovaným, protože prý zatížení počítače zvuk výrazně kazí - podle svědků je to často zejména podání basů, výšek a barvy prostoru... Já bohužel nepatřím mezi šťastlivce obdařené hifistickým sluchem. Jednou jsem se ale zúčastnil testu pro diplomovou práci, který měl subjektivně vyhodnocovat zvukovou kvalitu jednotlivých stupňů kvality ztrátového kodeku OGG Vorbis. Tam jsem také poznal, že skutečný test neprobíhá stylem: teď si pustím A, teď B a pořádně zhodnotím, jak jsou středy jakoby hůř definované a trošku užší. Aby byl test průkazný a dala se co nejvíc odbourat náhoda a sugesce, dělá se tzv. test se skrytou referencí. Jednou z variant je, že máme známou referenci (např. zvuk v CD kvalitě) a dvě nepopsané ukázky. Jedna z nich je zvukový signál, jehož kvalitu máme vyhodnotit a druhá je opět zvuk v CD kvalitě. Často si můžeme poslechnout všechny signály do libosti a pak musíme určit, který z dvou nepopsaných je ten, který máme hodnotit a následně je třeba provést jeho zhodnocení. Když si takovou věc zkusíte na vlastní kůži (jsou k tomu dostupné nástroje na webu, třeba plug-in do přehrávače foobar), poznáte, jak obtížné je rozeznat, který zvukový soubor je který od cca 192 kbit datového toku MP3 (u OGG Vorbis je tato hranice ještě níže). Mně se nakonec u onoho testu podařilo překročit hranici počtu správně odhalených zkomprimovaných souborů nutnou k započtení mých hodnocení do testu, ale přiznám se, že až na extrémně nízké datové toky jsem se musel soustředit na odlišné parametry jako třeba maličko rozdílnou hlasitost, změnu krátkodobé dynamiky, charakteru tranzientů atp.

Samozřejmě nechci nějaké závěry stavět na jedné nebo několika osobních zkušenostech, takže uvedu ještě závěry studie nazvané „Subjective Evaluation of MP3 Compression for Different Musical Genres“ (v překladu „Subjektivní vyhodnocení MP3 komprese pro různé hudební žánry“, autoři Amandine Pras, Rachel Zimmerman, Daniel Levitin a Catherine Guastavino, prezentováno na sjezdu Audio Engineering Society v New Yorku v říjnu 2009). V jejím rámci byly provedeny poměrně rozsáhlé testy na skupině třinácti posluchačů, které bychom označili za trénované - zvukoví profesionálové a studenti, hudební profesionálové a studenti a výzkumníci v odpovídajících oborech. Testy se týkaly nahrávek různých žánrů, resp. krátkých ukázek rocku, popu, současné vážné hudby, orchestrální hudby a opery. Všechny ukázky byly vzaty z CD a následně kódovány pomocí známého L.A.M.E. enkodéru do MP3 s datovými toky 96, 128, 192, 256 a 320 kbit/s (čili bez nejnižších hodnot od 32 kbit/s - ty by ovšem mělo velmi malý smysl vyhodnocovat v subjektivních testech zvukové kvality vzhledem k silné degradaci signálu). Testování bylo poměrně komplexní a každý účastník provedl 150 srovnání všech možných kombinací. Samozřejmě byly použity metody k odstranění zkreslujících faktorů (každá dvojice byla prezentována dvakrát ve zpřeházeném pořadí průběhu, aby nešlo nic poznat z postupných změn atp.). Poslech probíhal na velmi kvalitní aparatuře (zmiňme reproduktory B&W 902D) a ve specializované laboratoři přesně pro tyto účely, čili vliv prostředí lze zanedbat. Výsledky lze shrnout takto: celkově posluchači preferovali CD kvalitu, ale už pro srovnání CD/192 kbit/s se jednalo o méně než 60 % případů, pro 256 a 320 kbit/s se již poměr dostává do oblasti brané jako „nerozhodně“ - statisticky vzhledem k charakteru testu určené od 45 do 55 %. Nerozhodně vyšlo i porovnávání 320/256 kbit/s. Muzikanti skórovali při odhalování CD kvality hůře než zvukoví profesionálové a výzkumníci - vesměs byla jejich preference plné kvality o 20 % méně častá. Nejčastějšími nalezenými problémy byly s přehledem vysokofrekvenční artefakty uváděné jako důležité pro rozhodnutí v téměř 90 %, následovalo celkové zkreslení a poškození tranzientů.

Co z toho všeho vyvodit?
Jak vidno, poznat rozdíl není při vyšších kvalitách snadné ani při ideálních poslechových podmínkách. Samozřejmě to nic nemění na tom, že při nízkých datových tocích jsou nahrávky často vyloženě nepříjemné, ale jako velmi často i zde platí zlatá střední cesta. Pokud posloucháte zvuk z malého přehrávače nebo notebooku, je souboj 192 kbit/s vs WAV skutečně to poslední, co byste měli řešit. Stejně tak u běžného poslechu s jedním reproduktorem na lednici a druhým za kanapem. Osobně si myslím, že pokud jsou soubory správně kódovány, pro běžné potřeby postačí. Samozřejmě, že zvukoví fajnšmekři budou zásadně nesouhlasit, ale stejně tak bychom se neshodli v otázce kabelů. A také by bylo dobré, aby se zúčastnili nějakého opravdového testu a mohli ukázat, co svýma ušima skutečně poznají.

Jindřich Kravařík

PROFIL AUTORA: Ing. MgA. Jindřich Kravařík

Vystudoval ČVUT FEL se zaměřením na digitální zpracování signálů a tvorbu VST plug-inů a obor Zvuková tvorba na HAMU. Věnuje se převážně studiové práci, sound designu a tvorbě hudby pro video projekty - v rámci audiovizuálního MERGE studia a zvukového a nahrávacího studia Sype Studios. Šest let se též věnoval dabingu ve studiu Barrandov. V současné době občas vymění studiové prostředí za čerstvý vzduch nebo jiné klimatizované prostory při live práci v divadle Archa a s Cirkem La Putyka.