Zvukové rekonstrukční nástroje

Odpovědět
jindrich
Příspěvky: 48
Registrován: 01 úno 2013 19:12

Zvukové rekonstrukční nástroje

Příspěvek od jindrich » 19 zář 2013 17:14

K čemu všemu nám můžou sloužit v běžné praxi.

Ve svém článku Remastering zvukových nahrávek popsal kolega Ondřej Urban, jaké různé druhy zpracování a produkty patří do kategorie nástrojů pro rekonstrukci a čištění signálů. Pojďme se podívat na možnosti, které nám přinášejí z hlediska zvukové praxe, která se nezabývá vyloženě restaurováním starších nahrávek. Jedná se celkem logicky zejména o zvukovou postprodukci pro audiovizuální počiny a různé další živé nahrávky. Velmi často totiž narazíme na „všelijaké“ materiály natočené za „všelijakých“ okolností. No a vzhledem k povaze takové práce často nemáme jinou možnost než se s tím nějak popasovat.

Něco málo z teorie signálů bez nadměrného množství cizích slov
Abychom si uvědomili, kdy nám může ten který nástroj zachránit krk, je dobré si projít pár základních pojmů a uvědomit si jejich důsledky. Signály se dají obecně rozdělit na stochastické a deterministické. To samozřejmě působí strašidelně, ale není to nic jiného než rozdělení na ty, které jsou náhodné a na ty, které jsme schopni exaktně popsat. Pokud se pohybujeme v rovině extrémních příkladů, je všechno jasné. Sinusový signál můžeme plně popsat rovnicí, která se vyučuje na střední škole a naprosto náhodný signál je bílý šum... Jak už tomu tak bývá, v reálném světě se situace poněkud komplikuje. Třeba takový činel typu crash, ten už se popisuje asi trošku hůř. Dokonce i vývoj různých detailních proměn spektra tónu houslí není ani zdaleka snadnou záležitostí. To je také jeden z důvodů, proč virtuální nástroje postavené na matematickém modelování stále nejsou příliš použitelné a skutečný hudební nástroj je nahraditelný víceméně jen za cenu určitých estetických a uměleckých ústupků. Přirozené signály tedy v sobě mají něco z obou uvedených kategorií a záleží jen na tom, který charakter převažuje.
Obrázek
Dialog s větším množstvím hluku a šumu na pozadí.

Jak na Denoising
Odšumování funguje zjednodušeně řečeno na principu adaptivní filtrace. Poměrně komplexním způsobem je sestaven profil šumu, který chceme odstranit a následně se provádějí všelijaká komplikovaná zpracování. Důkazem budiž to, jak moc dokáže denoiser v nejpreciznějším módu dát zabrat i velmi modernímu stroji. Při snaze „naučit“ ho správný profil (tvar spektra) šumu, který má odstraňovat, je třeba pustit do nástroje dostatečně dlouhý úsek vzorového signálu. Ačkoli se téměř okamžitě tváří, že si daný profil „zapamatoval“, není tomu zcela tak. Pokud se na příslušný signál podíváme pomocí spektrálního analyzátoru, uvidíme zajisté drobné změny. Právě tyto změny zahrne denoiser do konstrukce šumového profilu a vytvoří zprůměrovaný tvar. Je potřeba dát pozor na to, abychom pokud možno při „učení“ neposlali nic navíc. Takový krok nebo praskot je schopen udělat slušný nepořádek.

V jakém případě se nám bude tento nástroj hodit? Samozřejmě při odšumění staré nahrávky. Tato potřeba může ale nastat i u těch nově vytvořených, třeba kvůli špatnému rozložení úrovní signálu v řetězci. Klasický příklad: někde v cestě signál velmi ztišíme a v následující fázi výrazně zesílíme, nebo ještě lépe zkomprimujeme co to jde. Výsledkem je na první poslech slyšitelný šum, který v případě nějakých výraznějších dynamických úprav výrazně kolísá, což je pro lidské ucho mnohem výraznější než konstantní i třeba lehce vyšší úroveň. Nezbývá než sáhnout po odšumování. Základním faktem je, že i ten nejlepší algoritmus nahrávku očistí za cenu určitých ztrát a problémů. Nejlepší, k čemu se můžeme dopracovat, je to, že nebudou patrné a je dobré se na negativní projevy spojené s odšumováním vyloženě soustředit, protože často se člověk nechá unést tím, jak je nahrávka najednou „čistá“. Ale výrazný úbytek vyšších kmitočtů (jelikož v té samé oblasti se velmi pravděpodobně nachází dost šumu, který nám vadí), vznik různých artefaktů a pre-echa (vnímaného jako podivné rozdvojení signálu) nás nakonec mohou dovést k návratu k lehce zašuměné, ale přirozeněji znějící nahrávce.
ObrázekObrázek
Natrénovaný profil pozadí pomocí pauzy mezi větami dialogu. Denoiser v akci v základním nastavení.

Denoising má ale i další využití. Např. při stříhání dialogu, který je zaznamenán pomocí různých zdrojů různě orientovaných v prostoru nahrávání (jeden k hučící lednici čelem, druhý zády...). Samozřejmě, že by měla vše spojit atmosféra (vesměs také šumového čili vše překrývajícího charakteru), ale může se stát, že je skok mezi dvěma částmi takový, že je třeba přistoupit k dodatečnému řešení. Naším cílem je potlačit šum pozadí u dané části dialogu natolik, aby jeho změna byla dostatečně maskována ostatními věcmi. K podobnému řešení můžeme být nuceni i ve chvíli, kdy je např. jedna část dialogu najednou znatelně tišší a její výrazné zesílení samozřejmě i stejně výrazně zesílí ono pozadí. V takovém případě se vlastně snažíme tuto změnu kompenzovat a docílit pokud možno stejného odstupu signál - šum jako má ostatní materiál.
Obrázek
Srovnání dialogu původního a s potlačeným hlukem a šumem.

Adaptivní vs. neadaptivní odšumování
Adaptivní denoising stále aktivně pracuje a upravuje šumový profil na rozdíl od situace, kdy je profil nastaven na začátku práce a denoiser pak prostě projíždí a filtruje signál. Tuto vlastnost mají jen některé nástroje, za všechny jmenujme iZotope RX2 Advanced a Waves Z-Noise. Mohlo by se zdát, že adaptivní filtrace je lepší, protože nabízí něco navíc. Při popisovaných způsobech využití tomu tak může, ale také nemusí být. Když totiž velmi dobře víme, co chceme odstraňovat a navíc je nechtěný signál dostatečně statický, není důvod adaptivní režim zapínat, protože by nám tak maximálně mohl utéct od původně zamýšleného cíle.

Součástí adaptivního chování je samozřejmě také správné vyhodnocení, co je šum a co ne. V případě poměrně jednoduchých zadání jako je mluvené slovo na zašuměném pozadí je to celkem jasné vzhledem k tomu, jakým výrazným stylem se proměňuje frekvenční složení hlasové složky proti poměrně statické složce šumu. To se ale opět pohybujeme v poměrně jasné situaci. Problémy může působit skutečnost, že při adaptivním módu nemáme k dispozici jiný signál, který by mohl sloužit jako zdroj informací pro nastavování. Tak tomu často je třeba v automobilech, kdy adaptivní odhlučňovací algoritmy používají další zdroje signálu, např. hluku motoru a okolí, ke zlepšení extrakce mluveného slova při telefonování pomocí vestavěné hands-free sady.

Denoiser jako nástroj transformace zvuku
Jak už bylo zmíněno v úvodu článku, v zásadě každý reálný zvuk má nějakou popsatelnou a náhodnou složku. Vzhledem k tomu, že denoiser redukuje náhodné signály, znamená to, že při aplikaci na jakýkoli signál bude při „ostřejším“ nastavení redukovat jeho náhodný charakter a vytvářet více tonální čili popsatelný charakter. To nám může posloužit jak při radikální extrakci zvuku, který není možné natočit bez výrazného nepořádku okolo (a to ani zdaleka jen šumového charakteru), tak při čistě kreativní práci. Natrénovat v takovém případě denoiser je už věcí téměř estetickou a musíme na ní pracovat, dokud nedosáhneme uspokojivého výsledku. Princip lze ale velmi snadno pochopit např. na odšumění záznamu větru, což doporučuji jako základní krok pro experimenty. Na trhu jsou i nástroje určené víceméně pro tyto účely, které jsou prezentovány ne jako odšumovače, ale spíše odhlukovače (např. Waves W43 a WLS). Jsou vyloženě zaměřeny na postprodukci k obrazu a mají tak jasné těžiště v čištění dialogu. Já osobně si myslím, že jejich výhoda tkví spíš v rychlosti, s jakou danou práci umožní vykonat - pokud je ta práce právě z jejich „oboru“. Nemám pocit, že by v sobě měly něco zásadně magického (vycházeje ze svých znalostí nabytých studiem digitálního zpracování signálu na FEL ČVUT), podobných výsledků se ve stejných situacích dá dosáhnout i s jakýmkoli jiným pořádným obecným odšumovačem. Sice to bude stát více času stráveného nastavováním, ale aspoň se člověk něčemu novému přiučí.

Spektrální editace
Tento způsob práce není stále zdaleka tak obvyklý, jak bych čekal vzhledem k dostupnosti této technologie jak z hlediska dostatečného výkonu počítačů, tak ceny. Doba, kdy byly spektrální editory výsadou velmi drahých profesionálních řešení typu SADiE, je dávno pryč a iZotope RX 2 nabízí tyto možnosti i v základní verzi za 300 USD.

O co se vlastně jedná? Stejně jako spousta jiných úkonů digitálního zpracování audiosignálu probíhá ve spektrální oblasti a my slyšíme až výsledek převedený zpět do oblasti časové, můžeme nyní „stříhat“ ve spektru, podobně jako jsme zvyklí stříhat v časové ose. Zásadní rozdíl je ten, že spektrum jako takové charakterizuje vždy konečnou část signálu a je jedno, jestli to bude jeho maličká část nebo bude rovnou celý. Vždy můžeme spočítat spektrum a dostat velikosti amplitud jednotlivých frekvenčních složek (v případě výpočtu pouze amplitudového spektra). V tom si ale moc „nepostříháme“, protože nemáme nijak reprezentovanou časovou osu. To, v čem bychom se opravdu měli orientovat, se nazývá spektrogram. Není to nic jiného než velmi mnoho krátkodobých spekter poskládaných za sebe. Ve spektrální oblasti tak dostáváme další rozměr - čas. Zvukový signál se nám tedy změnil z dvojrozměrného (amplituda v závislosti na čase) na trojrozměrný (závislost amplitudy na frekvenci v závislosti na čase). Záměrně nepíšu 3D, protože to má každý spojeno s prostorovým zobrazením. Tady se spíš jedná o obrázek, ve kterém je jedna z veličin reprezentována barevným složením. Ačkoli jsou k dispozici i plug-iny pro spektrální střih, z principu věci se nejedná o zpracování v reálném čase. Logicky potřebujeme „obrázek“ určité části zvuku nejdřív vyrobit a následně v něm teprve můžeme pracovat, stejně jako když retušujeme fotku. Komplexnější práci je proto lepší provádět ve specializovaných prostředích jako je např. iZotope RX2, drobnosti lze udělat i přímo uvnitř DAW pomocí offline zpracování. Často jsme ale limitováni třeba délkou signálu, kterou je možné najednou načíst atp.
Obrázek
Doznívající akord klavíru se zakašláním.

Obrázek
Potlačení vyšších složek, které nesdílí stejný frekvenční prostor s užitečným signálem.

Obrázek
Rekonstrukce části signálu překrytého kašláním pomocí výpočtu.

Obrázek
Výsledek spektrálního střihu.

Celé to zní velmi složitě, ale přináší to až nečekaně jednoduchá řešení problémů, které jsou v časové oblasti zbytečně komplikované. Představme si konec akustického koncertu, poslední akord doznívá a někdo to už nevydrží a zakašle. Kašel je nepřekvapivě spíš náhodného charakteru a proto bude ve spektru zobrazen jako frekvenčně slušně široká šmouha. Naproti tomu základní frekvence i harmonické složky doznívajících tónů budou jasně patrné a ve spektru málo proměnlivé. Není tedy problém lokalizovat ono zakašlání a prostě ho odstranit. Ať už pouhým potlačením k němu příslušejících částí spektra, které se s užitečným signálem nekryjí, nebo v problematičtějších případech jejich úplným odstraněním a nahrazením vypočtenou částí, kterou získáme vycházejíce z toho, co předchází a následuje.

Spektrální editace nabízí nové možnosti, ale jako téměř u všeho je třeba se rozhodnout, co je v konkrétním případě vhodnější a rychlejší pro dosažení potřebného výsledku. Např. lupnutí způsobené malou spojitostí v signálu se projeví ve spektru velmi výrazně a často téměř přes celou jeho šířku (nekonečně krátký signál má stejné spektrum jako bílý šum, tedy rovnou čáru - stejně zastoupené všechny složky). Takže to, co by v časové oblasti velmi rychle vyřešilo dokreslení pár „vhodnějších“ hodnot amplitudy nebo vystřižení miniaturní části signálu, bude ve spektrální části možná zbytečně komplikované. Kdo se chce s touto technikou více seznámit, měl by si oprášit některá fakta z teorie signálu - nejen ta o stochastických a deterministických signálech, ale i o tom, jak vypadá spektrum periodického signálu atd.

Závěrem
Tímto článkem jsem chtěl ukázat, že nástroje určené pro rekonstrukci nahrávek mohou být velmi užitečné téměř pro každého a neměly by chybět ve výbavě kohokoli, kdo se kreativně zabývá zvukem. Poznámka na závěr: co se týče vlivu vzorkovací frekvence, platí i zde stejně jako pro editace, pitch-shifting a time-stretching, že při vyšším počtu vstupních informací snáze dosáhneme dobrého výsledku a můžeme si dovolit divočejší zpracování. Vzhledem k tomu, že se jedná o poměrně náročné procesy, záhy zjistíte, že váš nový počítač, který jste považovali za nepřetížitelný, má své velmi reálné limity.

Jindřich Kravařík
PROFIL AUTORA: Ing. MgA. Jindřich Kravařík
Vystudoval ČVUT FEL se zaměřením na digitální zpracování signálů a tvorbu VST plug-inů a obor Zvuková tvorba na HAMU. Věnuje se převážně studiové práci, sound designu a tvorbě hudby pro video projekty - v rámci audiovizuálního MERGE studia a zvukového a nahrávacího studia Sype Studios. Šest let se též věnoval dabingu ve studiu Barrandov. V současné době občas vymění studiové prostředí za čerstvý vzduch nebo jiné klimatizované prostory při live práci v divadle Archa a s Cirkem La Putyka.

Odpovědět