Formáty ukládání zvukových dat

Odpovědět
jindrich
Příspěvky: 48
Registrován: 01 úno 2013 19:12

Formáty ukládání zvukových dat

Příspěvek od jindrich » 21 říj 2013 13:03

Malý přehled toho, co se nám při práci se zvukovými daty nabízí.

Každý uživatel zvukového a hudebního softwaru si musel všimnout, že při importu nebo exportu zvukových dat máme na výběr velké množství formátů. A v zásadě používáme jen minimum z nich - pravděpodobně WAV a MP3. K čemu tedy ta záplava ostatních vlastně slouží? Pojďme si projít třeba ty, kterým „rozumí“ Cubase 7. Nechme až na závěr základní formát Wave (WAV), jelikož se na něj podíváme trošku detailněji, včetně varianty Broadcast Wave (BWF), která nám může v lecčem zjednodušit život. Co tedy dále nabízí Cubase 7 jako vstupní soubory?
Obrázek
AIFC (.aif, .aifc) a AIFF (.aif, .aiff)
Audio Interchange File Format byl vyvinut firmou Apple v roce 1988 na bázi Interchange File Formatu od firmy Electronic Arts (známého výrobce počítačových her), který byl hojně používán na počítačích Commodore Amiga. AIFC je jeho ztrátově komprimovaná varianta. Základní nekomprimovaná verze je pro uživatele prakticky identická s Wave formátem. Velmi zjednodušeně se dá říci, že je to prostě vlastní základní formát Applu na rozdíl od Wave, který byl vyvinut Microsoftem a IBM jako základní formát pro Windows. Je hojně používán v Mac OS a pochopitelně v produktech firmy (Logic, GarageBand, videoaplikace), žádný program s ním pravděpodobně nebude mít problém ani na PC a většina s ním bude schopna pracovat jako se základním formátem projektu. Každopádně lehce matoucí může být fakt, že komprimovaná i nekomprimovaná varianta může mít za určitých okolností stejnou koncovku a musíme tak nějakým jiným způsobem zjistit, co vlastně máme k dispozici.

MPEG-1 Layer-3 (.mp3) a MPEG-1 Layer-2 (.mp2)
Jde o pravděpodobně nejrozšířenější ztrátové kompresní formáty, což se týká hlavně varianty Layer-3. Není důvod se o nich více rozepisovat, leccos bylo obsaženo např. v článku „Jak nahlížet na datové komprese zvukových signálů?“ v čísle 4/2013 tohoto časopisu. Trošku matoucí může být číslování, všimněte si, že se nejedná o MPEG-3, ale MPEG-1 Layer-3. Číslo přímo za zkratkou MPEG označuje druh standardu, který popisuje hlavně kódování obrazu a přidruženého zvuku. MPEG-3 v současné době neexistuje, měl to být formát pro kódování HDTV, ale byl ukončen a došlo k jeho sloučení s MPEG-2, současným standardem digitálního vysílání. Ačkoli je MP3 formát ztrátový, pravděpodobně každý z nás se dostal do situace, kdy byl nucen nejen importovat nějaká data v „empétrojce“ do projektu pro přehrání, ale také s nimi dále pracovat. Je pochopitelné, že na rozdíl od nekomprimovaných formátů nelze tyto soubory jen tak přidat do projektu. I když zvolíme variantu, že nechceme provést kopírování do adresáře obsahujícího zdrojové soubory, stejně se to stane, protože software soubor dekomprimuje a uloží jeho zvukový obsah v nějakém základním formátu (pravděpodobně Wave nebo AIFF podle nastavení).

SoundDesigner II (.sd2)
Mnozí pamětníci si jistě vzpomenou na legendárního předchůdce ProTools, editor Sound Designer od tehdy ještě dvojice programátorů tvořících začínající Digidesign. Formát patřící k verzi č. II může být mono nebo stereo, na rozdíl od verze původní. Sound Designer byl ve své době rozhodně revoluční a nabízel nové možnosti vizualizace vlnových průběhů signálu a jejich střihu. Určitě se může hodit, že je stále nabízen přímý import jeho souborů.

Windows Media Audio (.wma)
Tento formát je odpovědí Microsoftu na rozšíření MP3 a dalších ztrátových kodeků. Jak je u této firmy zvykem, byl doprovázen řadou sebevědomých prohlášení, zejména že WMA zní stejně jako MP3 dvojnásobného datového toku. To se nikdy nepotvrdilo žádným testem a Microsoft se dostal pod palbu oprávněné kritiky. Formát samozřejmě své místo na trhu má, logicky díky propojení s operačním systémem Windows a celým Windows Media portfoliem včetně kapesních přehrávačů a dalších produktů, nyní např. tabletů. Produkty Microsoftu považované za jeho hlavní želízka v ohni v jakémkoli oboru přece jen vždycky nějak přežijí. Pravda také je, že na něm Microsoft dlouho pracoval a stále pracuje (momentálně je kodek ve verzi 9, má varianty jako bezeztrátová nebo zaměřená na hlas). Formát má obstojné možnosti obsahu dodatečných dat a obsahuje i vlastní standardizaci hlasitosti. Zajímavé je, že ačkoli je WMA v nabídce Cubase pro vstupní soubory, dost často dochází ke komplikacím, v mém případě naposledy minulý týden. Těžko říci, jestli je to právě množstvím verzí (ačkoli by měly být zpětně kompatibilní), každopádně já osobně se s tímto formátem setkávám při práci tak sporadicky, že jsem se to zatím neobtěžoval řešit. To samé platí pro video soubory WMV...

FLAC (.flac)
Free Lossless Audio Codec přibyl do produktů Steinbergu jako jedna z novinek minulé půlverze (tedy 6.5 u Cubase a 5.5 pro Nuendo). Samozřejmě se jedná o zajímavou možnost, protože se dá snížit objem dat jak na vstupu, tak na výstupu projektu a dokonce i při práci s projektem. Cubase totiž umožňuje nastavit FLAC jako hlavní formát projektu, díky čemuž budou všechna natočená nebo jinak vytvořená data (konsolidace editovaného materiálu, offline processing atp.) uložena v tomto formátu. Samozřejmě to klade větší náročnost na výpočetní kapacitu počítače (systém musí data neustále dekódovat, ne jen číst), ale vzhledem k tomu, jak moc jsou dnes výkonné i přenosné stroje, je to rozhodně zajímavá možnost.

OggVorbis (.ogg)
Tento ztrátový kodek je podobně jako FLAC dostupný zdarma a historicky byl vždy nejzásadnějším konkurentem MP3, byť zůstal vždy trochu v pozadí. Stále je to spíš formát znalců techniky a k jeho významnému rozšíření asi již nedojde, hlavně proto, že za sebou nemá žádného mocného hráče ve světě online prodeje zvukových souborů. Rozhodně je to ale kodek velmi kvalitní, celkově je považován za lepší než zmiňovaný MP3 a mnohé kapesní přehrávače a telefony si s ním poradí.

Wave 64 (.w64)
Vzhledem k tomu, že formát Wave je z principu omezen na velikost 4 GB na jeden soubor (o tom více v části věnované tomuto formátu), byl v rámci práce na softwaru SoundForge (nyní Sony, dříve Sonic Foundry) vytvořen formát Wave 64. Ten ukládá data plně 64bitově (na rozdíl od 32bitového Wave) a je tak schopen do jednoho souboru vměstnat mnohem více zvuku, ať už co se týče délky nebo počtu kanálů.

REX (.rex) a REX 2 (.rx2)
Tyto dva formáty jsou určitě známé uživatelům produktů švédské firmy Propellerhead jako jsou Reason a ReCycle. Jedná se o zvukové smyčky s již detekovanými významnými body, které jsou uloženy u souboru jako sada markerů a dělí smyčku na jednotlivé části - slice. V podstatě se jedná o to, že co můžeme v Cubase Audio Editoru udělat u jakéhokoli zvuku ručně, máme u tohoto formátu již hotovo a se souborem uloženo. Velmi výhodný výstupní formát pro tvůrce zvukových bank. První verze REX byla pouze mono, druhá je již i dvoukanálová.
Obrázek
A nyní něco úplně jiného...
Wave formát všichni znají, je tu již od dob Windows 3.1 a bude tu určitě ještě nějakou dobu. Jedná se o jednu z aplikací formátu RIFF (Resource Interchange File Format), který vytvořila firma Microsoft spolu s IBM. Podobně jako již zmiňovaný AIFF vychází z původního formátu od Electronic Arts. Rozdíl mezi AIFF a RIFF je ve způsobu ukládání dat do paměti, tzv. endianitě. Zatímco RIFF používá způsob známý jako Little Endian, kdy se jako první ukládá nejméně významný bajt (LSB) a pak se postupuje směrem k nejvýznamnějšímu bajtu (MSB), AIFF to dělá přesně naopak (způsob známý jako Big Endian). Vhodnost použití jednoho z uvedených způsobů je dána architekturou stroje, se kterým pracujeme.

Wave jako takový je jedním z kontejnerů využívajících formát RIFF (dalším je např. dříve hojně používaný AVI). Podobně jako u AVI může být obraz a zvuk ve formátu Wave zpracován různými kodeky, ačkoli si ho většina uživatelů spojuje rovnou s nekomprimovaným zvukovým signálem, tedy s plnou kvalitou. To platí ale pouze pro LPCM Wave, čili soubor využívající pro uložení lineární pulzně-kódovou modulaci, to je teprve náš dobře známý formát. Prakticky se dnes ale pravděpodobně již s jiným Wave souborem nesetkáme. Soubory mohou mít samozřejmě rozličné vzorkovací frekvence a bitové hloubky, stejně tak počet kanálů může být „od mono po mnoho“. Pozor ovšem na již výše naznačené omezení velikosti jednoho souboru. Vychází právě ze způsobu ukládání dat, resp. z toho, že informační pole o délce signálu je 32bitové číslo bez znaménka a s pevnou řádovou čárkou. To stanovuje hranici na 4 GB, prakticky ovšem častěji 2 GB, protože mnoho programů chybně používá znaménkové 32bitové číslo. Jeden bit tedy padne na znaménko, což maximální možnou délku krátí na polovinu. Mnoho nahrávacích zařízení má nějaký způsob jak toto omezení obejít (vytvářením řetězu souborů .wav, .w00, .w01 atd.), lze také použít již popsaný formát W64. Pokud se nás netýká natáčení velmi dlouhých kontinuálních dat nebo transporty poměrně dlouhých mnohokanálových souborů, nemělo by to být až tak palčivé. Pravda ale je, že při nahrávání ve vysokém rozlišení 24 bit/192 kHz odpovídají 2 GB cca 1 hodině mono záznamu.
Obrázek
Wave jako takový neobsahuje kromě základních parametrů žádné další info (ani takové, jaké známe ve formě ID3 tagů u MP3), což přece jen není pro profesionální využití úplně ideální. Proto byla vytvořena jeho nadstavba Broadcast Wave (BWF). Hlavní motivací byla výměna dat při výrobě audiovizuálních děl nebo ve vysílacím řetězci. Polí pro informace je skutečně hodně, jak můžeme vidět v Cubase MediaBay. To, co se nám zobrazí v Attribute Inspectoru při nastavení Dynamic, jsou pouze vyplněné informace, možnosti jsou daleko větší. Kromě základních parametrů je k dispozici i mnoho textových polí popisujících autora, způsob natáčení či místo natáčení. Například tzv. iXML oddíl obsahuje informace týkající se natáčení „na place“ - číslo scény, záběru atp. Pomocí těchto popisů se dají také velmi snadno vyhledávat potřebné soubory v bankách zvuků, protože se zde dá přehledně uložit přece jen více informací než jen v názvu souboru. Obsaženy mohou být i hudební parametry jako ladění, tempo apod.

ObrázekJedna z nejzásadnějších položek je v rámci řetězce audiovizuální výroby timecode. Pokud totiž zachováme v celém procesu jednotu timecodu, můžeme kdykoli jakýkoli byť dílčí zvukový soubor nasadit na jeho původní místo, tzv. spotovat. Tento termín vychází z ProTools a jejich Spot módu, kdy se zadává každý vložený soubor na konkrétní místo v čase projektu a jednou z voleb je i Original Time Stamp. Tuto hodnotu systém získá právě z informací obsažených v Broadcast Wave nadstavbě. Tento fakt nás přivádí k tomu, že je dobré mít přehled o tom, s jakými soubory náš systém vlastně pracuje. ProTools používají BWF jako základní formát, Cubase ale jako základ volí Wave obyčejný. Myslím, že i pro ty, kteří s videem nepracují, je vhodnější používat BWF. Nikdy nevíte, kdy se může info o autorovi, času vytvoření, originální pozici, původní frame rate videa atp. hodit nebo nás rovnou zachránit. Lepší nahrávací mobilní zařízení také obsahují timecode vstup, díky čemuž jsou již při náběru všechny soubory správně označeny a není problém je nasadit. Samozřejmě, že v souboru zůstává stále uložen původní údaj, ale je možné doplnit další (například při sestřihu), aniž by došlo ke zrušení originální informace.

Jindřich Kravařík
PROFIL AUTORA: Ing. MgA. Jindřich Kravařík
Vystudoval ČVUT FEL se zaměřením na digitální zpracování signálů a tvorbu VST plug-inů a obor Zvuková tvorba na HAMU. Věnuje se převážně studiové práci, sound designu a tvorbě hudby pro video projekty - v rámci audiovizuálního MERGE studia a zvukového a nahrávacího studia Sype Studios. Šest let se též věnoval dabingu ve studiu Barrandov. V současné době občas vymění studiové prostředí za čerstvý vzduch nebo jiné klimatizované prostory při live práci v divadle Archa a s Cirkem La Putyka.

Odpovědět