logo Disk

Jak vyzrát na formát MP3 Taje datové komprese a 8 tipů, kterými se vyhnete zcizení zvukových barev v nahrávce!

Určitě jste se setkali s tím, že převod do “hubenějšího“ formátu MP3 jedné skladbě ublížil více, zatímco druhé se příliš nedotkl. Čím to je? Mohu se zcizení při psaní, aranžování a mixování písničky vyhnout?

Kategorie: Studio - Tipy & Triky
Ondřej Jirásek | 21. prosince 2021

Plný bezztrátový formát wave, aif můžeme převádět do datově méně objemné MP3. Zvolíme-li u ní vyšší bitový tok 320 kbps, 128 kbps, kódování ještě tolik kvalitu zvuku nepoznamená. Půjdeme-li však níže na 80 nebo 48 kbps, datová komprese zasáhne mnohem širší spektrum, a tím dojde k razantnějšímu zcizení barev. Ořezání a zcizení však není u všech žánrů a každé skladby stejné.

Přestože je snižování bitového toku matematickou záležitostí, využívá hlavně psychoakustických vlastností lidského sluchu. Zvuková barva je totiž složena z jednotlivých různě vysokých složek, které nám v sluchu a mozku splynou v barvu jednu. A zvukové barvy navíc plynou v čase: mění se a prolínají.

Jde lidský sluch tak snadno ošálit?

Lidský sluch není dokonalý a jsou-li spektrální složky co do výšky blízko sebe a jedna z nich je výrazně silnější, zamaskuje složku výškově bližší a slabší. Toho právě využívá psychoakustický model datové komprese. Zamaskovanou složku, kterou naše ucho vnímá jen velmi slabě nebo vůbec, odstraní. Barva trubky tak zůstane stále barvou trubky, jen mírně či více vybledne. Ale v čase se ořezaná barva trubky může nepatřičně měnit. Zeslabí se její akcenty a bude různě poklesávat její brilance. A to chceme hlavně při razantnější kompresi co nejvíce omezit!

Pokud budete vědět, jak lidské ucho funguje, jaké v něm existují zóny a v nich jsou maskovány složky slabší, můžete barvy ve spektru rozestřít tak, aby jim datová komprese do MP3 co nejméně ubrala. Existují totiž určité principy aranžování a také mixování, které už v neořezané podobě skladbu zpřehlední a redukce barev jí potom tolik neublíží. Tyto principy třebas nevědomě užívá elektronická hudba, která pracuje se statičtějšími témbry rozloženými rovnoměrněji ve spektru, a tak snese mnohem tvrdší datovou kompresi než třeba hudba symfonická.

Narazili jste už na tyto termíny?

Abychom pochopili, jak lidské ucho funguje a datová komprese probíhá, projdeme si, co je kmitočtové maskování, maskovací práh a maskovací křivka, co jsou barkové zóny, dále jak funguje dočasné maskování včetně pre-maskingu a post-maskingu i jak probíhá vlastní matematické snižování dat, abychom se co nejvíce vyhnuli kvantovacímu šumu.

Nakonec se dostaneme k osmi muzikantským i zvukařským tipům, jak aranžovat, aby se formát MP3 skladby tolik nedotkl.

Za všechno mohou vlásenky ve vnitřním uchu

K maskování barev dochází mechanicky na bazilární membráně, která leží ve vnitřním uchu v tzv. Cortiho orgánu. V něm se velmi zjednodušeně nachází lymfatická tekutina, která díky rozšiřujícímu se průměru hlemýždě zatlačí na vlásenky v místě, které odpovídá vlnovou délkou výšce přicházejícího zvuku. Vlásenky se ohnou a díky iontovým poměrům převedou chemickou reakci na elektrický signál, nervový vzruch putující dále do mozku.

Reakce však neproběhne v hlemýždi v jednom místě. Tekutina se nedotkne jen plochy, kde identifikujeme odpovídající kmitočet. Díky různě silnému zvuku (tlaku) zatlačí tekutina mírně i na vlásenky okolní. A ty pak nejsou schopny reagovat na tlak související s jejich výškou. Silný tlak okolní vlásenky na čas zablokuje-zamaskuje.

V psychoakustice potom rozeznáváme maskující silnější zvuk a maskovaný slabší zvuk. Maskování může probíhat dvojím způsobem: výškově a časově.

Maskující tón s maskovací křivkou

Kmitočtové neboli výškové maskování

O kmitočtovém maskování hovoříme v souvislosti s překrýváním výšek. Rozeznáváme v něm maskovací práh, tedy hlasitostní úroveň, od které začíná maskující tón zakrývat maskovaný. Dále maskovací křivku, která ukazuje, při jakém maskovacím prahu silnější maskující tón překryje kolik sousedních kmitočtů.

Při určování maskovacích křivek můžeme pracovat s harmonickými složkami nebo úzkopásmovým šumem. Poslechovým testem určujeme, za jakých okolností harmonický tón nacházející se na jednom kmitočtu nebo širší úzkopásmový šum zamaskují ve spektru sousední složky. Na základě toho potom vznikají algoritmy snižující patřičná data.

Pozn. Díky znalostem o bazilární membráně a psycho akustických výzkumů byly stanoveny tzv. barkové zóny: místa s bazilární šířkou, na kterých může v hlemýždi k maskování docházet. Podle Eberharda Zwickera se jich na bazilární membráně nachází 24.

Dočasné maskování

Maskování může rovněž souviset s časem, a to s okamžikem nástupu a odezněním signálu. Vlásenky nejsou totiž natolik poddajné, aby reagovaly na slabý rozeznívající se signál. Potřebují nějaký čas, aby nasbíraly energii a vyrobily nervový impuls. A po tuto dobu nás neinformují, že nějaký zvuk existuje. Tomuto jevu se říká pre-masking: neslyšíme tiché pasáže na začátku tónu.

Zvláště po odeznění silného zvuku vlásenky potřebují nějaký čas na to, aby se vrátily do původní polohy a ustálila se jejich iontová rovnováha. Jako by byly zahlceny a nestačily reagovat. Tomuto jevu říkáme post-masking: konec tónu se v uchu subjektivně prodlouží a prolíná do nově nastupujícího.

Hluché fáze pre-maskingu a post-maskingu jsou rovněž při kompresi dat využívány.

Fáze pre-maskingu a post-maskingu

Snižujeme datový tok aneb komprese dat u MP3

Snižování datového objemu u zvukového formátu usnadňuje to, že byl akustický signál převeden do čísel. Při převodu akustického signálu do čísel jsme určili vzorkovací kmitočet (kolikrát za sekundu odečteme pozici vlny, např. 48 000 x) a hlavně bitovou hloubku (jak detailně bude ve svislém směru vlna vykreslena, např. 16 bit, 24 bit). Snižování plné bitové hloubky se stalo příležitostí, jak provést ztrátové kódování zvuku.

Při převodu jsou zužitkovány poznatky z psychoakustiky: program identifikuje nejsilnější maskující složky ve spektru a určí jejich dílčí maskovací křivky. Z nich poskládá celkovou maskovací křivku platící pro daný okamžik. Neslyšitelné nebo méně slyšitelné složky pod celkovou maskovací křivkou zredukuje tak, aby vznikl co nejmenší kvantovací šum. Zcizení.

Čím níže se pod maskující křivkou maskované složky nacházejí, k tím menšímu zcizení dojde (a to hlavně u zmíněných MP3 s 80 kbps nebo 48 kbps). Takto algoritmy „postupují“ kousek po kousku a do redukce zahrnují i okamžiky pre-maskingu a post-maskingu.

Velmi důležitý je počet a odstup maskujících složek ve spektru od maskovaných. Čím více se ve spektru nachází maskujících složek blízko u sebe a čím menší mají odstup od svých i sousedních maskujících křivek, tím necitlivěji proběhne komprese do datově „hubenějších“ MP3 (80 kbps, 48 kbps). Navíc se zde redukce dat nebude týkat jen vyšších pásem ve spektru (např. až od 17 kHz nahoru) jako u formátu 128 kbps, ale většiny spektra (už od 7 kHz výše) jako u 48 kbps.

Aby program ubral patřičné množství dat, „vymete“ co nejvíce prostoru pod maskujícími křivkami. A jedna věc je, jak byly maskující křivky stanoveny poslechem „separé“ a jak mnohem dynamičtěji začínají fungovat v součtu. Velmi snadno pak dochází k zcizení, a to hlavně u prolínajících se barev.

Důležitou roli zde hraje i práh citlivosti lidského sluchu, který slyší nejcitlivější mezi 2,5 a 5 kHz. Zde nemusí být maskující složky tolik silné (ušetříme bity).

U pilovitého signálu byla zvýšena 16. harmonická složka. Ve formátu wave digitálně neořezává složky sousední. Barva bude plná, až řezavá.

Algoritmus u MP3 s tokem 82 kbps ořezal okolní složky kolem 16. harmonického. Snížil jejich odstup od šumu. Pokud by do spektra přibylo více takto „vyčuhujících“ a navíc neharmonických složek, program ještě tvrději „vyčistí“ jejich okolí. A barva může být zcizena.

Jaké nedokonalosti naše ucho nakonec objeví?

Součet barev a jejich maskování není jednoduchou záležitostí. V tišší hladině může k maskování snadno dojít, a zdá se nám, že slyšíme jen jeden nástroj. Pokud ale zvýšíme „volume“ téhož úseku skladby, objevíme docela zřetelně mixturu více barev. Rovněž je důležité, jak jsou barvy rozloženy ve stereu a s jakým zpožděním docházejí na vzdálenější ucho.

Totéž platí pro časové maskování. Zatímco v tichém poslechu efekt pre-maskingu funguje, u hlasitého poslechu to nemusí vůbec platit. Najednou předtím nečitelné tiché nástupy uslyšíme. A opačně pokud snížíme volume, snížíme i post-masking a zaznamenáme čitelněji prolínající se přechodné jevy.

A „kroutítko“ pro práci s hlasitostí má dnes každý posluchač běžně k dispozici. Tím si poslech nastavuje, jak potřebuje, a stává se tak mnohem kritičtějším i náročnějším.

Osm tipů, jak aranžovat a mixovat

Přestože existuje množství kombinací maskujících křivek, obecně platí, že čitelná aranžmá a přehledný mix zůstanou i v datově nižších MP3 stále přehledné a čitelné. Podívejme se na osm tipů, které by vám mohly pomoci.

Tip 1: Pokud budete hlasy vést v úzké harmonii např. po terciích u sebe, při razantnějším snížení datového toků algoritmus MP3 ubere z akordu slabší barvy. Tišší hlasy se totiž s větší pravděpodobností dostanou pod maskovací křivku hlasu silnějšího a algoritmus identifikuje část jejich složek jako vhodných pro odstranění. Naopak pokud povedete akordy v harmonii široké, tišší hlasy budou ležet mimo maskovací křivku hlasu silnějšího. Algoritmus ze slabšího nástroje nemá proč odebírat tolik dat.

 Tip 2: Jestliže budete řadit noty bez pauz rychle za sebou, natož noty plynule spojíte, algoritmus v souladu s post-maskingem ořeže data v okamžiku ukončování not (ucho je zahlceno a nepotřebuje je). Tohle datové snižování se může prolnout i do not nastupujících či plynule navazujících. V případě prolínání not (legata) tak ztratíme spoustu krásných transientů. Všimli jste si, že přechodových jevů nadělají MP3 vůbec tu nejhorší paseku?

Violoncello při nasazení smyku staccato vygeneruje ze začátku spektrum plné tišších neharmonicit (viz šipka). Pokud je kódování necitlivě odstraní, ze smyku se ztratí typický úhoz smyčce.

 Tip 3: Oddělujte noty mezerami: nastupující noty oddělené krátkými nebo dokonce delšími pauzami převod do MP3 tolik nezcizí, i kdyby algoritmus založený na post-maskingu u předcházejících not jejich konce ořezal.

 Tip 4: V případě pasáží, kde budou hrát nástroje stejnou melodii ve stejné poloze, tedy unison, může dojít k poznatelnému vyblednutí barvy. Algoritmus toho v rámci husté unisonové barvy, která vznikla překrýváním barevných složek od shodnéhé tónu směrem nahoru, najde k ořezání poměrně dost.

 Tip 5: Barvy se rozkládají ve spektru na užším či širším prostoru. Barvy, které mají své složky (harmonické, neharmonické, ruchové) nahuštěné blízko sebe budou pravděpodobně tvrději datově prořezány. Redukce se zvláště týká harmonických složek zahuštěných ve vyšších pásmech spektra (např. u pilového signálu). Naopak barvy nástrojů, které mají ve spektru své složky vzdáleněji od sebe (např. marimba), nebudou tolik zcizeny.

Elektronický trojúhelníkový signál má symetrické, hlasitostně vyrovnané spektrum. Pokud jej program ořezává, tak jako celek. A barva syntezátorového trojúhelníku zůstane +- čitelná.

Tip 6: Akordově husté doprovodné pasáže složené z více nástrojů, pokud už byly v plné datové podobě zamazané a srostlé, ztratí po ztrátovém kódování ještě více na čitelnosti. Rozestřete je raději šířeji do sterea, případně jim nechte dostatek místa.

 Tip 7: Barvy akustických nástrojů (např. smyčcových, zpěvu, ale i činelů), ve kterých probíhá během krátkého času množství barevných, dynamických i výškových změn, mohou být datovou kompresí o řadu jedinečných „procesů“ ošizeny. Žánr dostane na frak. Raději jim v nahrávce dopřejte volný prostor, ať je výškově i časově v okolí nic příliš nezastírá.

 Tip 8: Naopak barvy konstantní, např. elektronické „držáky“, ve kterých tolik detailních změn neprobíhá, i hlubší kompresí nijak zásadně neutrpí. Zůstanou velmi podobné.

Přečtěte si také:

Natáčíme a mixujeme: slyšíme jinak, než ukazují ladičky?

Slyšíme výšku tónu stejně, jak nám ukazují měřáky? Nezní melodie či harmonie posunuté na správných místech mírně nahoru či dolů mnohem lépe? Existuje řada faktorů, které lidský slu…

Nahráváme a mixujeme: umíte pracovat s drsností tónu?

Drsnost tónu může u nástroje, lidského hlasu i mixu, tj. celkového zvuku hudebního bandu posílit výraz a přinést napětí. Jak ji ale vnímá posluchač? Existují nějaké parametry a nas…

Natáčíme a mástrujeme: vnímáme délky stejně, jak je zapíše DAW?

Hlídáte délky při nahrávání ve studiu, aby vizuálně přesně seděly na rytmické ose DAW programu? Nebo je pak následně editujete: zkracujete, nastavujete, posouváte. Pozor, lidské uc…

Produkty, o kterých se píše v tomto článku, najdete i v našem eshopu:
Líbí se Vám tento článek? Pošlete ho dál!
Přečtěte si také další související články:

Komentáře