Semestrální práce "Audioformáty"

Záhlaví

Zadání

Porovnání kvality

Frekvenční spektrum
Nahrávací a přehrávací soustavy
Subjektivní pohled na hudbu
Možnosti záznamu

Přehled audioformátů

Příklad použití kodeku

Závěr

Použité nástroje

Zdroje

Záhlaví

Jméno studenta:	David Šafránek
Studijní skupina:	536
Semestr, školní rok:	zimní 2005/2006
Katedra:	počítačů (K 13136)
Předmět:	Nová média (36NM)
Seminář:	pátek 9:15
Cvičící:	Ing. Zdeněk Buk
Přednášející:	Doc. Ing. Miroslav Šnorek, CSc.
Datum:	24.10.2005

Zadání

Audioformáty

Doporučte způsob zpracování a uložení audiosekvencí, rozlište hudební záznam a mluvené slovo, možnosti záznamu a prezentace

Porovnání kvality

Frekvenční spektrum

Abychom mohly porovnat kvalitu vzorků, použijeme frekvenčního spektra - závislost úrovně signálu na frekvenci. Úroveň je uváděna v decibelech (dB), rozdíl 6dB znamená přibližně poloviční amplitudu. Přesný výpočet je dán vzorcem A = 20 × log(I₀ / I₁)
Následuje několik příkladů, kliknutím na obrázek se získá původní velikost.

Frekvenční spektrum hudebního záznamu z CD

Frekvenční spektrum hudebního záznamu zakódovaného do MP3 128kbit

Frekvenční spektrum hlasového záznamu

Frekvenční spektrum záznamu pořízeného z mikrofonu

Parametry pro generování frekvenční analýzy jsem zvolil následující.

Velikost FFT
2048 - čím je větší, tím déle trvá výpočet. Zde dojde k rozložení na 1024 segmentů od 0 do 22028Hz, výstup ukazuje následující soubor.
Typ okna
- Triangular
- Hanning
- Hamming
- Blackmann
- Welch (Gaussian)
- Blackmann-Harriss
Liší se šířkou pro monotóní frekvenci a zaneseným šumem. Zvolil jsem kompromis - typ Blackmann.

Typy okna

Nyní již máme zhotovené spektrum, ale ještě musíme definovat váhovou funkci, protože střední frekvence mají větší význam než okrajové. Pro porovnání jsem zvolil následující jednoduchou funkci, její tvar by měl korespondovat se subjektivním názorem na kvalitu hudby, takže žádná univerzální funkce neexistuje.

Funkce váhy

Nahrávací a přehrávací soustavy

Vhodná volba audioformátu závisí také na volbě nahrávací a přehrávací soustavy. Zvolíme-li např. pro přehrávání běžné počítačové reproduktory stačí nám použít bitrate okolo 128kbit, vyšší kvalita je vzhledem ke zkreslení a frekvenčním omezení reproduktorů nepostřehnutelná. Ideální je zvolit kvalitu audioformátu na podobné úrovni jako je nižší kvalita z nahrávací a přehrávací soustavy. Například použijeme-li běžný počítačový mikrofón, tak kvalita už je určena a to bez ohledu na přehrávací soustavu. Jako příklad uvedu vodovodní systém, se třema různě velkýma trubkama, tímto systémem protlačíme tolik vody, kolik nám umožní nejtenčí trubka.

Subjektivní pohled na hudbu

Horní frekvence slyšitelnosti u lidí činí 20kHz, se stářím se však snižuje. Někdy dosáhne i nízkých hodnot, tyto lidé pak přestávají slyšet i frekvenci 15625Hz (25 snímků × 625 řádek), kterou vydávají klasické 50Hz televize. Tito lidé pak nepoznají rozdíl při použití dolní propusti 16kHz. Dolní mez je u většiny formátu ignorována a to z důvodů, že nemá vliv na velikost souboru, případně lze použít 20Hz.
Horní mez se volí 14kHz-22kHz podle úrovně komprese.
Mezi slovy jsou sice mezery, ale jsou vyplněny šumem, proto je těžké odhadnout, kdy už jde jen o šum a kdy o doznívající slovo.

Uvažovali bychom o hudbě složené z harmonických not s frekvencemi jako zde, kde sedmá oktáva končí na frekvenci 7898Hz, tak by nám opravdu stačila mez 16kHz. Ve skutečnosti se vlivem rezonancí a skládání různých tónu v každé hudbě vyskytují i daleko vyšší frekvence, které mají vliv na vjem daného audiosignálu, a proto má význam posunout horní mez až za hranici 20kHz. Spíše filozofickou otázkou je, zda se během evoluce tato hranice nezmění a není třeba použít i vyšší frekvence.

Při záznamu hlasu nezáleží zda se jedná o mužský či ženský, v obou případech se nejvýznamnější frekvenční komponenty pohybují do 1kHz (přibližně 200 pro mužský, 300 pro ženský).

Možnosti záznamu

Počet kanálů

Běžně jeden či dva kanály, při použití dvou kanálů je výsledný datový tok 2× větší, v případě podobnosti můžeme využít korelace (např. MP3 - Joint Stereo).

Používají se následující formáty:
Mono
Multi-channel

Stereo
Vícekanálový zvuk

Počet vzorků

Nejpoužívanější jsou 44kHz - CD
48kHz - záznamové média (pásky, videokamery) pozn. vyšší frekvence není použita kvůli kvalitě, ale kvůli záměrné nekompatibilitě s CD kvalitou - nemožnosti neautorizovaně nahrát CD třeba na koncertě, problémy se staršími zvuk. kartami
32kHz - rádia
22kHz - záznamy z magnetofonové pásky
11kHz - záznamy hlasu
8kHz - telefonní pásmo

Maximální audio frekvence je poloviční (Shannonův teorém).

Bitů na sample

8 bit - telefonie, zpracování 8bit mikropočítači, vysoký šum
16 bit - převážně používáno
24, 32 bit - novější karty, zlepšení kvality není adekvátní zvětšení objemu dat

Metainformace

Do některých souborů je možné vložit informace o původu audiosekvence (název skladby, interpretr, album, rok vydání, hudební styl a jiné komentáře).

U MP3 souborů se metainformace zkráceně nazývají ID3: podporuje standard ID3 V 1.1 a V 2.2 až V 2.4

Přehled nejpoužívanějších audioformátů

Kodeků pro zpracování audia je nepřeberné množství. Hlavní, co požadujeme je zakódování a opětovné dekódování. Zakódování bývá daleko náročnější na výkon procesoru, a občas limituje jeho použití. Pro přehrávání např. MP3 128kbit je dostačující Pentium okolo 60MHz. Právě proto se během několika let po uvedení tohoto procesoru začali hojně používat pro grabování z cédéček.

Důležitá je také kompatibilita či jednoduchost implementace.
Kapesní přehrávač novější 320kbps u starších to může být jen 224kbps.
Například pro přenos po Ethernetu je lépe nějakou jednoduchou kompresi (např. ADPCM) namísto MP3 v důsledku snížení zpoždění při přenosu.
Rozdělení kompresí provedeme podle několika kritérii

Komprese
- Bezkompresní (analogie bmp)
- Bezztrátové (analogie gif, png)
- Ztrátové (analogie jpeg)
  - Konstantní bitrate
  - Variabilní bitrate

Na detailní vysvětlení algoritmů zde není prostor a proto se omezím na jejich přehled, příklady a vhodnost použití.

Standardní kodeky

wav

Wav zkrácenina z Wave (vlna).
Nejstarší způsob uložení PCM - Pulzní kódová modulace
Může obsahovat různé kodeky (i MP3 kodek), podobně jako např. avi soubor pro video, např. ADPCM komprese 16-bit vzorků na 4-bity.
Nevýhoda je velká velikost, a na rozdíl od bitmapy lze zapakovat jen na 98% původní velikosti, výhoda je, že v daném tvaru lze datovou část posílat jako buffer rovnou do zvukové karty.

voc

Creative Labs Sound. Dnes se již nepoužívá, defakto bezztrátový jako WAV-PCM.

ape

Monkey's Audio - bezztrátový formát s výraznou kompresí, velikost souboru je okolo 45%.

mp3

MPEG 1.0/2,5 Audio Layer III
Náročnost, v cd kvalitě (128kbit, 44kHz, stereo) použitelné od CPU Pentium, u nás prakticky od roku 1997.
Omezení: Frekvence 16Hz-48kHz, maximálně 48 kanálů.

asf

Advanced Streaming Format, později Advanced Systems Format
Obsahuje-li jen audio používá se koncovka wma (wmv pro video). Jedná se o konkurenci mp3 od Microsoftu

ogg

Multimediální formát - Xiph.org libVorbis I
aktuální hudba je uložena jako kodek v souboru. Je poměrně nový - Beta 3 verze z léta 2000.

aif

AIFF-C (AIFC) - Audio Interchange File Format

Příklad struktury souboru je zde:

Rozdělení na dávky informace (chunk)

Common Chunk (required)
Sound Data Chunk (required)
Marker Chunk
Instrument Chunk
Comment Chunk
Name Chunk
Author Chunk
Copyright Chunk
Annotation Chunk
Audio Recording Chunk
MIDI Data Chunk
Application Chunk

Katregorie používající předdefinované samply

Zjednodušeně řečeno tyto soubory obsahují sekvenci instrukcí typu určení instrumentu, rychlost a další parametry.

Výhody - vysoký kompresní poměr
Nevýhody - umělý dojem záznamu, různé dekodéry přehrávají jinak, těžce vytvořitelné z nahraného záznamu

Jedná se o soubory s příponou mod, xm, s3m, it, mid, midi, rmi a další.

Testy

Test hudby jsem provedl na skladbě Gigi D'Agostino - Ural 13 Diktators. Pro hlas výňatek z Milan Pitkin - V kotli. Počáteční kvalita je tedy 16bit, 44kHz, stereo v případě hudby a mono v případě hlasu.
Hudba
Hlas

Příklad použití kodeku pro MP3

Kodek

Lame 3.92 MMX - kodér

Parametry

Lze použít např. následující příkazový řádek: %s %d -V0 -mj -q0
%s - zdrojový soubor
%d - cílový soubor
-V určení bitratu (0 - největší)
-m kódování sterea
-q kvalita použitých algoritmů (0 - nejlepší)

Při použití takto definovaných parametrů je kvalita nerozeznatelná od originálu, při kompresním poměru přibližně 6:1.

Pro kódování hudby lze použít buď konstantní bitový tok (CBR) nebo variabilní (VBR) v závislosti na právě kódované části dat.

Stereo hudbu lze kódovat dvěma způsoby:
1. LR (left/right) - levý i pravý kanál zvlášť (např. při použití CBR 128kbit je pro každý 64kbit)
2. MS (mid/side) - jeden tok pro L+R a druhý pro L-R, využívá se korelace mezi kanály (např. při použití CBR 128kbit je pro hlavní zvuk 96kbit a pro rozdíl kanálů 32kbit)
Pozn. při bitratech <= 160kbit je preferováno -mj, jinak -ms

Závěr

Co se hudby týče, máme-li kvalitní nahrávku je nejlepší použít formát mp3 popř. ogg. Při biterate pod 160 je vhodnější ogg.

Pro mluvený hlas je dobré, vzhledem k mezerám mezi slovy použít proměnný bitrate, a vzorkovací frekvenci okolo 11-32kHz v závislosti na kvalitě.
V telekomunikacích je třeba detekovat mezery, a nepřenášet prázdná data.

Máte-li zájem porovnat určitý kodek, napište a já jej přidám.

Kompletní rešerže (zip)

Použité nástroje

Cool Edit Pro 2.0 - získání dat frekvenční analýzy
Ultra Edit 8.0 - zdrojové stránky
Opera 8.5 - shromáždění zdrojů
Delphi 7 - porovnání analýz a generování grafů (TeeChart)

Zdroje

...