Jméno studenta: | David Šafránek |
Studijní skupina: | 536 |
Semestr, školní rok: | zimní 2005/2006 |
Katedra: | počítačů (K 13136) |
Předmět: | Nová média (36NM) |
Seminář: | pátek 9:15 |
Cvičící: | Ing. Zdeněk Buk |
Přednášející: | Doc. Ing. Miroslav Šnorek, CSc. |
Datum: | 24.10.2005 |
Doporučte způsob zpracování a uložení audiosekvencí, rozlište hudební záznam a mluvené slovo, možnosti záznamu a prezentace
Frekvenční spektrum hudebního záznamu z CD
Frekvenční spektrum hudebního záznamu zakódovaného do MP3 128kbit
Frekvenční spektrum hlasového záznamu
Frekvenční spektrum záznamu pořízeného z mikrofonu
Parametry pro generování frekvenční analýzy jsem zvolil následující.
Nyní již máme zhotovené spektrum, ale ještě musíme definovat váhovou funkci, protože střední frekvence mají větší význam než okrajové. Pro porovnání jsem zvolil následující jednoduchou funkci, její tvar by měl korespondovat se subjektivním názorem na kvalitu hudby, takže žádná univerzální funkce neexistuje.
Funkce váhy
Vhodná volba audioformátu závisí také na volbě nahrávací a přehrávací soustavy. Zvolíme-li např. pro přehrávání běžné počítačové reproduktory stačí nám použít bitrate okolo 128kbit, vyšší kvalita je vzhledem ke zkreslení a frekvenčním omezení reproduktorů nepostřehnutelná. Ideální je zvolit kvalitu audioformátu na podobné úrovni jako je nižší kvalita z nahrávací a přehrávací soustavy. Například použijeme-li běžný počítačový mikrofón, tak kvalita už je určena a to bez ohledu na přehrávací soustavu. Jako příklad uvedu vodovodní systém, se třema různě velkýma trubkama, tímto systémem protlačíme tolik vody, kolik nám umožní nejtenčí trubka.
Horní frekvence slyšitelnosti u lidí činí 20kHz, se stářím se však snižuje. Někdy dosáhne i nízkých hodnot, tyto lidé pak přestávají slyšet i frekvenci 15625Hz (25 snímků × 625 řádek), kterou vydávají klasické 50Hz televize. Tito lidé pak nepoznají rozdíl při použití dolní propusti 16kHz.
Dolní mez je u většiny formátu ignorována a to z důvodů, že nemá vliv na velikost souboru, případně lze použít 20Hz.
Horní mez se volí 14kHz-22kHz podle úrovně komprese.
Mezi slovy jsou sice mezery, ale jsou vyplněny šumem, proto je těžké odhadnout, kdy už jde jen o šum a kdy o doznívající slovo.
Uvažovali bychom o hudbě složené z harmonických not s frekvencemi jako zde, kde sedmá oktáva končí na frekvenci 7898Hz, tak by nám opravdu stačila mez 16kHz. Ve skutečnosti se vlivem rezonancí a skládání různých tónu v každé hudbě vyskytují i daleko vyšší frekvence, které mají vliv na vjem daného audiosignálu, a proto má význam posunout horní mez až za hranici 20kHz. Spíše filozofickou otázkou je, zda se během evoluce tato hranice nezmění a není třeba použít i vyšší frekvence.
Při záznamu hlasu nezáleží zda se jedná o mužský či ženský, v obou případech se nejvýznamnější frekvenční komponenty pohybují do 1kHz (přibližně 200 pro mužský, 300 pro ženský).
Běžně jeden či dva kanály, při použití dvou kanálů je výsledný datový tok 2× větší, v případě podobnosti můžeme využít korelace (např. MP3 - Joint Stereo).
Používají se následující formáty:Do některých souborů je možné vložit informace o původu audiosekvence (název skladby, interpretr, album, rok vydání, hudební styl a jiné komentáře).
U MP3 souborů se metainformace zkráceně nazývají ID3: podporuje standard ID3 V 1.1 a V 2.2 až V 2.4
Kodeků pro zpracování audia je nepřeberné množství. Hlavní, co požadujeme je zakódování a opětovné dekódování. Zakódování bývá daleko náročnější na výkon procesoru, a občas limituje jeho použití. Pro přehrávání např. MP3 128kbit je dostačující Pentium okolo 60MHz. Právě proto se během několika let po uvedení tohoto procesoru začali hojně používat pro grabování z cédéček.
Důležitá je také kompatibilita či jednoduchost implementace.Na detailní vysvětlení algoritmů zde není prostor a proto se omezím na jejich přehled, příklady a vhodnost použití.
Wav zkrácenina z Wave (vlna).
Nejstarší způsob uložení PCM - Pulzní kódová modulace
Může obsahovat různé kodeky (i MP3 kodek), podobně jako např. avi soubor pro video, např. ADPCM komprese 16-bit vzorků na 4-bity.
Nevýhoda je velká velikost, a na rozdíl od bitmapy lze zapakovat jen na 98% původní velikosti, výhoda je, že v daném tvaru lze datovou část posílat jako buffer rovnou do zvukové karty.
Creative Labs Sound. Dnes se již nepoužívá, defakto bezztrátový jako WAV-PCM.
Monkey's Audio - bezztrátový formát s výraznou kompresí, velikost souboru je okolo 45%.
MPEG 1.0/2,5 Audio Layer III
Náročnost, v cd kvalitě (128kbit, 44kHz, stereo) použitelné od CPU Pentium, u nás prakticky od roku 1997.
Omezení: Frekvence 16Hz-48kHz, maximálně 48 kanálů.
Advanced Streaming Format, později Advanced Systems Format
Obsahuje-li jen audio používá se koncovka wma (wmv pro video). Jedná se o konkurenci mp3 od Microsoftu
Multimediální formát - Xiph.org libVorbis I
aktuální hudba je uložena jako kodek v souboru. Je poměrně nový - Beta 3 verze z léta 2000.
Příklad struktury souboru je zde:
Rozdělení na dávky informace (chunk)Zjednodušeně řečeno tyto soubory obsahují sekvenci instrukcí typu určení instrumentu, rychlost a další parametry.
Jedná se o soubory s příponou mod, xm, s3m, it, mid, midi, rmi a další.
Při použití takto definovaných parametrů je kvalita nerozeznatelná od originálu, při kompresním poměru přibližně 6:1.
Pro kódování hudby lze použít buď konstantní bitový tok (CBR) nebo variabilní (VBR) v závislosti na právě kódované části dat.
Stereo hudbu lze kódovat dvěma způsoby:Co se hudby týče, máme-li kvalitní nahrávku je nejlepší použít formát mp3 popř. ogg. Při biterate pod 160 je vhodnější ogg.
Pro mluvený hlas je dobré, vzhledem k mezerám mezi slovy použít proměnný bitrate, a vzorkovací frekvenci okolo 11-32kHz v závislosti na kvalitě.
V telekomunikacích je třeba detekovat mezery, a nepřenášet prázdná data.