Aká je hĺbka kódovania zvuku? Definícia, vzorec

Kódovanie zvuku znamená spôsoby ukladania a prenosu zvukových údajov. Nasledujúci článok popisuje, ako fungujú tieto kódovania. Všimnite si, že ide o dosť komplikované témy - "Hĺbka kódovania zvuku". Definícia tohto pojmu bude tiež uvedená v našom článku. Pojmy uvedené v článku sú určené len na všeobecné preskúmanie. Rozoberme pojem hĺbky kódovania zvuku. Niektoré z týchto odkazov môžu byť užitočné pre pochopenie toho, ako funguje rozhranie API a ako v aplikáciách vyjadrovať a spracovávať zvuk.


Ako nájsť hĺbku kódovania zvuku

Audio formát nie je ekvivalentný kódovaniu zvuku. Napríklad populárny formát súboru, napríklad WAV, definuje formát hlavičky zvukového súboru, ale nie je kódovanie zvuku. Súbory WAV často, ale nie vždy používajú lineárne kódovanie PCM. FLAC je formát súboru a kódovanie, čo niekedy vedie k nejasnostiam. V rozhraní Speech API FLAC je hĺbka kódovania zvuku jediným kódovaním, ktoré vyžaduje, aby audio dáta obsahovali hlavičku. Všetky ostatné kódovania označujú tiché zvukové údaje. Keď odkazujeme na rozhranie FLAC v jazyku API jazyka Speech, odkazujeme vždy na kodek. Keď odkazujeme na formát súboru FLAC, použijeme formát .FLAC.
Nie je potrebné stanoviť kódovanie a vzorkovacia frekvencia pre súbory WAV alebo FLAC. Ak je táto možnosť vynechaná, rozhranie API založené na cloude automaticky určuje kódovanie a vzorkovacia rýchlosť pre súbory WAV alebo FLAC na základe záhlavia súboru.Ak zadáte hodnotu kódovania alebo vzorkovacej rýchlosti, ktorá sa nezhoduje s hodnotou v hlavičke súboru rozhrania API jazyka cloud, vráti chybu.


Aká je hĺbka kódovania zvuku?

Zvuk sa skladá z oscilogramov pozostávajúcich z interpolácie vlny rôznych frekvencií a amplitúd. Ak chcete reprezentovať tieto formy signálov v digitálnom prostredí, signály musia byť odmietnuté rýchlosťou, ktorá môže predstavovať zvuky najvyššej frekvencie, ktorú chcete hrať. Pre nich je tiež potrebné udržiavať dostatočnú hĺbku bitu, aby reprezentovali oscilogramy správnej amplitúdy (objem a mäkkosť) na základe zvukovej vzorky. Schopnosť reprodukovať opakované spracovanie frekvencií je známa ako frekvenčná odozva a schopnosť vytvárať správny objem a jemnosť je známa ako dynamický rozsah. Tieto pojmy sú spoločne označované ako zdravosť zvukového zariadenia. Hĺbka kódovania zvuku je prostriedkom, pomocou ktorého môžete obnoviť zvuk pomocou týchto dvoch základných princípov, ako aj schopnosť efektívne ukladať a prenášať takéto dáta.

Frekvencia odberu vzoriek

Zvukový signál existuje ako analógový priebeh. Segment digitálneho zvuku približuje túto analógovú vlnu a odčíta jej amplitúdu pomerne vysokou rýchlosťou na simuláciu vlastných vlnových frekvencií. Vzorkovacia frekvencia digitálneho zvuku určuje počet vzoriek odobratých z audio výstupu (v sekundách). Vysoká vzorkovacia frekvencia zvyšuje schopnosť digitálneho zvuku presne zobrazovať vysoké frekvencie.

V dôsledku vetyNyquist-Shannon, zvyčajne musíte vyskúšať aspoň dvojnásobnú frekvenciu akýchkoľvek zvukových signálov, ktoré je potrebné zaznamenať digitálne. Napríklad reprezentovať zvuk v rozsahu ľudského sluchu (20-20.000 Hz) digitálneho zvuku musí odrážať najmenej 40.000 krát za sekundu (čo je dôvod, ktorý využíva audio CD vzorkovacej frekvencii 44100 Hz).

Hĺbka Beat

Hĺbka kódovania zvuku je účinok na dynamický rozsah danej zvukovej vzorky. Vyššia bitová hĺbka umožňuje zobraziť presnejšie amplitúdy. Ak máte v rovnakej zvukovej vzorke veľa hlasitých a jemných zvukov, budete potrebovať viac bitov na správne vysielanie týchto zvukov. Vyššie bitové hĺbky tiež znižujú pomer signál /šum v zvukových vzorkách. Ak je hĺbka kódovania zvuku 16 bitov, hudobný zvuk CD sa prenáša pomocou týchto hodnôt. Niektoré metódy kompresie môžu kompenzovať nižšie bitové hĺbky, ale sú zvyčajne stratové. DVD Audio používa 24 bitov hĺbky, zatiaľ čo väčšina telefónov má hĺbku kódovania zvuku 8 bitov.

nekomprimovaný zvuk

Väčšina z digitálneho spracovania zvuku pomocou dvoch metód (vzorkovacej frekvencie a bitová hĺbka) pre jednoduché ukladanie audio dát. Jedna z najpopulárnejších technológií digitálneho zvuku (popularizovaná pomocou CD) je známa ako modulácia impulzových kódov (alebo PCM). Zvuk je vybraný v nastavených intervaloch a amplitúda diskrétnej vlny v tomto bode je uložená ako digitálna hodnota zpomocou bitovej hĺbky vzorky. Lineárny PCM (ktorý naznačuje, že amplitúdová odozva je lineárne rovnomerná pri odberoch vzoriek) je štandard používaný na CD a v kódovaní LINEAR16 Speech API. Obidve kódy vytvárajú nekomprimovaný bajtový tok zodpovedajúci priamo audio údajom a obe normy obsahujú 16 bitov hĺbky. Lineárna PCM používa bitovú rýchlosť 44100 Hz na CD, ktorá je vhodná na premiestňovanie hudby. Vzorkovacia frekvencia 16000 Hz je však vhodnejšia na rekompozíciu reči.
Lineárny PCM (LINEAR16) je príklad nekomprimovaného zvuku, pretože digitálne dáta sú uložené podobným spôsobom. Pri čítaní jednokanálového bajtového toku zakódovaného pomocou funkcie Linear PCM môžete počítať každých 16 bitov (2 bajty), aby ste získali ďalšiu hodnotu amplitúdy signálu. Takmer všetky zariadenia môžu manipulovať s týmito digitálnymi dátami ako prvé - môžete upraviť zvukové súbory Linear PCM pomocou textového editora, ale nekomprimovaný zvuk nie je najefektívnejším spôsobom prepravy alebo ukladania digitálneho zvuku. Z tohto dôvodu väčšina zvukov používa metódy digitálnej kompresie.

Krátky zvuk

Zvukové dáta, rovnako ako všetky údaje, sú často komprimované, aby sa uľahčilo skladovanie a transport. Kompresia v kódovaní zvuku môže nastať bez straty alebo straty. Bezplatná kompresia môže byť rozbalená na obnovenie digitálnych dát do pôvodnej podoby. Kompresia nevyhnutne vymaže niektoré informácie počas dekompresnej procedúry a je parametrizovaná tak, aby naznačovala stupeň tolerancie k tejto technikekompresiu pre vymazanie údajov.

Lossless

Digitálne prúdy sú komprimované bez straty pomocou komplexných preusporiadaní uložených údajov, čo nezhoršuje kvalitu pôvodnej digitálnej vzorky. V prípade nekomprimovanej kompresie, pri extrakcii dát do pôvodného digitálneho formulára sa informácie nestratia. Takže, prečo metódy kompresie bez straty majú niekedy optimalizačné možnosti? Tieto nastavenia často spracovávajú veľkosť súboru pre dekompresný čas. FLAC napríklad používa parameter úrovne kompresie od 0 (najrýchlejšie) po 8 (najmenšia veľkosť súboru). Kompresia FLAC na vyššej úrovni nestratí žiadne informácie v porovnaní s kompresiou na nižšej úrovni. Namiesto toho kompresný algoritmus jednoducho potrebuje minúť viac výpočtovej energie pri konštrukcii alebo dekonštrukcii pôvodného digitálneho zvuku. Speech API podporuje dve bezztrátové kódovanie: FLAC a LINEAR16. Technicky LINEAR16 nie je "bezstratová kompresia", pretože kompresia nie je primárne zapojená. Ak je pre vás dôležitá veľkosť súboru alebo prenos dát, vyberte možnosť FLAC ako možnosť kódovania zvuku.

Strata kompresie

Kompresia audio dát eliminuje alebo znižuje niektoré typy informácií pri vytváraní komprimovaných dát. Aplikácia Speech API podporuje viaceré stratové formáty, hoci je treba sa im vyhnúť, pretože strata údajov môže ovplyvniť presnosť rozpoznávania.
Populárny MP3 kodek je príkladom metódy strateného kódovania. Všetky metódy kompresie MP3 odstraňujú zvuk z vonkajšej strany normálneho ľudského zvukového pásma a regulujú úroveň kompresie reguláciou účinnejMP3 dátový kodek alebo bitové číslo za sekundu na uloženie dátumu zvuku. Napríklad, stereo CD pomocou lineárnej PCM 16 bitov má efektívny prenosovú rýchlosť. hĺbka Vzorec kódovanie zvuku: 441,000 * 2 kanály * 16 bitov = 1,411,200 bitov za sekundu (bit /s) = 1411 kbit /s, napríklad, komprimovať MP3 odstraňuje tieto údaje pomocou rýchlosti prenosu dát, ako je 320 kb /s, 128 kbit /s alebo 96 kbit /s, čo vedie k nízkej kvalite zvuku. MP3 podporuje aj premenlivé prenosové rýchlosti, ktoré môžu ďalej komprimovať zvuk. Obe metódy strácajú informácie a môžu ovplyvniť kvalitu. Je to bezpečné povedať, že väčšina ľudí môže poznať rozdiel medzi MP3 kódované hudobný 96 kbit /s alebo 128 kbit /s.

Ďalšie formy kompresie

MULAW - 8-bitové kódovanie PCM, kde amplitúda modulovaná vzorku logaritmickej skôr než lineárne. V dôsledku toho uLaw znižuje efektívny dynamický rozsah komprimovaného zvuku. Hoci ulaw bola zavedená špeciálne pre optimalizáciu kódovanie reči, na rozdiel od iných typov audio, 16-bit LINEAR16 (nekomprimovaný PCM), je stále oveľa lepšie ako 8-bitového stlačeného zvuku ulaw. AMR kódované a modulované AMR_WB audyokass zavedením variabilnej bitovej rýchlosti výstupného audio vzorky.
Hoci Speech API podporuje viac formátov, so stratami, mali by ste sa im vyhnúť, ak máte kontrolu nad zdrojmi zvuku. Hoci odstránenie týchto dát pomocou stratovej kompresie nemusia poskytovať podstatnejší vplyv na zvuk počul ľudským uchom, strata dát pre mechanizmus rozpoznávanie rečimôže výrazne zhoršiť presnosť.

Súvisiace publikácie