Акустичні саги. Як звук перетворили на цифри?
Недоліки аналогових носіїв звуку укупі з невблаганним ходом прогресу привели людину до думки про те, що звук можна представити у вигляді інформації для запису на цифрові носії. Ця ж доля не минула сьогодні жодного об'єкту, піддається кількісному і якісному опису в системі візуальних і звукових параметрів. Які ж загальні принципи перетворення аналогового звуку в послідовність цифр?
Аналоговий сигнал за допомогою АЦП (Аналогово-цифрового перетворювача) розбивається на дрібні ділянки тривалістю в кілька стотисячний часток секунди. На кожному з таких ділянок АЦП виконується вимірювання амплітуди звуку. Величина, зворотна довжині цих ділянок, називається частотою дискретизації і вимірюється, як і частота звуку, в герцах. Очевидно, чим вона вище (чим частіше ми вимірюємо амплітуду), тим більш повну інформацію про сигнал ми зможемо зберегти.
Занадто часті вимірювання, однак, вимагають багато місця для зберігання отриманої інформації. З іншого боку, зменшення частоти дискретизації призводить до втрати інформації, що міститься в сигналі. Як же вибрати оптимальну частоту дискретизації? Відповідь дає відома теорема Котельникова, згідно з якою звук з частотою f не може бути оцифрований при частоті дискретизації нижче 2f. Це означає, наприклад, що спроба оцифровки звуку частотою, скажімо, 1000 Гц при частоті дискретизації 1000 Гц приречена на невдачу. Результатом буде тиша, або спотворений звук, який не має нічого спільного з первісним. Важливим наслідком із цієї теореми є встановлення достатнього верхньої межі значення частоти дискретизації.
Загальноприйнята верхня межа частоти звуку, сприйманого нашим вухом, дорівнює 20 000 Гц. Отже, верхній достатній межа частоти дискретизації звуку можна прийняти за 40 000 Гц. У реальності частота дискретизації при запису звуку на CD становить 44 100 Гц. Професійна студійна апаратура розрахована на роботу зі звуком частотою дискретизації 48 000 Гц. Стандарт частоти дискретизації для телефонної лінії прийнятий за 8000 Гц. Цього цілком достатньо для того, щоб зберегти інформацію, що міститься в голосовому повідомленні, а також зберегти емоційне забарвлення і забезпечити впізнаваність голосу.
На цьому історія з дискретизацією не закінчував. Розбиваючи звуковий сигнал на ділянки певної довжини і вимірюючи амплітуду коливань на цих ділянках, не варто забувати, що значення цієї амплітуди при записі в пам'ять комп'ютера також може мати тільки строго певні дискретні значення. Це говорить про те, що кількість сходинок між максимальним і мінімальним значеннями амплітуди обмежена. Від кількості цих сходинок залежить їх висота (різниця між сусідніми значеннями амплітуди) і, отже, чим їх більше, тим вища якість звуку.
Особливості зберігання інформації в пам'яті комп'ютера призвели до кількості можливих сходинок 256, 65536, 16777216 та 4294967296 штук. Цим цифрам відповідають 8-, 16-, 24- і 32-бітний звуки (відповідні ступеня числа два, так як комп'ютер працює з двійковим кодом). Звичайно ж, підвищення «битности» звуку веде до збільшення кількості інформації. Однак 16-бітного звуку (65536 варіантів амплітуди звуку) звичайно цілком достатньо для якісного запису більшості звукових сигналів.
Тепер ми з легкістю зможемо підрахувати, скільки місця займе трихвилинний стереосигнал при записі на звичайному музичному компакт-диску. 180 секунд множимо на 44 100 Гц, потім на 2 байта (це відповідає 16 бітам), потім ще на 2 (кількість каналів, так як сигнал стереофонічний). Підсумкова цифра - 31752000 байт, або близько 30,3 Мбайт інформації. Досить багато, правда? Чи можна зменшити без помітної втрати якості? Можна. Але це тема зовсім іншої статті. ]