Акустичні саги. Як створювався формат MP3?
Успішно пройшла операція по запису оцифрованого звуку на CDA (Compact Disc Audio) Сповістила світові про початок нової ери в запису звуку. У 1982 р в Лангенхагені поблизу Ганновера було відкрито масове виробництво компакт-дисків. Бурхливий розвиток комп'ютерної техніки та цифрових технологій, що почався дещо пізніше, призвело до необхідності компресії цифрового звуку. Причин для цього була маса. Економія дискового простору, підвищення швидкості передачі цифрової інформації, необхідність створення формату запису звуку, зручного для використання в програмному забезпеченні.
У 1987 році німецький інститут Фраунхофера (Fraunhofer Institut f # 252-r Integrierte Schaltungen) Почав всебічні дослідження проблеми кодування цифрового звуку. Саме цьому інституту належить патент на технологію MP3. "Батьком" цього формату звуку називають Карл-Хайнца Бранденбурга (Karl-Heinz Brandenburg), Математика і фахівця з електроніки, що вивчав методи стиснення вже з 1977 року. У 1989 році, коли був отриманий патент на формат, жодного файлу MP3 в природі ще не існувало. У 1993 році MP3-файли були визнані відповідними міжнародному стандарту MPEG-1.
Які ж принципи лягли в основу кодування цифрового звуку в цей формат? Вихідний звуковий файл ділиться на фрейми (англ. frame - Кадр) тривалістю 0,05 сек. кожен. Потім проводиться аналіз кожного фрейма. При цьому всі частоти звуку, що лежать поза діапазоном сприйняття вухом людини, відкидаються. Крім того, відкидаються коливання з дуже високим або низьким значенням амплітуди. Як відомо, її верхня межа сприйняття людиною складає 96 дБ. Нижня межа сприйняття сильно залежить від частоти звуку. Високі і низькі частоти мають вищий амплітудний поріг сприйняття.
На першому етапі сигнал кожного фрейма математичним перетворенням Фур'є представляється у вигляді суми синусоїд різної амплітуди і частоти (адже графічно звук будь-якої частоти є саме синусоїдою). У пам'ять записуються значення амплітуд і частот, що входять в результуючу формулу.
Другий етап обробки заснований на використанні психоакустичної моделі сприйняття звуку вухом людини. Наприклад, відкидаються незначні послідовні зміни в частоті звуку (сигнал частотою 5000 Гц і наступний за ним сигнал 5100 Гц записуються як один з частотою 5000 Гц і суммированной тривалістю). Інша особливість вуха приводить до ефекту частотного маскування. Звук з певною частотою маскує інші звуки з близькою частотою, але меншою амплітудою, які відкидаються. Інерційність сприйняття звуку вухом приводить до того, що, скажімо, якийсь час після гучного звуку високої частоти і низької амплітуди просто не чутний. Такі звуки теж відкидаються фільтром.
Третій етап являє собою стиснення обробленого сигналу відомими математичними методами. Стиснення даних в MP3 здійснюється по трохи модифікованому варіанту алгоритму Гоффмана (Huffman), Застосовується при створенні архівів формату PKZIP, LHA, ZOO, ARJ.
У результаті всіх трьох перетворень інформація, що міститься в початковому звуковому файлі, стискується у декілька разів. Ступінь стиснення в сучасних кодерах вимірюється в кілобітах в секунду (kbps), І може бути задана самим користувачем. При цьому він повинен пам'ятати, що нескінченне прагнення до пониження розміру файлу з підвищенням ступеня стиснення призводить до того, що другий етап обробки звуку (саме він регулюється без особливих обмежень) стає агресивнішим. «Під ніж» починають йти звуки, помітні вухом людини.
Немає однозначної думки про мінімальний ступінь стиснення звуку, допустимий при його обробці. Одні говорять про те, що 128 kbps (ступінь стиснення - приблизно 10: 1) - цілком достатньо, інші воліють величину, вдвічі більшу. Сьогодні в більшості програвачів і кодерів встановлена верхня межа - 320 kbps, яка здатна задовольнити будь-якого експерта.
Наостанок зазначу, що кодування звуку в MP3 відноситься до типу lossy (Відбувається втрата інформації про звук). Способи, що відносяться до типу lossless, в яких виключений другий етап «психоакустичного ножа», а стиснення засноване виключно на математичних методах, повністю зберігають вихідну інформацію в підсумковому стислому файлі. ]