Что такое файл MP3?
Вы не могли говорить об аудио и компьютерах за последние 15 лет и не слышать о файле MP3. Аудиофайлы MP3 и веб-сайты, такие как оригинальный Napster, положили начало изменению того, где, как и когда люди приобретают музыку. Если вы относитесь к более старшему возрасту, как и многие из нас в индустрии мобильной электроники, то вы купили свои компакт-диски, кассеты и, возможно, даже винил в музыкальном магазине. Компьютеры и Интернет изменили это. Вы можете зайти в интернет после ужина и скачать нелегальную копию песни за несколько минут. Это было неправильно, но таким образом люди приобрели десятки миллионов песен.
В 1990-х и начале 2000-х доступ в Интернет был медленным. Мы начали подключаться к Интернету с помощью телефонных линий и модемов. Для передачи каждого байта информации на ваш компьютер требовалось время, поэтому все, что могло ускорить этот процесс, было удовольствием. Загрузка (воровство) музыки через Интернет — вот где популярность аудиофайлов MP3 встретила свое призвание.
Введение в цифровое аудио
Мы могли бы написать 10 статей о цифровом звуке — и смогли бы. Сейчас мы рассмотрим основы и будем использовать компакт-диск (CD) в качестве ориентира. Компакт-диски хранят цифровой звук, дискретизированный на частоте 44,1 кГц с разрешением 16 бит. Эти числа означают, что каждый образец может иметь амплитуду, которая является единственным значением в диапазоне 65 536 различных уровней (2 в степени 16). Информация выбирается 44 100 раз в секунду. Выборка с так называемым 44,1/16 позволяет захватывать слышимый диапазон звука (от 20 Гц до 20 кГц) с хорошей детализацией и точностью.
Чтобы сохранить 1 секунду звука в этом разрешении, нам нужно сохранить 1 411 200 бит информации. Любой, кто играл с программным обеспечением для транскодирования звука, может признать 1411 кбит/с стандартной скоростью передачи данных. Это число вычисляется путем умножения числа битов на выборку (16) на количество выборок в секунду (44 100) и умножение на 2. Коэффициент умножения на 2 связан с тем, что мы записываем в стереофоническом режиме, то есть в двухканальном режиме. Таким образом, трехминутная песня занимает 254 016 000 бит или 31 752 000 байт.
Округлим до 31 мегабайта информации. Вы можете себе представить, сколько времени потребуется, чтобы загрузить это с помощью модема, работающего на скорости 14 400 бод? Ответ — не менее 3,5 минут — без проверки ошибок, шума в линии и других факторов, которые замедляют реальное время загрузки примерно до 5,5 минут.
Сжатие данных
Что, если бы кто-то нашел способ уменьшить размер аудиофайла, чтобы ускорить загрузку и уменьшить использование полосы пропускания? Предупреждение заключается в том, что звук по-прежнему звучит практически одинаково на большинстве основных аудиосистем, таких как телевизор, компьютерные колонки или заводское автомобильное радио 1990-х годов. В 1991 году группа компаний, в которую входили Институт Фраунгофера, France Telecom, Philips, TDF и IRT, начала работать над способом уменьшения размера файла при сохранении актуальной информации. Это ключ к уменьшению размера файла с помощью сжатия MP3.
Формат файла MP3 представляет собой алгоритм «сжатия с потерями». Сжатие с потерями означает, что информация отбрасывается для уменьшения размера файла. Команда разработчиков работала над методом сжатия, называемым перцептивным кодированием, чтобы решить, какую информацию удалить. Перцептивное кодирование основано на том, как мы слышим звуки по отношению к другой информации, и на ограничениях нашего слуха.
Что выбрасывают файлы MP3
Мы собираемся проанализировать информацию, которую удаляют файлы MP3, чтобы уменьшить размер файла. Один из самых простых способов сократить объем памяти для хранения информации — уменьшить максимальную воспроизводимую частоту. Если мы проанализируем файл MP3 со скоростью 128 кбит/с, мы увидим, что самая высокая воспроизводимая частота чуть ниже 16 кГц. Если бы это была единственная информация, которая была удалена, наш новый битрейт с 16-битными сэмплами в стерео был бы около 1 004 800 кбит/с вместо 1 411 200 кбит/с для 20,05 кГц.
Следующая часть процесса сжатия анализирует контент, общий для обоих каналов. Обычно некоторые части записи фактически находятся в монофоническом режиме. Процесс кодирования удаляет дублирующуюся информацию из файла и добавляет код для копирования противоположного канала. Если бы звуковая дорожка была чисто монофонической, размер файла был бы разделен на две части. Немногие треки полностью монофонические, но мы можем увидеть большую экономию места благодаря этому процессу.
Последующая обработка просматривает низкоуровневую информацию во время высокоамплитудных проходов. Давайте возьмем в качестве примера песню с большим количеством баса и очень тихими гармоническими средними частотами. Процессы перцепционного кодирования, такие как MP3, удалят эту низкоуровневую информацию из звуковой дорожки. Этот процесс называется маскированием звука. Звуковой информации на других частотах достаточно, чтобы отвлечь вас от того, что вы слышите.
Вы слышите разницу?
Десятки — нет, сотни — тестов сравнивали файлы MP3 с полными звуковыми дорожками CD-качества. Есть ли различия? Наверняка есть. Во время нашего исследования стало очевидно одно:то, как создается файл MP3, имеет решающее значение для его субъективного качества звука. Разные кодировщики работают по-разному и дают разные результаты.
Возможно, лучший способ описать разницу между записью с качеством компакт-диска и файлом MP3 — это взглянуть на разницу между ними. Я бы хотел, чтобы мы могли поделиться здесь некоторыми образцами, чтобы вы могли их послушать, но это нарушит закон об авторском праве. Что мы можем сделать, так это визуально показать вам разницу.
Мы взяли 3-секундный семпл из песни Daft Punk «Give Life Back to Music». Мы выбрали этот трек из-за четких и сознательных усилий Daft Punk сделать версию альбома в высоком разрешении коммерчески доступной. Мы хотим поблагодарить их за это! Образец взят с 31,5 секунды до 34,5 секунды песни.
Эта спектрограмма показывает частотный состав образца. Горизонтальная шкала – это время. Вертикальная шкала – это частота. Наконец, интенсивность цвета показывает амплитуду.
Вы можете видеть, что есть частотный контент до 30 кГц, что ясно демонстрирует природу высокого разрешения этой дорожки. Каждая вертикальная цветная полоса представляет ритм драм-машины — более или менее.
Анализ файла MP3 размером 128 КБ
Понятно, что звуковая информация выше 16 кГц была удалена. Инфразвуковой частотный состав также явно отличается. В файле MP3 ниже 30 Гц больше информации по сравнению с оригиналом. Однако это увеличение информации будет представлять собой меньший динамический диапазон.
MP3 или исходный файл
Мы инвертировали файл MP3 и добавили его к исходному образцу, чтобы сделать изображение, которое вы видите здесь. Конечным результатом является разница между двумя треками. Вы можете увидеть высокочастотный контент, который был удален выше 16 кГц. На самом деле информация была удалена на всех частотах, и эта информация соответствует схеме интенсивности аудиофайла.
Исходный файл имеет пиковую амплитуду -0,1 дБ для обоих каналов и среднюю амплитуду около -14,2 дБ. Снятая информация имеет пиковый уровень -10,9 дБ и среднюю амплитуду -37,01. Удаленная информация скрыта глубоко под информацией об амплитуде пика.
Как звучит удаленный звук? Мы бы описали клип как звук далекого марширующего оркестра. Звук в основном представляет собой высокочастотную информацию. Текстура трека также имеет явную трель:удары драм-машины ясны и присутствуют, но звучат они как искаженные удары тарелок.
Даже с высококачественным предусилителем для наушников и наушниками студийного класса разницу трудно уловить при переключении между исходным треком и файлом MP3. В среде прослушивания с большей звуковой сценой это может быть более заметно.
Выводы о файлах MP3
Пуристы скажут вам, что у вас должны быть записи самого высокого качества. В этой логике нет недостатка. Зачем экономить, когда можно получить все? Файлы MP3 с высоким битрейтом, такие как, например, 320 кбит/с, имеют превосходное качество. Многократное тестирование показало, что при создании с использованием качественных алгоритмов сжатия практически невозможно обнаружить разницу в звуке между записью качества CD и файлом MP3 со скоростью 320 кбит/с. Файлы MP3 с более низким битрейтом начинают содержать больше информации, и различия становятся больше.
Новейшие источники на рынке способны воспроизводить аудиофайлы WAV и FLAC с большим разрешением и битовой глубиной. Вскоре мы увидим устройства, которые будут воспроизводить файлы MQA по цифровым соединениям. Почти каждый источник поддерживает файлы MP3 и WMA.
Загляните сегодня в местный специализированный магазин мобильной электроники и возьмите с собой музыку, чтобы насладиться. Мы думаем, вы будете впечатлены, независимо от того, какой формат вы выберете.