MP3

Материал из Национальной библиотеки им. Н. Э. Баумана
Последнее изменение этой страницы: 12:52, 6 июня 2018.
MP3 (MPEG-1 Audio Layer III или MPEG-2 Audio Layer III)
MP3 logo.png
MP3 logo
Tom-s-MP3-Player.jpg
Tom's MP3 Player 1.0
Расширение файла MP3
Тип кода audio/mpeg
audio/MPA
audio/mpa-robust
Разработчик Moving Picture Experts Group
Начальная версия 1993 год
Тип формата Audio file format
Стандарт ISO/IEC 11172-3; ISO/IEC 13818-3
Открытый формат? Yes

MP3 (формально MPEG-1 Audio Layer III или MPEG-2 Audio Layer III) - это формат аудиокодирования для цифрового звука. Первоначально определяемый как третий аудиоформат стандарта MPEG-1, он сохранялся и расширялся, определяя дополнительные скорости передачи битов и поддерживая большее количество аудиоканалов - в качестве третьего аудиоформата следующего стандарта MPEG-2. Третья версия, известная как MPEG 2.5, расширенная для лучшей поддержки более низких скоростей передачи, обычно реализуется, но не является признанным стандартом.

MP3 (или mp3) в качестве формата файла обычно обозначает файлы, содержащие элементарный поток данных MPEG-1 для аудио и видео, без других сложностей стандарта MP3.

В аспектах MP3, относящихся к сжатию звука, аспект стандарта наиболее очевидный для конечных пользователей (и для которого он наиболее известен) -MP3 использует сжатие данных с потерями для кодирования данных с использованием неточных приближений и частичного отбрасывания данных. Это позволяет значительно уменьшить размер файла по сравнению с несжатым аудио. Сочетание небольшого размера и приемлемой верности привело к буму в распределении музыки через Интернет в середине и конце 1990-х годов, в качестве обеспечивающей технологии, когда пропускная способность и хранение все еще были на высоте. Формат MP3 вскоре стал связан с противоречиями, связанными с нарушением авторских прав, музыкальным пиратством, файлами ripping / sharing services MP3.com и Napster и другими. С появлением портативных медиаплееров категория продуктов, включая смартфоны, поддержка MP3 остается почти универсальной.

Сжатие MP3 работает, уменьшая (или приближая) точность некоторых компонентов звука, которые, как считается, превосходят возможности слуха большинства людей. Этот метод обычно называют перцепционным кодированием или психоакустическим моделированием. Затем оставшаяся аудиоинформация записывается экономически эффективным способом. По сравнению с цифровым аудио качеством CD, компрессия MP3 обычно может достигать сокращения на 75-95%. Например, MP3, закодированный с постоянным битрейтом 128 кбит / с, привел бы к файлу примерно на 9% от размера исходного аудио CD.

Кроме того, разработанный в виде потокового формата, сегменты передачи могут быть потеряны без ущерба для способности декодировать более поздние сегменты.

MP3 была разработана группой экспертов по движущимся изображениям (MPEG) в рамках стандартов MPEG-1 и более поздних стандартов MPEG-2. Первая подгруппа для аудио была сформирована несколькими командами инженеров CCETT, Matsushita, Philips, Sony, AT & T-Bell Labs, Thomson-Brandt и др. MPEG-1 Audio (MPEG-1 Part 3), который включает в себя MPEG-1 Audio Layer I, II и III, был одобрен в качестве проекта комитета по стандарту ISO / IEC в 1991 году, который был завершен в 1992 году, и опубликован в 1993 году как ИСО / МЭК 11172-3: 1993. В 1995 году было опубликовано обратное совместимое расширение MPEG-2 Audio (MPEG-2 Part 3) с более низким показателем и скоростью передачи битов в качестве ISO / IEC 13818-3: 1995.

История

Разработка

Алгоритм сжатия аудиоданных MP3 использует преимущество перцепционного ограничения человеческого слуха, называемого слуховой маскировкой. В 1894 году американский физик Альфред М. Майер сообщил, что тон может быть не слышен другим тоном более низкой частоты. В 1959 году Ричард Эмер описал полный набор слуховых кривых относительно этого явления. Эрнст Терхардт и др. создал алгоритм, описывающий слуховую маскировку с высокой точностью. Эта работа была дополнена множеством отчетов от авторов, относящихся к Флетчеру, и к работе, которая изначально определяла критические отношения и критические полосы пропускания.

Психоакустический маскирующий кодек был впервые предложен в 1979 году, по-видимому, независимо, Манфредом Р. Шредером и др. из Bell Telephone Laboratories, Inc. в Мюррей-Хилл, Нью-Джерси и М. А. Краснера, как в Соединенных Штатах. Краснер первым опубликовал и выпустил аппаратное обеспечение для речи (не используемое как сжатие битов музыки), но публикация его результатов как относительно неясного Технического отчета лаборатории Линкольна не сразу повлияла на основное направление развития психоакустического кодека. Манфред Шредер уже был известной и почитаемой фигурой во всемирном сообществе акустических и электротехнических инженеров, но его статья была мало заметна, поскольку она описала отрицательные результаты из-за специфики речи и коэффициента линейного предсказательного кодирования (LPC) присутствовать в речи.

Как Краснер, так и Шредер основывались на работах, выполненных Эберхардом Ф. Цвиккером в области настройки и маскирования критических полос частот, которые, в свою очередь, были основаны на фундаментальных исследованиях в области Bell Labs Харви Флетчера и его сотрудниками. В реферативном журнале IEEE по выделенным областям в сообщениях сообщалось о широком спектре (в основном перцептуальных) алгоритмов сжатия звука. Этот журнал сообщил в феврале 1988 года о широком спектре существующих, работающих технологий сжатия аудио-битов, некоторые из которых используют звуковую маскировку как часть их фундаментального дизайна, а некоторые демонстрируют аппаратные реализации в реальном времени.

Группа экспертов по движущимся изображениям (MPEG) была создана в 1988 году по инициативе Хироши Ясуды (Nippon Telegraph and Telephone) и Леонардо Чиарильоне. Ясуда возглавлял инициативу в Японии под названием Digital Audio and Picture Architecture (DAPA), а Chiariglione возглавлял инициативу в Европе под названием «Кодирование движущихся изображений для хранения» (COMIS). Оба они в конце концов встретились в мае 1988 года для работы над глобальным стандартом.

Генезис технологии MP3 полностью описан в статье профессора Ханса Мусмана, который в течение нескольких лет возглавлял группу ISO Audio Audio. В декабре 1988 года MPEG назвал стандарт звукового кодирования. В июне 1989 года было представлено 14 алгоритмов кодирования звука. Из-за некоторого сходства между этими предложениями кодирования они были объединены в четыре группы развития. Первой группой была MUSICAM, Matsushita, CCETT, ITT и Philips. Вторая группа - ASPEC, AT & T, France Telecom, Fraunhofer Gesellschaft, Deutsche и Thomson-Brandt. Третьей группой был ATAC, Fujitsu, JVC, NEC и Sony. И четвертая группа была SB-ADPCM, NTT и BTRL.

Непосредственными предшественниками MP3 были «Оптимальное кодирование в частотной области» (OCF), и Perceptual Transform Coding (PXFM). Эти два кодека, наряду с блочными коммутационными вкладами от Thomson-Brandt, были объединены в кодек под названием ASPEC, который был представлен в MPEG, и который выиграл конкурс качества, но это было ошибочно отвергнуто как слишком сложное для реализации. Первая практическая реализация аудиовизуального кодера (OCF) на аппаратном обеспечении (аппаратное обеспечение Краснера было слишком громоздким и медленным для практического использования), была реализация кодера психоакустического преобразования на основе чипов Motorola 56000 DSP.

Еще один предшественник формата и технологии MP3 можно найти в перцепционном кодеке MUSICAM на основе целочисленного набора фильтров из 32 поддиапазонов, управляемых психоакустической моделью. Он был в основном предназначен для цифрового аудиовещания (цифрового радио) и цифрового телевидения, а его основные принципы были раскрыты научным сообществом CCETT (Франция) и IRT (Германия) в Атланте во время конференции IEEE-ICASSP в 1991 году после работая над MUSICAM с Matsushita и Philips с 1989 года.

Этот кодек, встроенный в систему вещания с использованием модуляции COFDM, был продемонстрирован в эфире и на поле вместе с Radio Canada и CRC Canada во время шоу NAB (Лас-Вегас) в 1991 году. Реализация аудиочасти этой радиовещательной системы была основанный на кодере с двумя чипами (один для преобразования поддиапазонов, один для психоакустической модели, разработанный группой G. Stoll (IRT Germany), позже известной как психоакустическая модель I), и декодер реального времени с использованием одного чипа DSP от Motorola 56001 целочисленное программное обеспечение для арифметики, разработанное YF Команда Дери (CCETT, Франция). Простота соответствующего декодера вместе с высоким качеством звука этого кодека, использующим в первый раз частоту дискретизации 48 кГц, формат ввода 20 бит / выборка (самый высокий доступный стандарт выборки в 1991 году, совместимый с профессиональным цифровым AES / EBU входной студийный стандарт) были основными причинами, по которым позже были приняты характеристики MUSICAM в качестве основных функций для усовершенствованного кодека сжатия цифровой музыки.

Во время разработки программного обеспечения для кодирования MUSICAM команда Stoll и Dehery тщательно использовала набор высококачественных аудиоматериалов для оценки звука, выбранных группой профессионалов в области звукозаписи из Европейского вещательного союза, а затем использовалась в качестве справочной информации для оценки музыкальных компрессионных кодеков. Было обнаружено, что метод кодирования поддиапазона эффективен не только для перцептивного кодирования высококачественных звуковых материалов, но особенно для кодирования критических ударных материалов (барабанов, треугольников, ...) из-за специфического временного маскирующего эффекта MUSICAM (это преимущество является специфической особенностью коротких преобразований).

Будучи докторантом в Германском университете Эрланген-Нюрнберг, Карлхайнц Бранденбург начал работу по сжатию цифровой музыки в начале 1980-х годов, уделяя особое внимание тому, как люди воспринимают музыку. Он закончил свою докторскую работу в 1989 году. MP3 напрямую относится к OCF и PXFM, представляя результаты сотрудничества Brandenburg, работающего в качестве постдока в лабораториях AT & T-Bell с Джеймсом Д. Джонстоном («JJ») лабораторий AT & T-Bell с Институтом интегральных микросхем Fraunhofer , Эрланген (где он работал с Бернхардом Грилем и четырьмя другими исследователями - «The Original Six»), с относительно небольшими вкладами от отделения MP2 психоакустических поддиапазонных кодеров. В 1990 году Бранденбург стал доцентом в Эрлангене-Нюрнберге. Там он продолжал работать над сжатием музыки с учеными из Общества Фраунгофера (в 1993 году он присоединился к персоналу Института Фраунгофера). Песня «Tom's Diner» от Suzanne Vega была первой песней, используемой Карлхайнцем Бранденбургом для разработки MP3. Бранденбург принял песню для тестирования, слушая ее снова и снова каждый раз, уточняя схему, убедившись, что это не отрицательно повлияло на тонкость голоса Веги.[Источник 1]

Стандартизация

В 1991 году было представлено два предложения, которые были оценены для стандарта аудио MPEG: MUSICAM (адаптированное к маскам универсальное универсальное кодирование и мультиплексирование поддиапазонов) и ASPEC (адаптивное спектральное восприятие энтропийного кодирования). Как предложено голландской корпорацией Philips, французским научно-исследовательским институтом CCETT и немецким институтом стандартов Broadcast Technology, технология MUSICAM была выбрана благодаря своей простоте и надежности ошибок, а также ее высокому уровню вычислительной эффективности Формат MUSICAM, основанный на кодировании поддиапазонов, стал основой формата сжатия MPEG Audio, включающего, например, его структуру кадра, формат заголовка, частоту дискретизации и т. Д.

Хотя большая часть технологий и идей MUSICAM была включена в определение MPEG Audio Layer I и Layer II, только банк фильтров и структура данных, основанная на 1152 выборках кадров (формат файла и байт-ориентированный поток) MUSICAM, остались на Уровне III ( MP3), как часть вычислительно неэффективного гибридного банка фильтров. Под председательством профессора Мусмана из Ганноверского университета редактирование стандарта было передано голландцам Леон ван де Керхоф, немецкому Герхарду Столлу, французу Ив-Франсуа Дери, работающему на Уровне I и Уровне II. ASPEC было совместным предложением AT & T Bell Laboratories, Thomson Consumer Electronics, Общества Фраунгофера и CNET. Это обеспечило максимальную эффективность кодирования.

Рабочая группа, состоящая из ван де Керхофа, Столла, итальянца Леонардо Чиарильоне (CSELT VP for Media), француза Ив-Франсуа Дери, немецкого Карлхайнца Бранденбурга и американского Джеймса Д. Джонстона (США), взяла идеи от ASPEC, объединила банк фильтров от Layer II, добавили некоторые из своих собственных идей, таких как совместное стерео кодирование MUSICAM и создали формат MP3, который был разработан для достижения такого же качества со скоростью 128 кбит / с, как MP2 со скоростью 192 кбит / с.

Алгоритмы для MPEG-1 Audio Layer I, II и III были одобрены в 1991 году и завершены в 1992 году как часть MPEG-1, первого стандартного набора MPEG, что привело к международному стандарту ISO / IEC 11172-3 (также известный как MPEG-1 Audio или MPEG-1 Part 3), опубликованный в 1993 году. Файлы или потоки данных, соответствующие этому стандарту, должны обрабатывать частоты дискретизации 48k, 44100 и 32k и продолжать поддерживаться текущими MP3-плеерами и декодерами. Таким образом, первое поколение MP3 определило 14 * 3 = 42 интерпретации структур данных фрейма MP3 и макетов размера.

Дальнейшая работа над MPEG audio была завершена в 1994 году как часть второго набора стандартов MPEG, MPEG-2, более формально известного как международный стандарт ISO / IEC 13818-3 (также известный как MPEG-2 Part 3 или обратная совместимость MPEG- 2 Audio или MPEG-2 Audio BC), первоначально опубликованный в 1995 году. MPEG-2 Part 3 (ISO / IEC 13818-3) определил 42 дополнительных скорости передачи битов и частоты дискретизации для MPEG-1 Audio Layer I, II и III. Новые частоты дискретизации в точности равны половине тех, которые были первоначально определены в MPEG-1 Audio. Это уменьшение частоты дискретизации позволяет сократить частоту воспроизведения в два раза, одновременно уменьшая скорость передачи данных на 50%. MPEG-2 Part 3 также улучшил звук MPEG-1, позволяя кодировать аудиопрограммы с более чем двумя каналами, до 5.1 многоканальных. MP3, закодированный в MPEG-2, дает половину воспроизведения полосы пропускания MPEG-1, подходящего для фортепиано и пения.

Третье поколение потоков данных (файлов) в формате «MP3» расширило идеи и реализацию MPEG-2, но получило название MPEG-2.5 audio, поскольку MPEG-3 уже имел другое значение. Это расширение было разработано в Fraunhofer IIS, зарегистрированных патентообладателей MP3, уменьшив поле синхронизации кадров в заголовке MP3 с 12 до 11 бит. Как и при переходе от MPEG-1 в MPEG-2, MPEG-2.5 добавляет дополнительные частоты дискретизации ровно половину доступных в MPEG-2. Таким образом, он расширяет объем MP3 для включения речи человека и других приложений, но для этого требуется только 25% полосы пропускания (воспроизведение частоты) с использованием частоты дискретизации MPEG-1. Несмотря на то, что MPEG-2.5 не соответствует стандарту ISO, он широко поддерживается как недорогими китайскими, так и цифровыми аудиоплеерами, а также кодами MP3-кодировщиков (LAME), программным обеспечением для программного обеспечения (FFmpeg) и игроками (MPC), добавляя 3 * 8 = 24 дополнительные типы MP3-фреймов. Каждое поколение MP3, таким образом, поддерживает 3 частоты дискретизации в два раза выше, чем у предыдущего поколения, в общей сложности 9 разновидностей файлов формата MP3. Таблица сравнения частоты дискретизации между MPEG-1, 2 и 2.5 приведена ниже в статье. MPEG-2.5 поддерживается LAME (с 2000 года), Media Player Classic (MPC), iTunes и FFmpeg.

MPEG-2,5 не был разработан MPEG и никогда не был утвержден в качестве международного стандарта. Таким образом, MPEG-2.5 является неофициальным или проприетарным расширением формата MP3. Это, тем не менее, повсеместно и особенно выгодно для человеческих речевых приложений с низкой битовой скоростью.[Источник 2]

Релиз

Реализация программного обеспечения эталонного моделирования, написанная на языке C, а позже известная как ISO 11172-5, была разработана (в 1991-1996 годах) членами комитета ISO Audio Audio для создания совместимых с битами файлов аудио MPEG (Layer 1, Уровень 2, уровень 3). Он был утвержден в качестве технического проекта технического документа ИСО / МЭК в марте 1994 года и напечатан в качестве документа CD 11172-5 в апреле 1994 года. Он был утвержден в качестве проекта технического доклада (DTR / DIS) в ноябре 1994 года, который был завершен в 1996 году и опубликован в качестве международного стандарта ISO / IEC TR 11172-5: 1998 в 1998 году. Справочное программное обеспечение на языке C позднее было опубликовано как свободно доступный стандарт ISO. Работая в не-реальном времени в ряде операционных систем, он смог продемонстрировать первое аппаратное декодирование в реальном времени (на основе DSP) сжатого аудио. Некоторая другая реализация MPEG-кодов и декодеров MPEG в режиме реального времени была доступна для цифрового вещания (радио DAB, телевизионный DVB) для потребительских приемников и телевизионных пристав.

7 июля 1994 года Общество Фраунгофера выпустило первый программный MP3-кодер под названием l3enc. Расширение имени файла .mp3 было выбрано командой Fraunhofer 14 июля 1995 года (ранее файлы были названы .bit). С помощью первого в реальном времени программного обеспечения MP3-плеера WinPlay3 (выпущенного 9 сентября 1995 года) многие люди смогли кодировать и воспроизводить MP3-файлы на своих ПК. Из-за относительно небольших жестких дисков за это время (~ 500-1000 МБ) сжатие с потерями было необходимо для хранения музыки без инструментов для воспроизведения на компьютере. Как отмечает звукооператор Джонатан Стерн, «австралийский хакер приобрел l3enc, используя украденную кредитную карту. Затем хакер перепроектировал программное обеспечение, написал новый пользовательский интерфейс и перераспределил его бесплатно, называя его «спасибо Fraunhofer».

Интернет реализация

Во второй половине 1990-х годов файлы MP3 начали распространяться в Интернете, часто через подземные пиратские сети. Первый известный эксперимент в области распространения Интернета был организован в начале 1990-х годов Интернет-архивом подземной музыки, более известным под аббревиатурой IUMA. После некоторых экспериментов с использованием несжатых аудиофайлов этот архив начал поставлять на родной во всем мире низкоскоростной Интернет несколько сжатых аудиофайлов MPEG, используя формат MP2 (Layer II), а затем использованные MP3-файлы, когда стандарт был полностью завершен. Популярность MP3 начала быстро расти с появлением аудиоплеера Nullsoft Winamp, выпущенного в 1997 году. В 1998 году был выпущен первый портативный твердотельный цифровой аудиоплеер MPMan, разработанный SaeHan Information Systems со штаб-квартирой в Сеуле, Южная Корея и Rio PMP300 был продан впоследствии в 1998 году, несмотря на попытки юридического подавления RIAA.

В ноябре 1997 года сайт mp3.com предлагал тысячи MP3-файлов, созданных независимыми художниками бесплатно.Небольшой размер файлов MP3 позволил широко распространять совместное совместное использование музыки с диска с компакт-дисков, что было бы почти невозможно. Первая большая одноранговая сеть обмена файлами Napster была запущена в 1999 году. Легкость создания и совместного использования MP3-файлов привела к широко распространенному нарушению авторских прав. Крупные звукозаписывающие компании утверждали, что этот бесплатный обмен музыкой сократил продажи и назвал ее «музыкальным пиратством». Они отреагировали, преследуя судебные иски против Napster (которые в конечном итоге были закрыты, а затем проданы) и против отдельных пользователей, которые занимались совместным использованием файлов.

Несанкционированное совместное использование файлов MP3 продолжается в одноранговых сетях следующего поколения. Некоторые авторизованные службы, такие как Beatport, Bleep, Juno Records, eMusic, Zune Marketplace, Walmart.com, Rhapsody, звукозаписывающая индустрия, одобрили повторное воплощение Napster и Amazon.com продают неограниченную музыку в формате MP3.

Файловая структура

1257px-Mp3filestructure.svg.png

MP3-файл состоит из MP3-фреймов, состоящих из заголовка и блока данных. Эта последовательность кадров называется элементарным потоком. Из-за «байтового резервуара» кадры не являются независимыми элементами и обычно не могут быть извлечены на произвольных границах кадров. Блоки данных MP3 содержат (сжатую) аудиоинформацию по частотам и амплитудам. На диаграмме показано, что заголовок MP3 состоит из слова синхронизации, которое используется для идентификации начала действительного кадра. За этим следует бит, указывающий, что это стандарт MPEG и два бита, которые указывают, что используется слой 3; следовательно, MPEG-1 Audio Layer 3 или MP3. После этого значения будут отличаться в зависимости от файла MP3. ISO / IEC 11172-3 определяет диапазон значений для каждого раздела заголовка вместе со спецификацией заголовка. Большинство MP3-файлов сегодня содержат метаданные ID3, которые предшествуют или следуют за фреймами MP3, как отмечено на диаграмме. Поток данных может содержать дополнительную контрольную сумму.

Совместный стереофонический режим выполняется только на основе кадр-кадр.

Кодирование и декодирование

Стандарт MPEG-1 не содержит точной спецификации для MP3-кодировщика, но предоставляет примерные психоакустические модели, петлю скорости и т. П. В ненормативной части исходного стандарта. MPEG-2 удваивает количество поддерживаемых частот дискретизации, а MPEG-2.5 добавляет еще 3. Когда это было написано, предлагаемые реализации были весьма устаревшими. Разработчики стандарта должны были разработать свои собственные алгоритмы, подходящие для удаления части информации с аудиовхода. В результате стало доступно множество различных кодеров MP3, каждый из которых создает файлы различного качества. Сравнения были широко доступны, поэтому потенциальному пользователю кодера было легко исследовать лучший выбор. Некоторые кодировщики, которые умели кодировать при более высоких скоростях передачи (например, LAME), не всегда были хорошими при более низких скоростях передачи. Со временем LAME эволюционировала на веб-сайте SourceForge, пока не стала де-факто кодировщиком CBR MP3. Позднее был добавлен режим ABR. Работа продвигалась по истинной переменной скорости передачи данных с использованием цели качества между 0 и 10. В конечном счете номера (например, -V 9.600) могут генерировать отличное качество кодирования с низким битрейтом с частотой всего 41 кбит / с с использованием расширений MPEG-2.5.

Во время кодирования берутся 576 выборок во временной области и преобразуются в 576 выборок частотной области. Если есть переходный процесс, вместо 576 берутся 192 выборки. Это делается для ограничения временного распространения шума квантования, сопровождающего переходный процесс. Частотное разрешение ограничено небольшим размером окна большого блока, что снижает эффективность кодирования. Временное разрешение может быть слишком низким для высокопрерывных сигналов и может вызвать смазывание ударных звуков.

Из-за древовидной структуры банка фильтров проблемы с предварительным эхом ухудшаются, поскольку комбинированный импульсный отклик двух фильтрующих банков не обеспечивает и не может обеспечить оптимальное решение во временном / частотном разрешении. Кроме того, объединение двух выходов банков фильтров создает проблемы с псевдонимом, которые должны частично обрабатываться на этапе компенсации «псевдонимов»; однако это создает избыточную энергию, которая должна кодироваться в частотной области, тем самым снижая эффективность кодирования.

Декодирование, с другой стороны, тщательно определено в стандарте. Большинство декодеров являются «совместимыми с битовыми потоками», что означает, что декомпрессированный вывод, который они производят из данного файла MP3, будет таким же, с определенной степенью точности округления, поскольку результат, указанный математически в документе ISO / IEC высокого стандарта (ISO / МЭК 11172-3). Поэтому сравнение декодеров обычно основывается на том, насколько они эффективны в вычислительной области (то есть, сколько памяти или процессорного времени они используют в процессе декодирования). Со временем эта проблема стала менее проблематичной, так как скорости процессора переходили с МГц на ГГц. Общая задержка кодирования / декодера не определена, что означает, что нет официального положения для бесщелевого воспроизведения. Однако некоторые кодеры, такие как LAME, могут присоединять дополнительные метаданные, которые позволят игрокам, которые могут справиться с этим, обеспечить плавное воспроизведение.[Источник 3]

Качество

При выполнении кодирования с потерями звука, например, при создании потока данных MP3, существует компромисс между объемом данных и качеством звука результатов. Человек, генерирующий MP3, выбирает скорость передачи битов, которая определяет, сколько килобит в секунду требуется для аудио. Чем выше скорость передачи данных, тем больше будет поток данных MP3, и, как правило, чем ближе он будет звучать до первоначальной записи. При слишком низкой битовой скорости артефакты сжатия (т. Е. Звуки, отсутствующие в исходной записи) могут быть слышны при воспроизведении. Некоторый звук трудно сжимать из-за его случайности и резких атак. Когда этот тип аудио сжимается, обычно слышны артефакты, такие как звон или предварительное эхо. Хорошие примеры артефактов сжатия - образец аплодисментов или инструмента треугольника с относительно низкой скоростью передачи. Большинство субъективных тестов восприятия кодеков, как правило, избегают использования этих типов звуковых материалов, однако артефакты, создаваемые ударными звуками, едва заметны из-за специфической временной маскировочной функции 32 поддиапазонного набора фильтров уровня II, на котором основан формат ,

Помимо битовой скорости кодированного фрагмента звука качество звука в формате MP3 также зависит от качества алгоритма кодирования, а также от сложности кодируемого сигнала. Поскольку стандарт MP3 позволяет довольно немного свободы с помощью алгоритмов кодирования, разные кодировщики имеют отличное качество даже при одинаковых скоростях передачи. Например, в публичном тестовом тестировании с двумя ранними кодировщиками MP3, установленными со скоростью около 128 кбит / с, один 3,66 в масштабе 1-5, а другой набрал только 2,22. Качество зависит от выбора параметров кодировщика и кодирования.

Это наблюдение вызвало революцию в кодировании звука. Раньше битрейт был главным и единственным соображением. В то время MP3-файлы имели самый простой тип: они использовали одну и ту же скорость передачи битов для всего файла: этот процесс известен как кодировка с постоянным битрейтом (CBR). Использование постоянной скорости передачи данных делает кодирование более простым и менее интенсивным. Однако также возможно создавать файлы, в которых скорость передачи битов изменяется по всему файлу. Они известны как переменная скорость передачи бит. Бит-накопитель и кодирование VBR фактически являются частью исходного стандарта MPEG-1. Концепция заключается в том, что в любой части звука некоторые разделы легче сжимать, например, тишину или музыку, содержащую всего несколько тонов, в то время как другим будет сложнее сжать. Таким образом, общее качество файла может быть увеличено за счет использования более низкой скорости передачи битов для менее сложных проходов и более высокого для более сложных частей. С некоторыми продвинутыми кодировщиками MP3 можно указать заданное качество, и кодер соответствующим образом отрегулирует скорость передачи. Пользователи, которые желают получить определенную «настройку качества», прозрачную для своих ушей, могут использовать это значение при кодировании всей своей музыки и, вообще говоря, не должны беспокоиться о выполнении личных тестов на прослушивание каждой части музыки, чтобы определить правильную скорость передачи битов.

Воспринимаемое качество может зависеть от среды прослушивания (окружающего шума), внимания слушателей и обучения слушателей, а в большинстве случаев - аудиоаппаратурой слушателя (например, звуковыми картами, динамиками и наушниками). Кроме того, достаточное качество может быть достигнуто за счет меньшего качества настройки для лекций и приложений речи человека и сокращения времени и сложности кодирования. Тест, полученный новым студентам музыкального профессора Стэнфордского университета Джонатана Бергера, показал, что предпочтение студентов в отношении музыки в формате MP3 растет каждый год. Бергер сказал, что студенты, похоже, предпочитают «шипящие» звуки, которые MP3 приносят в музыку.

Углубленное исследование качества звука MP3, звукорежиссера и композитора Райана Магуайра «Призрак в MP3» изолирует звуки, потерянные во время сжатия MP3. В 2015 году он выпустил трек «moDernisT» (анаграмма «Tom's Diner»), составленный исключительно из звуков, удаленных во время сжатия MP3 песни «Tom's Diner», трек, изначально использованный в формулировке стандарта MP3. Подробный отчет о методах изоляции звуков, удаленных во время сжатия MP3, наряду с концептуальной мотивацией для проекта, был опубликован в «Трудах Международной конференции компьютерной музыки» 2014 года.

Метаданные

«Тег» в звуковом файле представляет собой раздел файла, который содержит метаданные, такие как название, исполнитель, альбом, номер дорожки или другую информацию о содержимом файла. Стандарты MP3 не определяют форматы тегов для файлов MP3, также нет стандартного формата контейнера, который бы поддерживал метаданные и устранял необходимость в тегах. Однако существует несколько стандартов де-факто для форматов тегов. По состоянию на 2010 год наиболее распространенными являются ID3v1 и ID3v2, а также недавно введенный APEv2. Эти теги обычно встроены в начало или конец файлов MP3, отдельно от фактических данных в формате MP3. MP3-декодеры либо извлекают информацию из тегов, либо просто рассматривают их как несущественные, не MP3-файлы.

Программное обеспечение для воспроизведения и редактирования часто содержит функции редактирования тегов, но есть также приложения для редактирования тегов, предназначенные для этой цели. Помимо метаданных, относящихся к аудиосодержанию, теги могут также использоваться для DRM. ReplayGain - это стандарт для измерения и хранения громкости файла MP3 (нормализация звука) в теге метаданных, позволяющий проигрывателю, совместимому с ReplayGain, автоматически настраивать общий объем воспроизведения для каждого файла. MP3Gain может использоваться для обратимого изменения файлов на основе измерений ReplayGain, так что скорректированное воспроизведение может быть достигнуто на проигрывателях без возможности воспроизведения ReplayGain.

Лицензия

Основная технология декодирования и кодирования MP3 не распространяется на патенты в Европейском союзе, и все патенты истекли к ней не позднее 2012 года. В Соединенных Штатах технология 16 февраля 2017 года стала практически не имеющей патентов. Большинство патентов на MP3 истекло в США в период с 2007 по 2015 год. В прошлом многие организации заявляли о праве собственности на патенты, связанные с декодированием или кодированием MP3. Эти претензии привели к ряду юридических угроз и действий из самых разных источников. В результате неопределенность в отношении того, какие патенты должны быть лицензированы для создания продуктов MP3 без нарушения патентных прав в странах, которые разрешают патенты на программное обеспечение, является общей чертой ранних этапов принятия технологии.

Первоначальный почти полный стандарт MPEG-1 (части 1, 2 и 3) был общедоступным 6 декабря 1991 года как ISO CD 11172. В большинстве стран патенты не могут быть поданы после того, как предыдущий уровень был обнародован, а патенты истекают через 20 лет после первоначальной даты подачи заявки, которая может быть до 12 месяцев позже для подачи заявок в других странах. В результате патенты, необходимые для внедрения MP3, истекли в большинстве стран к декабрю 2012 года, через 21 год после публикации ISO CD 11172.

Исключением являются Соединенные Штаты, где действующие патенты, поданные до 8 июня 1995 года, истекают после более позднего 17 лет с даты выпуска или 20 лет с даты приоритета. Длительный процесс патентного преследования может привести к выдаче патента намного позже, чем обычно ожидалось. Различные патенты, связанные с MP3, истекли в период с 2007 по 2017 год в Соединенных Штатах. Патенты на что-либо, раскрытые в ISO CD 11172, поданные через год или более после публикации, сомнительны. Если рассматривать только известные патенты на MP3, поданные к декабрю 1992 года, то декодирование MP3 было патентованным в США с 22 сентября 2015 года, когда истек патент США № 5,812,672, в котором была подана заявка РСТ в октябре 1992 года. Если в качестве меры принимается самый длинный патент, упомянутый в вышеупомянутых ссылках, тогда технология MP3 перестала быть свободной от патентов в Соединенных Штатах 16 апреля 2017 года, когда в патенте США 6 009 399, проведенном и управляемом Technicolor истек. В результате многие бесплатные программные проекты с открытым исходным кодом, такие как операционная система Fedora, решили начать загрузку поддержки MP3 по умолчанию, и пользователям больше не придется прибегать к установке неофициальных пакетов, поддерживаемых сторонними репозиториями программного обеспечения для MP3 воспроизведения или кодирования.

Юридические ограничения. Патентом на MP3 владеет компания Alcatel-Lucent, которая требовала лицензирования некоторых способов использования формата (срок действия связанных с MP3 патентов истёк 23 апреля 2017). В США изобретения, публично раскрытые более года, не могут быть запатентованы; однако для патентов, оформленных до 8 июня 1995 года (почти полный стандарт появился в открытом доступе 6 декабря 1991), существовала возможность увеличить их сроки действия. Известные патенты, касающиеся расшифровки MP3, прекратили действие в США к декабрю 2012; по другим данным, если учитывать только патенты, заявка на которые была подана до декабря 1992 года, этого не произошло в сентябре 2015 года.

[Источник 4]

Источники

  1. MP3Info // Ibiblio. [2011-2018]. Дата обновления: 09.11.2012. URL: https://www.ibiblio.org/mp3info/ (дата обращения:04.06.2018)
  2. AA, Audible Audio Book File (.aa) // Online Convert. [2011-2018]. Дата обновления: 09.11.2012. URL: https://www.online-convert.com/file-format/aa (дата обращения:04.06.2018)
  3. MPEG Audio Layer I/II/III frame header // Fcreyf. [2006-2018]. Дата обновления: 17.03.2010. URL: http://www.fcreyf.com/11114/mp3-decoding-in-c++ (дата обращения:04.06.2018)
  4. Mouse #6: MouseText Characters // Mirrors Apple2. [2006-2018]. Дата обновления: 11.09.2017. URL: http://mirrors.apple2.org.za/apple.cabi.net/FAQs.and.INFO/A2.TECH.NOTES.ETC/A2.CLASSIC.TNTS/mouse006.html (дата обращения:04.06.2018)