Mpeg что это за формат • Вэб-шпаргалка для интернет предпринимателей!

MPEG (англ. Moving Picture Experts Group ; произносится «эмпэг» — рус. Экспертная группа по движущимся изображениям ) — группа специалистов, образованная международной организацией ISO для выработки стандартов сжатия и передачи цифровой видео- и аудиоинформации; также имеет официальное обозначение — ISO/IEC JTC1/SC29 WG11 (ISO/IEC Joint Technical Committee 1, Subcommittee 29, Working Group 11). Первое собрание группы состоялось в мае 1988 года в Оттаве [1] [2] [3] . К 2005 году в собраниях участвовало до 350 человек. Основатель и бессменный председатель комитета — д-р Леонардо Кьярильоне (итал. Leonardo Chiariglione (англ.) русск. ). [4]

Группа MPEG стандартизовала следующие стандарты сжатия и вспомогательные стандарты:

MPEG-1: Исходный стандарт сжатия видео и аудио. Позднее использовался как стандарт для Video CD; включает в себя формат Layer 2 сжатия аудио.
MPEG-2: Транспортные, видео- и аудиостандарты для широковещательного телевидения. Используется в цифровом телевидении ATSC, DVB и ISDB, цифровых спутниковых ТВ-службах, таких как Dish Network, цифровом кабельном телевидении и (с небольшими изменениями) в DVD.
MPEG-3: Изначально разрабатывался для HDTV, но был отвергнут, когда обнаружилось, что для HDTV вполне достаточно MPEG-2 (с расширениями). (Не следует путать MPEG-3 с MP3, который на самом деле является стандартом MPEG-1 Layer 3.)
MPEG-4: Расширяет MPEG-1 для поддержки «объектов» видео/аудио, 3D-контента, сжатия с низким битрейтом и DRM. В него включено несколько новых высокоэффективных видеостандартов (альтернатив MPEG-2), таких как:

MPEG-4 Part 2 (ASP) и
MPEG-4 Part 10 (также известный как H.264 или AVC). MPEG-4 Part 10 используется в дисках HD DVD и Blu-ray.

В дополнение к вышеупомянутым, существуют стандарты, которые являются не усовершенствованием предыдущих стандартов сжатия, а определяют различные языки описания:

MPEG-7: Стандарт индексации мультимедиа-содержимого.
MPEG-21: Стандарт «Система мультимедийных средств» (Multimedia Framework).

Стандарт сжатия MPEG разработан Экспертной группой кинематографии (Moving Picture Experts Group — MPEG). MPEG это стандарт на сжатие звуковых и видео файлов в более удобный для загрузки или пересылки, например через интернет, формат.

Существуют разные стандарты MPEG (как их еще иногда называют фазы — phase): MPEG-1, MPEG-2, MPEG-3, MPEG-4, MPEG-7.

MPEG состоит из трех частей: Audio, Video, System (объединение и синхронизация двух других).

Содержание

MPEG-1
Как MPEG работает:
Таблица 1
Таблица 2
Звук в MPEG:
Параметры MPEG-1 (Утверждены в 1992)
Таблица 3
портал образовательных ресурсов
- Содержание
Начало
Семейство MPEG
Moving Picture Experts Group made MPEG
MPEG-2
MPEG3
MPEG4
MPEG 7
MPEG 21
Звук в MPEG
- Рекомендуем к прочтению

MPEG-1

По стандарту MPEG-1 потоки видео и звуковых данных передаются со коростью 150 килобайт в секунду — с такой же скоростью, как и односкоростной CD-ROM проигрыватель — и управляются путем выборки ключевых видео кадров и заполнением только областей, изменяющихся между кадрами. К несчастью, MPEG-1 обеспечивает качество видеоизображения более низкое, чем видео, передаваемое по телевизионному стандарту.

MPEG-1 был разработан и оптимизирован для работы с разрешением 352 ppl (point per line — точек на линии) * 240 (line per frame — линий в кадре) * 30 fps (frame per second — кадров в секунду), что соответствует скорости передачи CD звука высокого качества. Используется цветовая схема — YCbCr (где Y — яркостная плоскость, Cb и Cr — цветовые плоскости).

Как MPEG работает:

В зависимости от некоторых причин каждый frame (кадр) в MPEG может быть следующего вида:

I (Intra) frame — кодируется как обыкновенная картинка.
P (Predicted) frame — при кодировании используется информация от предыдущих I или P кадров.
B (Bidirectional) frame — при кодировании используется информация от одного или двух I или P кадров

Последовательность кадров может быть например такая: IBBPBBPBBPBBIBBPBBPB.

Последовательность декодирования: 0312645.

Нужно заметить, что прежде чем декодировать B кадр требуется декодировать два I или P кадра. Существуют разные стандарты на частоту, с которой должны следовать I кадры, приблизительно 1-2 в секунду, соответствуюшие стандарты есть и для P кадров (каждый 3 кадр должен быть P кадром). Существуют разные относительные разрешения Y, Cb, Cr плоскостей (Таблица 1), обычно Cb и Cr кодируются с меньшим разрешением чем Y.

Таблица 1

Вид Формата	Отношения разрешений по горизонтали (Cb/Y):	Отношение разрешений по вертикали (Cb/Y):
4:4:4	1:1	1:1
4:2:2	1:2	1:1
4:2:0	1:2	1:2
4:1:1	1:4	1:1
4:1:0	1:4	1:4

Для применения алгоритмов кодировки происходит разбивка кадров на макроблоки каждый из которых состоит из определенного количества блоков (размер блока — 8*8 пикселей). Количество блоков в макроблоке в разных плоскостях разное и зависит от используемого формата

Техника кодирования:

Для большего сжатия в B и P кадрах используется алгоритм предсказания движения (что позволяет сильно уменьшить размер P и B кадров — Таблица 2) на выходе которого получается:

Вектор смещения (вектор движения) блока который нужно предсказать относительно базового блока.
Разница между блоками (которая затем и кодируется).

Так как не любой блок можно предсказать на основании информации о предыдущих, то в P и B кадрах могут находиться I блоки (блоки без предсказания движения).

Таблица 2

Вид кадра	I	P	B	Средний размер
Размер кадра для стандарта SIF (kilobit)	150	50	20	38

Метод кодировки блоков (либо разницы, получаемой при методе предсказание движения) содержит в себе:

Discrete Cosine Transforms (DCT — дискретное преобразование косинусов).
Quantization (преобразование данных из непрерывной формы в дискретную).
Кодировка полученного блока в последовательность.

DCT использует тот факт, что пиксели в блоке и сами блоки связаны между собой (т.е. коррелированны), поэтому происходит разбивка на частотные фурье компоненты (в итоге получается quantization matrix — матрица преобразований данных из непрерывной в дискретную форму, числа в которой являются величиной амплитуды соответствующей частоты), затем алгоритм Quantization разбивает частотные коэффициенты на определенное количество значений. Encoder (кодировщик) выбирает quantization matrix которая определяет то, как каждый частотный коэффициент в блоке будет разбит (человек более чувствителен к дискретности разбивки для малых частот чем для больших). Так как в процессе quantization многие коэффициенты получаются нулевыми то применяется алгоритм зигзага для получения длинных последовательностей нулей

Звук в MPEG:

Форматы кодирования звука деляться на три части: Layer I, Layer II, Layer III (прообразом для Layer I и Layer II стал стандарт MUSICAM, этим именем сейчас иногда называют Layer II). Layer III достигает самого большого сжатия, но, соответственно, требует больше ресурсов на кодирование. Принципы кодирования основаны на том факте, что человеческое ухо не совершенно и на самом деле в несжатом звуке (CD-audio) передается много избыточной информации. Принцип сжатия работает на эффектах маскировки некоторых звуков для человека (например, если идет сильный звук на частоте 1000 Гц, то более слабый звук на частоте 1100 Гц уже не будет слышен человеку, также будет ослаблена чувствительность человеческого уха на период в 100 мс после и 5 мс до возникновения сильного звука). Psycoacustic (психоакустическая) модель используемая в MPEG разбивает весь частотный спектр на части, в которых уровень звука считается одинаковым, а затем удаляет звуки не воспринимаемые человеком, благодаря описанным выше эффектам.

В Layer III части разбитого спектра самые маленькие, что обеспечивает самое хорошее сжатие. MPEG Audio поддерживает совместимость Layer’ов снизу вверх, т.е. decoder (декодировщик) для Layer II будет также распознавать Layer I.

Синхронизация и объединение звука и видео, осуществляется с помощью System Stream , который включает в себя:

Системный слой, содержащий временную и другую информацию чтобы разделить и синхронизовать видео и аудио.
Компрессионный слой, содержащий видео и аудио потоки.

Видео поток содержит заголовок, затем несколько групп картинок (заголовок и несколько картинок необходимы для того, что бы обеспечить произвольный доступ к картинкам в группе в независимости от их порядка).

Звуковой поток состоит из пакетов каждый из которых состоит из заголовка и нескольких звуковых кадров (audio-frame).

Для синхронизации аудио и видео потоков в системный поток встраивается таймер, работающий с частотой 90 КГц (System Clock Reference — SCR, метка по которой происходит увеличения временного счетчика в декодере) и Presentation Data Stamp (PDS, метка насала воспроизведения, вставляются в картинку или в звуковой кадр, чтобы объяснить декодеру, когда их воспроизводить. Размер PDS сотавляет 33 бита, что обеспечивает возможность представления любого временного цикла длинной до 24 часов).

Параметры MPEG-1 (Утверждены в 1992)

Параметры Аудио: 48, 44.1, 32 КГц, mono, dual (два моно канала), стерео, интенсивное стерео (объединяются сигналы с частотой выше 2000 Гц.), m/s stereo (один канал переносит сумму — другой разницу). Сжатие и скорость передачи звука для одного канала, для частоты 32 КГц представлены в Таблице 3.

Таблица 3

Способ кодирования	Скорость передачи kbps (килобит в сек.)	Коэффициент сжатия
Layer I	192	1:4
Layer II	128..96	1:6..8
Layer III	64..56	1:10..12

Параметры Видео: в принципе с помощью MPEG-1 можно передавать разрешение вплоть до 4095x4095x60 fps (в этих границах кадр может быть произвольного размера), но так как существует Constrained Parameters Bitstream (CPB, неизменяемые параметры потока данных; другие стандарты для MPEG-1 поддерживаются далеко не всеми декодерами) которые ограничивают общее число макроблоков в картинке (396 для скорости

портал образовательных ресурсов

Содержание

Гринько В. ПИб-31

Начало

Группа специалистов международной организации по стандартизации (ISO) в 1998 г. приступила к разработке международных стандартов кодирования и сжатия видео- и аудиоинформации. Официальное наименование этой группе было дано совершенно невоспроизводимое — ISO/IECJTC1 SC29 WG11. Впоследствии она стала известна как «Экспертная группа по кинематографии» (Moving Picture Expert Group), а аббревиатура MPEG, образованная от английского варианта обиходного названия этой группы, давно уже используется как обозначение разработанных ею норм и стандартов.

В основу правил сжатия видеоданных была заложена идея поиска и устранения избыточной информации, не влияющей на конечное восприятие качества изображения. В первую очередь, был учтен «человеческий фактор» — психофизиологическая модель восприятия человеком видеоизображений (HVS — Human Visual Sense); в частности, тот факт, что градации яркости воспринимаются зрительным аппаратом человека значительно тоньше, чем градации цвета. Это означает, что цветовую информацию можно «загрубить» по сравнению с яркостной, при этом в субъективном восприятии качество изображения не ухудшится. То есть первоочередным направлением в построении алгоритмов всех стандартов MPEG становится отыскание и устранение информации, избыточной с точки зрения субъективного восприятия.

Семейство MPEG

Группа MPEG стандартизовала следующие стандарты сжатия и вспомогательные стандарты:

MPEG-1: Исходный стандарт видео и аудио компрессии. Позднее использовался как \стандарт для Video CD; включает в себя Layer 2 формат аудио сжатия.

MPEG-2: Транспортные, видео и аудио стандарты для широковещательного телевидения. Используется в цифровом телевидении ATSC, DVB и ISDB, цифровых спутниковых ТВ службах, таких, как Dish Network, цифровом
кабельном телевидении, и (с небольшими изменениями) в DVD.

MPEG-3: Изначально разрабатывался для HDTV, но от него отказались, когда обнаружилось, что MPEG-2
(с расширениями) вполне достаточно для HDTV. (Не следует путать MPEG-3 с MP3, который на самом деле является MPEG-1 Layer 3.)

MPEG-4: Расширяет MPEG-1 для поддержки видео/аудио «объектов», 3D контента, сжатия с низким
битрейтом и DRM. В него включено несколько новых высокоэффективных видео
стандартов (альтернатив MPEG-2), таких, как:

MPEG-4 Part 2 (ASP) и

MPEG-4 Part 10 (или AVC, или H.264). MPEG-4 Part 10 используется в HD DVD и Blu-Ray дисках.

В дополнение к вышеупомянутым существуют стандарты, которые являются не усовершенствованием предыдущих
стандартов сжатия, а определяют различные языки описания:

MPEG-7: Стандарт индексации мультимедиа-содержимого.

MPEG-21: MPEG описывает стандарт как мультимедийная среда разработки.

Moving Picture Experts Group made MPEG

Формат MPEG-1 начал разрабатываться в конце 80-х когда была эпоха 286 и 386 процессоров, 4 Мб оперативной памяти и 250 Мб винчестер считались роскошью, а Windows была примочкой для DOS, а не наоборот, а в качестве легко переносимых носителей информации доминировали 5 дюймовые дискеты и только-только появившиеся 3,5» дискеты от фирмы SONY.

В те времена приличный фильм занимал пространство более гигабайта. В эти годы впервые на платформе PC появился такой новый тип носителей информации как CD-ROM диски, которые смогли обеспечить необходимый объем информации. Первые CD-ROM проигрыватели были односкоростными, максимальная скорость пересылки потока данных (bitstream) в формате MPEG-1 ограничена 150 Кб/сек., что соответствует одной скорости CD-ROM.

В самом формате MPEG-1 была заложена возможность сжатия и воспроизведения видеоинформации с разрешением вплоть до 4095х4095 и частотой смены кадров до 60 Гц. Но скорость пересылки потока была ограничена 150 Кб/сек., то есть так называемый Constrained Parameters Bitstream (CPB) — зафиксированная ширина потока передачи данных, разработчики формата, а в дальнейшем и создатели кодеков на его основе, были вынуждены использовать разрешения кадра, оптимизированные под данный CPB. Наиболее широко распространенными являются два таких оптимизированных формата — это формат SIF 352х240, 30 кадров в секунду и урезанный формат PAL/SECAM 352х288, 25 кадров в секунду.

Качество аудиотреков в MPEG-1 может варьироваться в очень больших пределах — от высококачественных до безобразных. Окончательно все форматы сжатия аудиоданных были стандартизированы в 1992 году европейской комиссией по стандартам ISO.

В зависимости от используемого кодера и степени сжатия аудиоинформация видеоролика может быть представлена в следующем виде: моно, dual mono, стерео, интенсивное стерео (стереосигналы, чьи частоты превышают 2 КГц объединяются в моно), m/s стерео (один канал — сумма сигналов, другой — разница) и по частоте дискретизации могут быть: 48, 44.1и 32 КГц.

MPEG-2

Стандарт MPEG-2 получил распространение в цифровых видеодисках DVD, системах компрессии видеоизображений, цифровом телевидении DVB. В случае использования в цифровом телевидении MPEG-2 активно применяется как стандарт, определяющий структуру транспортных потоков и способы передачи данных.

Стандарт содержит несколько подразделов (parts). Например, MPEG-2 part 1 определяет тип контейнера, например, может использоватся Transport Stream, который позволяет корректировать ошибки оборудования, принимающего сигнал. Part 2 — структуру компрессированного изображения (элементарный поток MPEG-2). Стандарт MPEG-2 намеренно не определяет способы компрессии изображения (звука), он лишь указывает, как должно быть оформлено сжатое изображение (звук). Стандарт не определяет, каким образом должен быть реализован кодер или декодер MPEG-2, он определяет только структуру данных. Это даёт возможность участникам рынка конкурировать друг с другом за создание более качественных устройств и алгоритмов.

Использование стандартов MPEG-2 требует уплаты лицензионных отчислений держателям патентов через MPEG Licensing Association. Тексты стандартов MPEG-2 распространяются свободно, но не бесплатно (см. сайт ISO).

Сжатие видео (упрощённо)

MPEG-2 используется для «общего сжатия движущихся изображений и звука» и определяет формат видеопотока, который может быть представлен как три типа кадра — независимо сжатые кадры (I-кадры), кадры, сжатые с использованием предсказания движения в одном направлении (P-кадры) и кадры, сжатые с использованием предсказания движения в двух направлениях (B-кадры). Соответствующие группы кадров от одного I-кадра до другого образуют GOP — Group Of Pictures — группу кадров.

Обычно используются потоки в 30 или 29,97 кадров в секунду.

Для сравнения: в MPEG1 предусматривалось только одно фиксированное значение — 8 бит на элемент. То есть в рамках стандарта MPEG2 имеется возможность гибкой настройки качества изображения в зависимости от пропускной способности сети или емкости носителя (вот почему на первых DVD можно было видеть разное по качеству изображение). Биты на элемент — это понятие, знакомое компьютерным «юзерам». В то же время, пользователи таких аппаратов, как DVD- или HD-рекордеры, использующих MPEG2-компрессию, знают, как можно самим задавать уровень качества записи (HQ, SP, LP и т.д.), меняя таким образом объем записанного материала. Эта гибкость, в частности, и сделала MPEG2 основой для приема/передачи цифрового телевидения по различным цифровым сетям.

В результате для фильмов, созданных в стандартах PAL и SECAM, поддерживается разрешение 720х576 при 25 кадрах в секунду при качестве, практически не уступающем вещательному. Собственно, MPEG-фильм нельзя отнести к какой-либо системе цветного телевидения, так как кадры в MPEG являются просто картинками и не имеют прямого отношения к исходной для фильма системе телевидения; речь может идти о соответствии размера и частоты следования кадров. В части аудио в MPEG2, по сравнению с MPEG1, добавлена поддержка многоканального звука(Dolby Digital 5.1, DTS и т.п.)

MPEG3

Прежде всего, не следует смешивать с широкоизвестным форматом компрессии звука МР3, о котором речь пойдет ниже. Стандарт MPEG3 первоначально разрабатывался для использования в системах телевидения высокой четкости (High Definition Television, HDTV) со скоростью потока данных 20-40 Мбит/с. Но еще в процессе разработки стало ясно, что параметры, требуемые для передачи HDTV, вполне обеспечиваются использованием стандарта MPEG2 при увеличенной скорости цифрового потока. Другими словами, острой нужды в существовании отдельного стандарта для HDTV нет. Таким образом, MPEG3, еще не родившись, стал фактически составной частью стандарта MPEG2 и отдельно теперь даже не упоминается.

MPEG4

В новом стандарте MPEG4, появившемся в самом конце 1999 г., предложен более широкий взгляд на медиа-реальность. Стандарт задает принципы работы с контентом (цифровым представлением медиа-данных) для трех областей: собственно интерактивного мультимедиа (включая продукты, распространяемые на оптических дисках и через Интернет), графических приложений (синтетического контента) и цифрового телевидения (DTV). Фактически данный стандарт задает правила организации среды, причем среды объектно ориентированной. Он имеет дело не просто с потоками и массивами медиа-данных, а с медиа-объектами (ключевое понятие стандарта). В MPEG4 определен двоичный язык описания объектов, классов и сцен BIFS, который разработчики характеризуют как «расширение С++». Помимо работы с аудио- и видеоданными, стандарт позволяет работать с естественными и синтезированными компьютером 2D- и 3D-объектами, производить привязку их взаимного расположения и синхронизацию друг относительно друга, а также указывает их интерактивное взаимодействие с пользователем. Картинка разделяется на составные элементы — медиа-обьекты, описывается структура этих объектов и их взаимосвязи, чтобы затем собрать их в единую видеозвуковую сцену. Результирующая сцена составляется из медиа-объектов, объединенных в иерархическую структуру:

а) неподвижные картинки (например, фон); б) видеообъекты (например, говорящий человек); в) аудиообъекты (голос, связанный с этим человеком); г) текст, связанный с этой сценой; д) синтетические объекты, которых не было изначально в описываемой сцене, но которые туда добавляются при демонстрации конечному пользователю (например, синтезируется говорящая голова); е) текст (например, связанный с головой), из которого в конце синтезируется голос.

Такой способ представления данных позволяет изменить результирующую сцену, обеспечивая высокий уровень интерактивности для конечного пользователя и предоставляя ему целый ряд возможностей, например: перемещать и помещать объекты в любое место сцены, трансформировать объекты, изменять их форму и геометрические размеры, собирать из отдельных объектов составной объект и производить над ним какие-либо операции, менять текстуру и цвет объекта, манипулировать им (заставить, к примеру, стол передвигаться в пространстве), менять точку наблюдения за всей сценой.

Особое внимание уделим довольно узкой области приложения стандарта MPEG4 — сжатию видеоматериалов, поскольку именно эта область, скорее всего, на практике хорошо известна значительному числу пользователей-зрителей по аббревиатуре MР4 (так условно обозначают фильмы, сжатые кодером по стандарту MPEG4). Алгоритм компрессии видео, в принципе, работает по той же схеме, что и в предыдущих стандартах, но есть несколько радикальных нововведений. В отличие от прежних стандартов, которые делили кадр на квадратные блоки вне зависимости от содержимого, новый кодер оперирует целыми объектами произвольной формы. К примеру, человек, двигающийся по комнате, будет восприниматься как отдельный объект, перемещающийся относительно другого неподвижного объекта — заднего плана. Также применен «интеллектуальный» способ расстановки ключевых кадров. Ключевые кадры не расставляются с заданной регулярностью, а выделяются кодером только в те моменты, в которые происходит смена сюжета. Естественно, разветвленные алгоритмы поиска и обработки объектов сложной формы, углубленного анализа последовательностей кадров требуют существенно больших вычислительных ресурсов для качественного восстановления (декомпрессии) изображения этого формата, нежели в случае MPEG1 и -2. К счастью, производительность современных процессоров позволяет обойти это препятствие. В результате усовершенствования эффективности компрессии видео в MPEG4 возросла настолько, что позволяет размещать полнометражный фильм длительностью полтора-два часа с весьма приличным качеством всего на одном стандартом компакт-диске (650 Мб)! Впрочем, не стоит питать иллюзий по поводу рекламируемого «DVD-качества» MPEG4-продукции. Следует помнить, что, сколь совершенным не является кодер, всегда существует ограничение на минимальный размер (поток) сжатого видео. Поэтому фильмы в MPEG4, размещенные даже на двух компакт-дисках (2х650 Мб), все-таки не дотягивают до качества DVD-видео в стандарте MPEG2.

MPEG 7

MPEG 7 и MPEG 21 – форматы будущего В октябре 1996 года группа MPEG приступила к разработке формата сжатия MPEG 7, призванным определить универсальные механизмы описания аудио и видео информации. Этот формат получил название Multimedia Content Description Interface. В отличие от предыдущих форматов сжатия семейства MPEG, MPEG 7 описывает информацию, представленную в любой форме (в том числе в аналоговой) и не зависит от среды передачи данных. Как и его предшественники, формат сжатия MPEG 7 генерирует масштабируемую информацию в рамках одного описания.

Формат сжатия MPEG 7 использует многоуровневую структуру описания аудио и видео информации.

Такая гибкость в выборе методов сжатия значительно снижает объем информации и ускоряет процесс сжатия. Основное преимущество формата сжатия MPEG 7 над его предшественниками состоит в применении уникальных дескрипторов и схем описания, которые, помимо всего прочего, делают возможным автоматическое выделение информации как по общим, так и по семантическим признакам, связанным с восприятием информации человеком. Процедура занесения в каталог и поиска данных находятся вне сферы рассмотрения этого формата сжатия.

MPEG 21

Разработка формата сжатия MPEG 21 — это долговременный проект, который называется «Система мультимедийных средств» (Multimedia Framework). Над разработкой этого формата сжатия эксперты начали работать в июне 2000 г. На первых этапах планировалось провести расширение, унификацию и объединение форматов MPEG 4 и MPEG 7 в единую обобщающую структуру. Подразумевалось, что она будет обеспечивать глубокую поддержку управления правами и платежными системами, а также качеством предоставляемых услуг.

Звук в MPEG

Кодирование звука и музыки осуществляется отдельным аудиокодером. По мере развития стандарта MPEG звуковые кодеры также совершенствовались, становясь все эффективнее. В основе повышения эффективности — та же идея: сократить объем «второстепенной» для слушателя аудиоинформации. В результате в составе стандарта MPEG1 было создано семейство из трех звуковых кодеров, названных «слоями»: Layer I, Layer II, Layer III. Все они, подобно видеокодерам, построены на несовершенстве «человеческого фактора»: психоакустическая модель здесь эксплуатирует несовершенства слухового аппарата человека. По мнению ученых, в несжатом звуке передается много избыточной информации. Избыточной в том смысле, что человеческое ухо ее все равно не воспринимает. Большой эффект для сжатия дает, например, явление маскирования некоторых звуков. В частности, если сначала подать громкий звук на частоте 1000 Гц, то более тихий звук на частоте 1100 Гц уже не будет фиксироваться слухом. В модели используется и явление ослабления чувствительности человеческого уха на период в 5 мс — до и 100 мс — после возникновения сильного звука. Существуют похожие временные эффекты маскирования; известны и более сложные взаимодействия, когда временный эффект может выделить конкретную частоту или, наоборот, подавить. Психоакустическая модель — как свод правил — разбивает весь спектр на блоки, в которых уровень звука считается близким. Затем удаляет звуки, формально не воспринимаемые человеком в соответствии с описанными выше эффектами. Потом следует процедура «упаковки» методами, напоминающими по принципу компьютерные архиваторы (опять же — с устранением избыточности), и, наконец, формируется цифровой информационный поток. Идеология сжатия всех «слоев» сходна, разница — в методах и в математике.

Первый «слой» (Layer I) был рассчитан на поток скоростью 192 кбит/с на канал. Алгоритм его в целом похож на систему сжатия звука ATRAC, которая реализована на мини-дисках Sony. Разновидность Layer I используется и в устройствах записи цифровых компакт-кассет DCC. Разновидность Layer II, предназначенная для потоков до 128 кбит/с на канал, была разработана как компромисс между качеством звука, величиной потока и сложностью кодера. В нем были, в первую очередь, усовершенствованы гребенчатые фильтры. Этот «слой» весьма сходен с известным аудиостандартом MUSICAM. Наибольшее применение Layer II нашел в сетях цифрового радиовещания DAB (Digital Audio Broadcasting).

И, наконец, Layer III исходно был рассчитан на низкоскоростные сети с потоком до 64 кбит/с на канал. Благодаря усилиям до того малоизвестного немецкого института информационных технологий имени Фраунгофера (IIS Fraunhofer) в 1998 г. был сделан почти революционный прорыв. Усовершенствование математики в части алгоритма преобразования Фурье и механизмов упаковки спектральных коэффициентов позволило сохранить «CD-качество» звука при низкой скорости потока. Естественно, такое достижение потребовало больших вычислительных ресурсов, но производительности современных компьютеров к тому времени уже хватало и на это. В результате появился формат сжатия аудиоинформации МР3 (полное его название — MPEG Audio Layer III), который начал вполне самостоятельную жизнь. Тот же институт Фраунгофера выпустил первый аппаратный кодер, работающий в реальном времени. За этим шагом последовали другие (МР3-Pro). Сегодня миниатюрные МР3-плейеры и диктофоны с флэш-картами разных мастей знакомы многим. Любой пользователь Интернета знает о распространении сжатого звука через сеть, знает о серверах, «набитых» музыкой в формате МР3. Естественно, вслед за удачным решением массовому потребителю уже предложены форматы-конкуренты, в частности, WMA от Microsoft, ААС (как «продвинутый» Dolby Digital АС-3)… Здесь уместно упомянуть и технологию Meridian Lossless Packing (MLP), которая, напротив, используется в аудиофильских записях DVD-Audio — но это предмет, достойный отдельного разговора.