Форматы: каким бывает цифровой звук. Отличия аналогового звука от цифрового Что влияет на цифровой звук

Аудиодиски постепенно уходят в историю. Нет, конечно, они еще продаются в магазинах, но слушают и покупают их все меньше и меньше. Многие просто не видят в этом смысла, ведь даже если рассматривать легальный способ получения аудиофайлов, то одна песня в формате MP3 в музыкальном Интернет-магазине стоит гораздо дешевле одной песни, записанной на аудиодиск. Возникает резонный вопрос: зачем платить больше?

Конечно же, качество звука аудио CD гораздо выше, чем любого аудиофайла, где данные сжимаются, однако, для поразительного большинства людей эта разница некритична. Да что там! В наши дни даже самые большие меломаны задумываются о том, чтобы перевести свою коллекцию аудио CD в аудиофайлы, ведь вполне может наступить момент, когда спрос на диски будет настолько низкий, что проигрыватели аудио CD просто перестанут выпускать.

В этой статье мы рассмотрим некоторые программы для снятия данных с аудио CD и преобразования их в MP3 и другие форматы. Но сначала немного теории.

Компрессия звука и популярные аудиоформаты

Компрессия данных подразумевает анализ и упрощение записываемой информации, в результате которых на лазерный носитель можно записать больше аудиоданных, чем это возможно при записи аудио CD.

Чтобы было понятнее что такое компрессия данных, представьте себе, что вы должны пересказать содержимое листка бумаги на котором тысячу раз написана буква А своему другу по телефону. Вы можете просто тысячу раз произнести вслух «А» и ваш собеседник будет в курсе того, что же записано на листе. С другой стороны, вы можете предварительно подсчитать, сколько раз написана эта буква, после чего сообщить товарищу, что на листке тысяча раз записана буква «А». Результат будет тем же самым - ваш друг узнает содержание листа бумаги, но времени на передачу информации во втором случае у вас уйдет намного меньше. Иными словами вы провели компрессию данных, проанализировав сколько раз повторяется буква.

Сжатие цифрового аудио происходит приблизительно по такому же сценарию. Однако компрессия аудио данных имеет ряд особенностей. Так, например, для того чтобы вы узнали знакомую мелодию, достаточно проиграть ее в худшем качестве. При этом следует иметь в виду, что многие вкладывают в понятие «качественный звук» совершенно разные вещи. Так, например, если музыканту музыкальная запись режет слух из-за того, что щипок струны не был в строго определенной тональности, то простой обыватель может мириться и с гораздо более серьезными недостатками.

Эта особенность человеческого восприятия звука послужила толчком к созданию новых аудиоформатов, которые используют модель сжатия аудиоданных с потерей качества. Ухудшение звучания для большинства меломанов некритично, а в некоторых случаях, качеством и вовсе неважно, например, в паузах тишины, когда аудиоданные не представляют никакой ценности или в тех частотах, которые не воспринимает человеческое ухо.

Существует огромное количество форматов записи цифрового аудио. Их отличие в том, что они используют разные алгоритмы сжатия. Самые популярные на сегодняшний день форматы - это:

WMA (Windows Media Audio) - формат, разрабатываемый корпорацией Microsoft. Этот формат был создан на основе популярного в прошлом формата VQF, который сегодня уже почти забыт.
OGG Vorbis - бесплатный формат с открытыми кодами. В последнее время стал популярен настолько, что поддерживается производителями некоторых портативных проигрывателей.
MP3 (MPEG Layer III) - самый популярный формат, удерживающий лидирующие позиции уже в течение многих лет.

Особенности формата MP3

Привычное название MP3 - это сокращение от MPEG Layer III. MPEG, в свою очередь, расшифровывается как Moving Picture Coding Experts Group (Группа экспертов по кодированию движущихся изображений). Формат MP3 был разработан немецким институтом Фраунгофера в начале 90-х годов прошлого столетия. По-настоящему популярным формат стал после того, как им заинтересовалась компания Thomson.

Благодаря алгоритму сжатия, который использует формат MP3, аудиоданные можно сжимать в десять-двенадцать раз без заметных потерь в качестве. Высокая степень сжатия достигается благодаря тому, что MP3 использует особенности человеческого слуха. Человеческое ухо воспринимает звук в пределах диапазона от 20 Гц до 20 КГц, поэтому все звуки, которые не входят в этот диапазон, просто отбрасываются. Это значительно уменьшает объем данных.

Еще одна особенность MP3, благодаря которой можно получить аудиофайл меньшего размера, связана со стереозвуком и опять же, с особенностями человеческого слуха. Когда мы слушаем музыкальную композицию, записанную в стереорежиме, мы слышим основную разницу на средних частотах. Благодаря этой особенности к кодированию звука можно применить алгоритм сжатия, который бы кодировал отдельно для каждого канала только тот спектр частот, в котором наиболее слышна разница между каналами. А звук на тех частотах стереоканалов, на которых разница менее заметна, совмещается и кодируется в монорежиме. Такой совмещенный режим кодирования стереосигнала называется Joint Stereo.

Характеристики цифрового звука

При сжатии аудиоданных возникает необходимость управлять качеством оцифрованного звука. Так, например, если нужно оцифровать аудиокнигу, то высокое качество в этом случае не нужно. Главное - чтобы можно было разобрать слова. Если же оцифровывается музыкальное произведение, качество имеет большое значение.
Независимо от того, какой алгоритм сжатия звука используется, параметры, характеризующие качество звучания, одни и те же.

Одна из главных характеристик цифрового звука - это битрейт . Битрейтом называют скорость кодирования/раскодирования цифрового аудиопотока. Чем выше его значение, тем лучше качество звука и больше - размер файла. Нужно сказать, что битрейт является относительной величиной. Файлы, созданные с использованием разных алгоритмов сжатия и имеющие одинаковый битрейт, будут отличаться по качеству.

Кодирование можно производить с постоянным или переменным значением битрейта. Метод кодирования с переменным битрейтом дает возможность изменять качество аудиосигнала "на лету", то есть, в процессе проигрывания. Если программа определяет, что имеет дело со сложным звуковым потоком (например, звуками симфонического оркестра), качество возрастает, если же звук простой (к примеру, когда между композициями воцаряется пауза), качество автоматически ухудшается. Благодаря этому размер файла уменьшается.

Кодирование звука происходит с определенной частотой дискретизации . В процессе обработки аудиосигнал разделяется на большое количество частей (сэмплов), каждая из которых обрабатывается алгоритмом сжатия. Точность обработки сигнала и определяется частотой дискретизации, которая измеряется в килогерцах. В зависимости от количества сэмплов, приходящихся на единицу времени, различают такую характеристику звука, как разрядность. Нетрудно догадаться, что чем больше сэмплов обрабатывается, тем выше качество звука.

К звуковому сигналу, поступающему на аналогово-цифровой преобразователь (звуковую карту) применяется двойная дискретизация – по амплитуде и по времени.
Для математического описания формы сигнала используется теорема Котельникова, согласно которой любой непрерывный процесс с ограниченным спектром может быть представлен дискретной последовательностью его мгновенных значений. Частота такой последовательности должна как минимум вдвое превышать частоту наивысшей гармоники процесса. Частота, с которой берется выборка мгновенных значений (отсчетов) сигнала, называется частотой дискретизации.

Любое отклонение формы сигнала, поступающего на вход звуковой карты, от правильной формы синусоиды приводит к выходу спектра за пределы собственной частоты сигнала. Поэтому при дискретизации звукового сигнала по времени ограничиваются частоты входящего импульса ниже одной второй от частоты дискретизации, или берется спектр с избытком частоты. Вследствие того, что человеческое ухо может различать звуковые колебания с частотой до 20 кГц, получается, что частота дискретизации любого звукового сигнала должна быть не менее 40 кГц. Поэтому на практике можно встретить звуковые устройства с частотами дискретизации 44,1 кГц, 48 кГц и 96 кГц.

Для амплитудной дискретизации звука, например, на лазерном диске используется уровень квантования 2 в шестнадцатой степени (65536). Представление чисел от 0 до 2^16 необходимо 16 бит информации, поэтому удобнее использовать термин 16-битной разрядности сигнала. Разрядность звука зависит от динамического диапазона входного сигнала и допустимых шумов квантования.

Квантование по амплитуде и времени является причиной звуковых искажений по всей полосе частот, к которым прибавляются шумы и помехи звукового тракта аудиокарты.

Еще одна важная характеристика цифрового звука - это стереозвучание. Поэтому если звук записывается не в моно, а в стереоформате, количество аудиоданных удваивается, и, соответственно, увеличивается размер выходного файла.

Копирование музыки с аудиодисков при помощи Windows Media Player

Возможность копирования аудиоданных уже встроена в WindowsXP. Для того чтобы скопировать аудиоданные с помощью Windows Media Player, вставьте в привод для чтения дисков аудиодиск, запустите проигрыватель и нажмите кнопку "Копировать с диска" в верхней части окна программы. В окне проигрывателя отобразится содержимое вашего аудионосителя в виде отдельных треков. Напротив каждого из них установлен флажок. Это означает, что будут скопированы все композиции. Если вы не хотите копировать ту или иную песню, снимите флажок напротив ее названия.

По умолчанию в настройках программы установлено не очень высокое качество сжатия аудиоданных, поэтому если вы - поклонник качественного звука, необходимо изменить битрейт создаваемого файла. Для этого выполните команду "Сервис>Параметры" и в открывшемся окне перейдите на вкладку "Koпиpoвaние музыки с компакт-диска". Величина битрейта устанавливается ползунком "Kaчecтвo звука", причем крайнему правому положению соответствует максимальный размер выходного файла и соответственно наилучшее звучание.

Одна из особенностей стандартного проигрывателя - возможность защиты аудиофайлов от прослушивания на другом компьютере. Если вы желаете, чтобы созданные программой файлы WMA можно было проиграть только на этом компьютере, проверьте, установлен ли флажок напротив опции "Музыка с защитой от копирования".

Для начала копирования нажмите кнопку "Копировать музыку с компакт-диска" в верхней части окна программы. На экране появится окно, в котором вы сможете включить или отключить защиту содержимого, установив соответствующий флажок. Перед началом копирования вы также сможете изменить настройки копирования, если это необходимо.

За процессом сжатия можно наблюдать в столбце "Cocтoяниe кoпиpoвaния с компакт-диска". Как только операция по переносу трека на жесткий диск будет завершена, напротив копируемой композиции появится надпись "Скопированы в библиотеку".

Несмотря на кажущееся удобство рассмотренного способа копирования аудиоданных, во многих случаях использовать его неудобно. Во-первых, формат WMA поддерживается далеко не всеми портативными MP3-устройствами, во-вторых, на кодирование в этот формат уходит больше времени, если сравнивать с другими форматами. Наконец, при использовании Windows Media Player нет возможности гибко управлять настройками сжатия.

Одним словом, если вы приобрели MP3 плеер и планируете регулярно пополнять свою цифровую фонотеку, копируя данные с аудиодисков, необходимо позаботиться о том, чтобы под рукой был качественный и многофункциональный звуковой кодер. Некоторые из таких программ мы рассмотрим во второй части статьи.

Звук – волна с непрерывно изменяющейся амплитудой и частотой.Чем больше амплитуда, тем он громче для человека, чем больше частота, тем выше тон.

Цифровой звук – это аналоговый звуковой сигнал, представленный посредством дискретных численных значений его амплитуды.

В основе кодирования звука с использованием компьютеров лежит процесс преобразования колебаний воздуха в колебания электрического тока и последующая дискретизация аналогового электрического сигнала.

Кодирование и воспроизведение звуковой информации осуществляется с помощью специальных программ (редакторы звукозаписи).

Качество воспроизведения закодированного звука зависит от частоты дискретизации и её разрешения.

Оцифровка звука - (или аналогово-цифровое преобразование) - технология преобразования аналогового звукового сигнала в цифровой вид, которая осуществляется путем замеров амплитуды сигнала с определенным временным шагом и последующей записи полученных значений в численном виде.

Оцифровка звука включает в себя два процесса:

процесс дискретизации (осуществление выборки сигнала по времени);

процесс квантования по амплитуде.

Процесс дискретизации по времени - процесс получения значений сигнала, который преобразуется с определенным временным шагом -шагом дискретизации .

Количество замеров величины сигнала, осуществляемых в одну секунду, называют частотой дискретизации иличастотой выборки , иличастотой семплирования (от англ. « ampling» - «выборка»).

Чем меньше шаг дискретизации, тем выше частота дискретизации и тем более точное представление о сигнале нами будет получено.

Процесс квантования по амплитуде - процесс замены реальных значений амплитуды сигнала значениями, приближенными с некоторой точностью.

Квантование – дискретизация по уровню.

Принимается, что погрешности квантования, являющиеся результатом квантования с разрядностью 16 бит, остаются для слушателя почти незаметными.

Каждый из 2 N возможных уровней называетсяуровнем квантования , а расстояние между двумя ближайшими уровнями квантования называетсяшагом квантования .

Число N называют разрядностью квантования , а полученные в результате округления значений амплитуды числа -отсчетами илисемплами (от англ. « sample» - «замер»).

Погрешности квантования, являющиеся результатом квантования с разрядностью 16 бит, остаются для слушателя почти незаметными.

Оцифровка звука – итог:

Плюсы: можно закодировать любой звук (в т.ч. голос, свист, шорох, …)

Минусы: есть потеря информации, большой объем файлов

Основные параметры, влияющие на качество звука:

1. Разрядность - размерность (количество бит информации кодируемое/декодируемое при АЦП и ЦАП).

2. Частота дискретизации - частота взятия отсчетов непрерывного во времени сигнала при его дискретизации (АЦП), измеряется в Герцах.

3. Шум - нежелательные фазовые и/или частотные случайные отклонения передаваемого сигнала

Форматы звуковых файлов

WAV (Waveform audio format ), часто без сжатия (размер!)

MP 3 (MPEG -1 Audio Layer 3 , сжатие с учётом восприятия человеком)

AAC (Advanced Audio Coding , 48 каналов, сжатие)

WMA (Windows Media Audio, потоковый звук, сжатие)

OGG (Ogg Vorbis, открытый формат, сжатие)

От чего будет зависеть качество оцифрованного звука?

Для качества цифрового звука существенны две вещи: качество исходной фонограммы и качество аналого-цифрового преобразователя.

С качеством исходной фонограммы вс примерно понятно. Если она кривая (с искажениями) или шумная, то никакая оцифровка е не улучшит. Ну то есть можно, путм разных обработок, в том числе и цифровых, выделить полезный сигнал, что и применяется при выделении речи на фоне внешних шумов или при выделении регулярного сигнала на фоне случайного шума (фильмы про шпинов все смотрели, да?), но если речь о музыкальной фонограмме, то есть фонограмме с широким спектром, то тут уже всякие ухищрения не помогут.

Так что будем исходить из того, что фонограмма качественная.

Тогда остатся АЦП.

Основной показатель тут - разрядность кодирования. Ясен пень, что чем она больше - тем лучше, но с другой стороны - тем сложнее и дороже такой преобразователь. На заре цифровых технологий (что не так давно и было...) оптимальным по соотношению цена/качество была признана 16-разрядная конечная запись. При меньшей разрядности страдает динамический диапазон цифровой копии фонограммы - на звуки низкого уровня (пианиссимо) приходится лишь малая часть всех разрядов, а значит - становится заметным ступенчатый характер изменения сигнала. И фильтрация по НЧ тут уже не сильно поможет (упоминания теоремы Котельникова приветствуются, но не надо забывать, что в ней молчаливо предполагается идеальное аналого-цифровое преобразование, то есть с бесконечно большой разрядностью). Поскольку всякая обработка, даже в цифровом виде, может только уменьшать эффективную разрядность, оцифровка на студиях велась и ведтся по сей день с бльшим числом разрядов.

Сейчас уже не редкость цифровые фонограммы, которые готовятся с разрядностью 24 бита (super-Audio CD, Audio-DVD). При такой разрядности удатся полностью передать динамический диапазон любого музыклального произведения, даже Болеро Равеля, которое начинается с едва слышной партии малых барабанов, а заканчивается фортиссимо всего оркестра.

Ну вот. Помимо разрядности, важное значение имеют и другие параметры АЦП, в первую очередь нелинейность и шумы. Особенно шумы. Потому что они ограничивают эффективную разрядность преобразователя. Толку от этих 24 разрядов, если последние 8 из них шумят и поэтому не несут никакой полезной информации... Уровень шума современных 24-разрядных АЦП может достигать -115 дБ при частоте выборок выше 100 кГц, это уже вполне приличный, а дифференциальная нелинейность измеряется десятитысячными долями процента. То есть такие решения запросто перекрывают возможности человеческого уха.

Оно будет зависеть от трех основных параметров:
1. Частота дискретизации (sampling rate). Она ограничивает полосу передаваемых частот: максимальная частота передаваемого сигнала ниже половины частоты дискретизации. В телефонии чаще всего применяется частота дискретизации 8 кГц, что дает теоретическую полосу немного уже 4 кГц (практически используют полосу 300-3000 Гц). А в стандарте компакт-диска используется частота 44,1 кГц, что дает возможность полностью передать спектр 20 Гц - 20 кГц. Повышение частоты дискретизации сверх этих значений не имеет смысла с точки зрения диапазона передаваемых частот, но снижает уровень интермодуляционных искажений. В стандарте DVD Audio максимальная частота дискретизации составляет 192 кГц, такую частоту дискретизации поддерживают и некоторые хорошие аудиоплаты для компьютеров (при этом полоса воспроизводимых и записываемых частот отличается от модели к модели). Другие стандартные значения -- 96, 48, 32, 22,05, 11,025 кГц.
2. Разрядность кодирования. От нее зависит динамический диапазон -- при линейном кодировании разница между полным размахом и минимальной ступенькой составляет для 8 бит 256 раз, а для 16 бит -- 65536 раз, что составляет, соответственно, 48 и 96 дБ. 48 дБ -- откровенно мало, это уровень динамического диапазона компакт-кассеты, и к тому же, кроме узкого динамического диапазона возникают неприятные искажения, особенно хорошо слышные в тихих местах -- следствие превращения гладкого сигнала в ступенчатый. При разрядности 16 бит качество звучания получается уже вполне хорошее (такую разрядность использует компакт-диск), но не идеальное во многих реальных случаях -- многие классические произведения, а также тяжелая музыка требуют большего ДД. В высококачественных системах используют 24-разрядное кодирование, хотя реальное число значащих бит не превышает 18-20. Смысла в дальнейшем наращивании разрядности нет.
3. Способ кодирования. Здесь есть две стороны. Первая -- это собственно шкала дискретизации. Она обычно линейная, но может быть и логарифмической. Это дает увеличение динамического диапазона при той же разрядности, но уровень искажений при этом выше, чем при том же динамическом диапазоне с линейной шкалой и большей разрядностью. Вторая -- это применение всевозможных алгоритмов сжатия с потерями. В связи с последними появляется понятие битрейт. Последний -- это количество бит, необходимых для кодирования одной секунды звука. Естественно, битрейт зависит от частоты дискретизации и разрядности, но также и от степени сжатия. Сжатие может быть с потерями и без них. Сжатие без потерь -- это по сути обычная архивация и на звук она не влияет. А с потерями -- на то они и потери. Кодер анализирует звуковую информацию и выбрасывает данные, руководствуясь психоакустическими соображениями: потеря чего будет меньше всего слышна. То есть слабый звук на фоне сильного, слабые высокочастотные звуки на фоне сильных среднечастотных, и так далее. На средних и высоких частотах может отбрасываться фазовая информация. В результате при сжатии записи с качеством компакт-диска в 4,5 раза (битрейт 320 kbps, mp3/Lame) воспринимаемое на слух ухудшение записи настолько незначительно, что не имея хорошей аппаратуры, разницу уловить очень сложно. А при битрейте 128 ухудшение качества звука уже очевидно и многие записи звучат просто неприятно. Но с пластмассовыми колоночками или встроенными в ноутбук динамиками и этой разницы не услышишь.

Очень часто мы слышим такие определения, как «цифровой» или «дискретный» сигнал, в чем его отличие от «аналогового»?

Суть различия в том, что аналоговый сигнал непрерывный во времени (голубая линия), в то время как цифровой сигнал состоит из ограниченного набора координат (красные точки). Если все сводить к координатам, то любой отрезок аналогового сигнала состоит из бесконечного количества координат.

У цифрового сигнала координаты по горизонтальной оси расположены через равные промежутки времени, в соответствии с частотой дискретизации. В распространенном формате Audio-CD это 44100 точек в секунду. По вертикали точность высоты координаты соответствует разрядности цифрового сигнала, для 8 бит это 256 уровней, для 16 бит = 65536 и для 24 бит = 16777216 уровней. Чем выше разрядность (количество уровней), тем ближе координаты по вертикали к исходной волне.

Аналоговыми источниками являются: винил и аудиокассеты. Цифровыми источниками являются: CD-Audio, DVD-Audio, SA-CD (DSD) и файлы в WAVE и DSD форматах (включая производные APE, Flac, Mp3, Ogg и т.п.).

Преимущества и недостатки аналогового сигнала

Преимуществом аналогового сигнала является то, что именно в аналоговом виде мы воспринимаем звук своими ушами. И хотя наша слуховая система переводит воспринимаемый звуковой поток в цифровой вид и передает в таком виде в мозг, наука и техника пока не дошла до возможности именно в таком виде подключать плееры и другие источники звука напрямик. Подобные исследования сейчас активно ведутся для людей с ограниченными возможностями, а мы наслаждаемся исключительно аналоговым звуком.

Недостатком аналогового сигнала являются возможности по хранению, передаче и тиражированию сигнала. При записи на магнитную ленту или винил, качество сигнала будет зависеть от свойств ленты или винила. Со временем лента размагничивается и качество записанного сигнала ухудшается. Каждое считывание постепенно разрушает носитель, а перезапись вносит дополнительные искажения, где дополнительные отклонения добавляет следующий носитель (лента или винил), устройства считывания, записи и передачи сигнала.

Делать копию аналогового сигнала, это все равно, что для копирования фотографии ее еще раз сфотографировать.

Преимущества и недостатки цифрового сигнала

К преимуществам цифрового сигнала относится точность при копировании и передачи звукового потока, где оригинал ничем не отличается от копии.

Основным недостатком можно считать то, что сигнал в цифровом виде является промежуточной стадией и точность конечного аналогового сигнала будет зависеть от того, насколько подробно и точно будет описана координатами звуковая волна. Вполне логично, что чем больше будет точек и чем точнее будут координаты, тем более точной будет волна. Но до сих пор нет единого мнения, какое количество координат и точность данных является достаточным для того, что бы сказать, что цифровое представление сигнала достаточно для точного восстановления аналогового сигнала, неотличимого от оригинала нашими ушами.

Если оперировать объемами данных, то вместимость обычной аналоговой аудиокассеты составляет всего около 700-1,1 Мб, в то время как обычный компакт диск вмещает 700 Мб. Это дает представление о необходимости носителей большой емкости. И это рождает отдельную войну компромиссов с разными требованиями по количеству описывающих точек и по точности координат.

На сегодняшний день считается вполне достаточным представление звуковой волны с частотой дискретизации 44,1 кГц и разрядности 16 бит. При частоте дискретизации 44,1 кГц можно восстановить сигнал с частотой до 22 кГц. Как показывают психоакустические исследования, дальнейшее повышение частоты дискретизации мало заметно, а вот повышение разрядности дает субъективное улучшение.

Как ЦАП строят волну

ЦАП – это цифро-аналоговый преобразователь, элемент, переводящий цифровой звук в аналоговый. Мы рассмотрим поверхностно основные принципы. Если по комментариям будет виден интерес более подробно рассмотреть ряд моментов, то будет выпущен отдельный материал.

Мультибитные ЦАП

Очень часто волну представляют в виде ступенек, что обусловлено архитектурой первого поколения мультибитных ЦАП R-2R, работающих аналогично переключателю из реле.

На вход ЦАП поступает значение очередной координаты по вертикали и в каждый свой такт он переключает уровень тока (напряжения) на соответствующий уровень до следующего изменения.

Хотя считается, что ухо человека слышит не выше 20 кГц, и по теории Найквиста можно восстановить сигнал до 22 кГц, остается вопрос качества этого сигнала после восстановления. В области высоких частот форма полученной «ступенчатой» волны обычно далека от оригинальной. Самый простой выход из ситуации – это увеличивать частоту дискретизации при записи, но это приводит к существенному и нежелательному росту объема файла.

Альтернативный вариант – искусственно увеличить частоту дискретизации при воспроизведении в ЦАП, добавляя промежуточные значения. Т.е. мы представляем путь непрерывной волны (серая пунктирная линия), плавно соединяющий исходные координаты (красные точки) и добавляем промежуточные точки на этой линии (темно фиолетовые).

При увеличении частоты дискретизации обычно необходимо повышать и разрядность, чтобы координаты были ближе к аппроксимированной волне.

Благодаря промежуточным координатам удается уменьшить «ступеньки» и построить волну ближе к оригиналу.

Когда вы видите функцию повышения частоты с 44.1 до 192 кГц в плеере или внешнем ЦАП, то это функция добавления промежуточных координат, а не восстановления или создание звука в области выше 20 кГц.

Изначально это были отдельные SRC микросхемы до ЦАП, которые потом перекочевали непосредственно в сами микросхемы ЦАП. Сегодня можно встретить решения, где к современным ЦАП добавляется такая микросхема, это сделано для того, чтобы обеспечить альтернативу встроенным алгоритмам в ЦАП и порой получить еще более лучший звук (как например это сделано в Hidizs AP100).

Основной отказ в индустрии от мультибитных ЦАП произошел из-за невозможности дальнейшего технологического развития качественных показателей при текущих технологиях производства и более высокой стоимости против «импульсных» ЦАП-ов с сопоставимыми характеристиками. Тем не менее, в Hi-End продуктах предпочтение отдают зачастую старым мультибитным ЦАП-ам, нежели новым решениям с технически более хорошими характеристиками.

Импульсные ЦАП

В конце 70-тых широкое распространение получил альтернативный вариант ЦАП-ов, основанный на «импульсной» архитектуре – «дельта-сигма». Технология импульсных ЦАП-ов стала возможной появлению сверх-быстрых ключей и позволила использовать высокую несущую частоту.

Амплитуда сигнала является средним значением амплитуд импульсов (зеленым показаны импульсы равной амплитуды, а белым итоговая звуковая волна).

Например последовательность в восемь тактов пяти импульсов даст усредненную амплитуду (1+1+1+0+0+1+1+0)/8=0,625. Чем выше несущая частота, тем больше импульсов попадает под сглаживание и получается более точное значение амплитуды. Это позволило представить звуковой поток в однобитном виде с широким динамическим диапазоном.

Усреднение возможно делать обычным аналоговым фильтром и если такой набор импульсов подать напрямую на динамик, то на выходе мы получим звук, а ультра высокие частоты не будут воспроизведены из-за большой инертности излучателя. По этому принципу работают ШИМ усилители в классе D, где плотность энергии импульсов создается не их количеством, а длительностью каждого импульса (что проще в реализации, но невозможно описать простым двоичным кодом).

Мультибитный ЦАП можно представить как принтер, способный наносить цвет пантоновыми красками. Дельта-Сигма – это струйный принтер с ограниченным набором цветов, но благодаря возможности нанесению очень мелких точек (в сравнении с пантовым принтером), за счет разной плотности точек на единицу поверхности дает больше оттенков.

На изображении мы обычно не видим отдельных точек из-за низкой разрешающей способности глаза, а только средний тон. Аналогично и ухо не слышит импульсов по отдельности.

В конечном итоге при текущих технологиях в импульсных ЦАП можно получить волну, близкую к той, что теоретически должна получится при аппроксимации промежуточных координат.

Надо отметить, что после появления дельта-сигма ЦАП исчезла актуальность рисовать «цифровую волну» ступеньками, т.к. так ступеньками волну современные ЦАП не строят. Правильно дискретный сигнал строить точками соединенной плавной линией.

Являются ли идеальными импульсные ЦАП?

Но на практике не все безоблачно, и существует ряд проблем и ограничений.

Т.к. подавляющее количество записей сохранено в многоразрядном сигнале, то перевод в импульсный сигнал по принципу «бит в бит» требует излишне высокую несущую частоту, которую современные ЦАП не поддерживают.

Основной функцией современных импульсных ЦАП является перевод многоразрядного сигнала в однобитный с относительно невысокой несущей частотой с прореживанием данных. В основном именно эти алгоритмы и определяют конечное качество звучания импульсных ЦАП-ов.

Чтобы уменьшить проблему высокой несущей частоты, звуковой поток разбивается на несколько однобитных потоков, где каждый поток отвечает за свою группу разряда, что эквивалентно кратному увеличению несущей частоты от числа потоков. Такие ЦАП называются мультибитными дельта-сигма.

Сегодня импульсные ЦАП-ы получили второе дыхание в быстродействующих микросхемах общего назначения в продуктах компаний NAD и Chord за счет возможности гибко программировать алгоритмы преобразования.

Формат DSD

После широкого распространения дельта-сигма ЦАП-ов вполне логичным было и появления формата записи двоичного кода напрямую дельта-сигма кодировке. Этот формат получил название DSD (Direct Stream Digital).

Широкого распространения формат не получил по нескольким причинам. Редактирование файлов в этом формате оказалось излишне ограниченным: нельзя микшировать потоки, регулировать громкость и применять эквализацию. А это значит, что без потери качества можно лишь архивировать аналоговые записи и производить двухмикрофонную запись живых выступлений без последующей обработки. Одним словом – денег толком не заработать.

В борьбе с пиратством диски формата SA-CD не поддерживались (и не поддерживаются до сих пор) компьютерами, что не позволяет делать их копии. Нет копий – нет широкой аудитории. Воспроизвести DSD аудиоконтент можно было только с отдельного SA-CD проигрывателя с фирменного диска. Если для PCM формата есть стандарт SPDIF для цифровой передачи данных от источника к отдельному ЦАП, то для DSD формата стандарта нет и первые пиратские копии SA-CD дисков были оцифровками с аналоговых выходов SA-CD проигрывателей (хоть ситуация и кажется глупой, но на деле некоторые записи выходили только на SA-CD, либо та же запись на Audio-CD специально была сделана некачественно для продвижения SA-CD).

Переломный момент произошел с выходом игровых приставок SONY, где SA-CD диск до воспроизведения автоматически копировался на жесткий диск приставки. Этим воспользовались поклонники формата DSD. Появление пиратских записей простимулировало рынок на выпуск отдельных ЦАП для воспроизведения DSD потока. Большинство внешних ЦАП с поддержкой DSD на сегодняшний день поддерживает передачу данных по USB используя формат DoP в виде отдельного кодирования цифрового сигнала через SPDIF.

Несущие частоты для DSD сравнительно небольшие, 2.8 и 5.6 МГц, но этот звуковой поток не требует никаких преобразований с прореживанием данных и вполне конкурентно-способен с форматами высокого разрешения, такими как DVD-Audio.

На вопрос что лучше, DSP или PCM однозначного ответа нет. Все упирается в качество реализации конкретного ЦАП и таланта звукорежиссера при записи конечного файла.

Общий вывод

Аналоговый звук – это то, что мы слышим и воспринимаем, как окружающий мир глазами. Цифровой звук, это набор координат, описывающих звуковую волну, и который мы напрямую услышать не можем без преобразования в аналоговый сигнал.

Аналоговый сигнал, записанный напрямую на аудиокассету или винил нельзя без потери качества перезаписать, в то время как волну в цифровом представлении можно копировать бит в бит.

Цифровые форматы записи являются постоянным компромиссом между количеством точностью координат против объема файла и любой цифровой сигнал является лишь приближением к исходному аналоговому сигналу. Однако при этом разный уровень технологий записи и воспроизведения цифрового сигнала и хранения на носителях для аналогового сигнала дают больше преимуществ цифровому представлению сигнала, аналогично цифровой фотокамере против пленочного фотоаппарата.

Звуковая информация. Звук представляет собой распространяющуюся в воздухе, воде или другой среде волну с непрерывно меняющейся интенсивностью и частотой.

Человек воспринимает звуковые волны (колебания воздуха) с помощью слуха в форме звука различных громкости и тона. Чем больше интенсивность звуковой волны, тем громче звук, чем больше частота волны, тем выше тон звука (рис. 1.1).

Рис. 1.1. Зависимость громкости и высоты тона звука от интенсивности и частоты звуковой волны

Человеческое ухо воспринимает звук с частотой от 20 колебаний в секунду (низкий звук) до 20 000 колебаний в секунду (высокий звук).

Человек может воспринимать звук в огромном диапазоне интенсивностей, в котором максимальная интенсивность больше минимальной в 1014 раз (в сто тысяч миллиардов раз). Для измерения громкости звука применяется специальная единица "децибел" (дбл) (табл. 5.1). Уменьшение или увеличение громкости звука на 10 дбл соответствует уменьшению или увеличению интенсивности звука в 10 раз.

Таблица 5.1. Громкость звука
Звук Громкость в децибелах
Нижний предел чувствительности человеческого уха 0
Шорох листьев 10
Разговор 60
Гудок автомобиля 90
Реактивный двигатель 120
Болевой порог 140
Временная дискретизация звука. Для того чтобы компьютер мог обрабатывать звук, непрерывный звуковой сигнал должен быть преобразован в цифровую дискретную форму с помощью временной дискретизации. Непрерывная звуковая волна разбивается на отдельные маленькие временные участки, для каждого такого участка устанавливается определенная величина интенсивности звука.

Таким образом, непрерывная зависимость громкости звука от времени A(t) заменяется на дискретную последовательность уровней громкости. На графике это выглядит как замена гладкой кривой на последовательность "ступенек" (рис. 1.2).

Рис. 1.2. Временная дискретизация звука

Частота дискретизации. Для записи аналогового звука и г го преобразования в цифровую форму используется микрофон, подключенный к звуковой плате. Качество полученного цифрового звука зависит от количества измерений уровня громкости звука в единицу времени, т. е. частоты дискретизации. Чем большее количество измерений производится за I секунду (чем больше частота дискретизации), тем точнее "лесенка" цифрового звукового сигнала повторяет кривую диалогового сигнала.

Частота дискретизации звука - это количество измерений громкости звука за одну секунду.

Частота дискретизации звука может лежать в диапазоне от 8000 до 48 000 измерений громкости звука за одну секунду.

Глубина кодирования звука. Каждой "ступеньке" присваивается определенное значение уровня громкости звука. Уровни громкости звука можно рассматривать как набор возможных состояний N, для кодирования которых необходимо определенное количество информации I, которое называется глубиной кодирования звука.

Глубина кодирования звука - это количество информации, которое необходимо для кодирования дискретных уровней громкости цифрового звука.

Если известна глубина кодирования, то количество уровней громкости цифрового звука можно рассчитать по формуле N = 2I. Пусть глубина кодирования звука составляет 16 битов, тогда количество уровней громкости звука равно:

N = 2I = 216 = 65 536.

В процессе кодирования каждому уровню громкости звука присваивается свой 16-битовый двоичный код, наименьшему уровню звука будет соответствовать код 0000000000000000, а наибольшему - 1111111111111111.

Качество оцифрованного звука. Чем больше частота и глубина дискретизации звука, тем более качественным будет звучание оцифрованного звука. Самое низкое качество оцифрованного звука, соответствующее качеству телефонной связи, получается при частоте дискретизации 8000 раз в секунду, глубине дискретизации 8 битов и записи одной звуковой дорожки (режим "моно"). Самое высокое качество оцифрованного звука, соответствующее качеству аудио-CD, достигается при частоте дискретизации 48 000 раз в секунду, глубине дискретизации 16 битов и записи двух звуковых дорожек (режим "стерео").

Необходимо помнить, что чем выше качество цифрового звука, тем больше информационный объем звукового файла. Можно оценить информационный объем цифрового стереозвукового файла длительностью звучания 1 секунда при среднем качестве звука (16 битов, 24 000 измерений в секунду). Для этого глубину кодирования необходимо умножить на количество измерений в 1 секунду й умножить на 2 (стереозвук):

16 бит × 24 000 × 2 = 768 000 бит = 96 000 байт = 93,75 Кбайт.

Звуковые редакторы. Звуковые редакторы позволяют не только записывать и воспроизводить звук, но и редактировать его. Оцифрованный звук представляется в звуковых редакторах в наглядной форме, поэтому операции копирования, перемещения и удаления частей звуковой дорожки можно легко осуществлять с помощью мыши. Кроме того, можно накладывать звуковые дорожки друг на друга (микшировать звуки) и применять различные акустические эффекты (эхо, воспроизведение в обратном направлении и др.).