Оцифровка информации

Оцифровка информации

Оцифровка — это преобразование исходной информации для записи на современный формат оптического диска. То, что на всех современных форматах оптических дисков информация записана в цифровом виде, сомнений не вызывает.

Но накопленный человечеством банк данных за период осознанного существования до сих пор, в основном, выражен в аналоговой форме. Поэтому оцифровка исходных аналоговых источников информации, например библиотечных собраний книг или музейных экспонатов, есть отдельная серьёзнейшая тема и рассматривать её здесь не будем.

Мы предлагаем понять принципы дискретного, аналого-цифрового преобразования (АЦП) на простейших примерах. Для оцифровки аналогового сигнала специалисты компании L-PRO используют специальное программное приложение Adobe Audition.


Допустим, нам нужно записать некие колебания, назовем их музыкой. Но для нас это будет кривая аналогового сигнала в осях координат, располо-жение которой можно описать, используя численные значения точек отсчёта.
Частоту отсчётов последовательных мгновенных значений аналогового сигнала (выборок) называют частотой дискретизации, а определение численного значения величины выборки называют квантованием. Весь диапазон возможных изменений амплитуды преобразуемого сигнала делится на некоторое множество уровней квантования, количество которых определяет разрядность используемого при этом двоичного числа. Чем больше число разрядов квантования, соответственно,тем меньше расстояние между уровнями квантования (шаг квантования) и тем выше точность преобразования. В процессе квантования за величину выборки (отсчёт) принимается номер ближайшего уровня квантования.
В большинстве ныне существующих звуковых форматов используют 16-разрядное квантование и частоту дискретизации 44,1 кГц.
В процессе считывания необходимо произвести обратное преобразование, то есть цифро-аналоговое, и можно подавать аналоговый сигнал (напряжение) на воспроизводящее устройство, например, на усилитель звуковой частоты. Использование информации в цифровом виде значительно уменьшает вероятность появления различных шумов. АЦП выдаёт последовательность единиц и нулей. Образно поясняя, определить «чёрное это или белое» гораздо проще, чем определять оттенки «серого».

И если в процессе записи или изготовления (в нашем случае компакт-диска), или при считывании «белое слегка посереет или чёрное немного побелеет», то это не страшно, всё равно мы сможем разделить нули и единицы, то есть «чёрное и белое». Важно только, чтобы это изменение было не настолько сильным, чтобы считывающее устройство приняло ноль за единицу («чёрное за белое»).

Однако, не достаточно просто записать на оптический диск аналоговую информацию в цифровой форме, так как при считывании неизбежно возникнут ошибки. Причины ошибок связанны как с дефектами, вызванными технологией производства диска, так и возникшими в процессе его эксплуатации (царапины, грязь и т.д.).
Для обнаружения и исправления ошибок считывания информация записана на диск с применением корректирущих кодов, которые являются основой для работы с разными цифровыми последовательностями.
Существует множество таких кодов. Эти коды отличаются применением дополнительных битов, которые несут информацию для возможности коррекции ошибок считывания.
При записи информации на оптический диск применяют, в часности, так называемый чередующийся код Рида-Соломона (CIRQ).

Его способность обнаруживать и исправлять ошибки основана на двух принципах.
Первый принцип — избыточность.
При записи информации к информационным битам добавляют дополнительные биты, называемые паритетными битами или битами чётности.
При считывании информации декодер обрабатывает каждый блок данных, вычисляет текущие биты чётности и сравнивает их со считанными значениями.
При несовпадении их делается вывод о том, что произошла ошибка считывания и предпринимается попытка её исправить, используя избыточность кода.
Этот принцип может быть пояснён следующим примером:
Блок данных до передачи                                 Блок данных после передачи
1010                                                                         1010
0 111                                                                         0101 ошибку нельзя
10 0 1                                                                       10 01 определить
1011                                                                         1011
С «паритетными» значениями, добавленными к каждой строке, которые позволяют применить принцип «четности 1» в строке:
10100 10100 ошибку можно
0 1111 01011 определить, но
10 0 10 10 010 нельзя исправить
10111 10111
С «паритетными» значениями, добавленными к каждым строке и столбцу, которые позволяют применить принцип «чётности 1» в строке и в столбце:
10 10 0                                                                    1010 0 ошибку можно
0 1111                                                                       0 1011 определить
10 0 10                                                                    1 0010 и исправить
10 111                                                                      10111
11110                                                                       11110

другой принцип — чередование данных. Он заключается в том, что данные записывают на диске не в их естественном порядке, а вперемешку.

Для этого после оцифровки численные значения сигнала «перемешивают» по определенному закону, а после считывания с диска вновь располагают в исходном порядке.
Если при считывании случилось выпадение нескольких идущих подряд значений, то после расстановки выпавшие значения окажутся разбросанными между успешно считанными значениями, благодаря чему выпавшие выборки можно усреднить по соседним значениям и устранить дефект воспроизведения звука.
Такой метод применим при записи-воспроизведении звука в формате CD-A.

Таким образом, исходная структура (фраза) оказалась восстановленной.

В процессе кодирования каждое 16-битное слово делят на два 8-битных символа (байта).
Затем кодирующая схема выстраивает символы в так называемые «фреймы».
Каждый фрейм состоит из 24 байтов данных, к которым добавлены 8 специально вычисленных байтов для коррекции ошибок, 3 байта для синхронизации и 1 байт информации субкода.
Перед тем, как перенести полученный код на диск, применяют метод модуляции луча лазера, который назван «8 в 14» или EFM (Eight to Fourteen Modulation).
Целью такого метода модуляции является исключение коротких питов, что, в конечном итоге, уменьшает количество ошибок считывания.
В EFM используют только те комбинации битов, в которых более, чем два и менее, чем десять нулей появляются постоянно. Каждые 8 бит исходного потока данных конвертируют в соответствии с таблицей EFM преобразования в 14-битовый код.
Например, число «10», представленное в двоичном коде, имеет вид 0000 1010, а при использовании EFM оно принимает вид 1001 0001 0000 00.
При EFM кодировании используют питы дискретных длин от 3, называемые (ЗТ), до 11 бит (1 IT).
Лазерный луч, проходя через эти питы, формирует достаточно чёткий высокочастотный (ВЧ) сигнал. В этом сигнале самая высокая частота сформирована от питов ЗТ, а самая низкая частота — от питов 11Т. Нулевое пересечение ВЧ сигнала представлено краями питов, а, следовательно, и двоичными «1» в потоке данных.

Применяемый в DVD метод модуляции EFM+ использует приблизительно такую же технологию, как в CD. Разница состоит в том, что 8-битный исходный код конвертируют в 16-битный. Поскольку переводная таблица EFM+ имеет формат, который не требует слияния отдельных битов, то есть следования подряд нескольких нулей и единиц, этот метод обеспечивает более рациональную и надёжную модуляцию.
Схема EFM+ использует дополнительно ещё один пит и ленд с длинами 14Т (при этом длины 12Т и 13Т не используют).

Диски форматов CD и DVD разделены на секции, содержащие данные для коррекции ошибок, адресную информацию и данные пользователя. Стартовая зона содержит информацию о размещении дорожек текущей сессии. Финишная зона, записываемая одновременно со стартовой, обозначает физический конец сессии и не содержит данных. Область данных вмещает 76 минут аудиоданных с возможностью разбиения максимум на 99 звуковых дорожек.