Реферат: Технологии мультимедия

Персональный компьютер фирмы IBM был вооружен PC-Speaker'ом, ставшим на долгие годы единственным средством внести разнообразие в монотонный гул блоков питания и вентиляторов. Сколько выдумки и фантазии было проявлено, чтобы звуки, издаваемые "изначальным средством воспроизведения", хоть как-то походили на прототипы из реального мира. И так было до тех пор, пока не явилась Ad Lib – первая звуковая карта для PC. Она могла только синтезировать звуки по командам центрального процессора, так как ни цифровой записи, ни воспроизведения не было. Синтезатор от фирмы "Ямаха" (OPL2, микросхема YM3812), использовавший метод частотной модуляции (Frequency Modulation - FM), то есть метод синтеза музыкальных звуков, при котором итоговый звук получается в результате взаимной модуляции синусоидальных сигналов, создаваемых несколькими генераторами. Звуковая (правильнее – музыкальная) карта Ad Lib, фактически захватившая рынок в 1987-88 годах, была столь популярна, что появившийся немного позднее - в ноябре 1989 года - первый SoundBlaster (SB) был сделан с нею совместимым. Кстати, предтечами SB были аудиокарта CreativeMusicSystem (C/MS), выпущенная в августе 1987 года, и стереофоническая (!) карта CreativeGameBlaster, появившаяся ровно годом позже. Звуковая карта SoundBlaster, от мало кому тогда известной фирмы Creative, никогда не добилась бы и толики выпавшей на ее долю популярности, если бы не обладала одним чрезвычайно важным свойством: это была первая звуковая карта для PC, которая, помимо FM-синтезатора, обладала цифровой записью и воспроизведением звука. Именно с этого устройства начинается отсчет времени существования того, что сегодня есть почти в каждом компьютере и называется собственно звуковой картой. Разрядность оцифровки, которую обеспечивала Sound Blaster, составляла 8 бит, а частота дискретизации составляла 4-11 Кгц при записи и 4-22 Кгц при воспроизведении, карта поддерживала только монорежимы. До качества, обеспечиваемого звуковыми компакт-дисками (16 бит, 44,1 Кгц, стерео), конечно, далеко, но и это уже было кое-что. Феноменальный успех SB сделал ее имя чуть ли не нарицательным, и до сих пор многие в нашей стране называют так любую звуковую карту. Новые возможности стали тут же использовать производители игр, и видеоряд дополнился звуковым.

После революции, совершенной SB, развитие звуковых карт некоторое время шло эволюционно. В модели SoundBlaster версии 2.0 увеличилась частота дискретизации: при записи звука – до 15 Кгц, а при воспроизведении – до 45,4 Кгц. Затем появилась и стереофоническая карта – SoundBlasterPro (май 1991 года), в которой частота дискретизации в режиме записи догнала воспроизведение и составила 45,4 Кгц, однако максимальная частота для работы со стереозвуком была меньше – 22,05 Кгц. Развивались и методы синтеза. SoundBlasterPro II имела синтезатор OPL3, обеспечивающий значительно более качественное звучание. Следующим шагом стала звуковая карта SoundBlaster 16, выпущенная в июне 1992 года. Цифра 16 в названии отражает основное достоинство карты: запись и воспроизведение цифрового звука в PC стали 16-разрядными. Качество CD становилось все ближе и ближе, оставалось только разобраться с шумами (разбираемся и до сих пор). Частота дискретизации новой карты в любом режиме составляла 4-45,4 Кгц, добавились регуляторы тембра по низким и высоким частотам. Вариантов SB 16 существовало столько, что перечислить их все не сможет, наверное, и сама фирма Creative. SB 16 завершила эволюционный ряд первого поколения SB и стала предтечей новой революции.

Революция случилась в методах синтеза звука, но прежде чем к ней перейти, отметим еще один момент. SB в чем-то повторила судьбу самого IBM PC, став индустриальным стандартом и вызвав к жизни многочисленные клоны (у нас наиболее популярны были карты на чипах ESS - EnhancedSoundSource). Независимые производители стали обеспечивать совместимость подавляющего большинства выпускаемых звуковых карт с принятым за основу SoundBlasterPro. Практически любая звуковая карта 1999 года выпуска, даже рассчитанная на шину PCI и выполненная на самом современном звуковом чипсете, продолжает хотя бы декларироваться, как совместимая с SoundBlasterPro. Более того производители материнских плат стали предусмотривать на многих из них специальный разъем для обеспечения SB-совместимости PCI-звуковых плат – так называемый SB Link. Кроме того, часто обеспечивалась также программная или аппаратная совместимость еще с одним пионером отрасли, хорошо зарекомендовавшим себя прежде всего на корпоративном рынке, – звуковой картой MicrosoftWindowsSoundSystem, построенной на чипе AD1848 от фирмы AnalogDevices.

Качество FM-синтеза не удовлетворяло музыкантов и очень скоро перестало удовлетворять рядовых пользователей. Как решение, был предложен метод WT (WaveTable – волновая таблица) – воспроизведение заранее записанных в цифровом виде звуков реальных инструментов – сэмплов (samples). Для изменения высоты звука сэмпл воспроизводится с большей или меньшей скоростью по отношению к нормальной, то есть той, на которой он был записан. WT быстро завоевал место под солнцем, сначала в виде дополнительных WT-плат (например, WaveBlaster, дочерняя плата от фирмы Creative на основе технологий фирмы E-mu, выпущенная в ноябре 1992 года, и WaveBlaster II, поступившая на рынок в январе 1995 года). WaveBlaster и ее аналоги подключались к специально предусмотренному разъему на SB 16. Были и другие варианты подключения. WT затем нашла свое место и в технологии AWE (AdvancedWaveEffects), реализованной в звуковой карте SB AWE32 (март 1994 года), ее многочисленных вариантах исполнения и в пришедшей ей на смену в ноябре 1996 года SB AWE64 (и ее разновидностях). С этого момента цифра в названии звуковой карты от Creative стала означать не разрядность платы, а количество одновременно воспроизводимых голосов. Запись и воспроизведение цифрового звука на платах этого семейства реализованы аналогично SB 16 Pro (SB 16+ASP), а WT-синтезатоp построен на базе чипа EMU8000, обеспечивающего синтез 32 голосов на основе высококачественных 16-pазpядных сэмплов с частотой дискретизации до 45,4 Кгц. EMU8000 также имел эффект-пpоцессоp, позволяющий создавать эффекты реверберации (эхо, многочисленные повторения звука для придания звуку объемности), хорус (хор, "размножение инструментов", имитация ансамбля) и некоторые другие. SB AWE64 помимо 32 аппаратных голосов поддерживал еще и 32 программных, благодаря наличию в своем составе программного WT-синтезатоpа WaveSynth/WaveGuide, использующего элементы новой технологии физического моделирования акустических инструментов, что позволило повысить качество звучания струнных и духовых инструментов.

Здесь намеренно делается акцент на звуковых платах фирмы Creative. В то время она выпускала безусловный мэйнстрим, а полупрофессиональные и профессиональные карты от GravisUltrasound, VoyetraTurtleBeach и других производителей хоть и обладали целым рядом уникальных характеристик, но не определяли развитие отрасли в целом. Это было прерогативой Creative, так как, по большому счету, конкурентов на потребительском рынке у нее не было. В результате случился застой, длившийся целых четыре (!) года (1994-1998). В этот период даже новые модели аудиокарт являлись лишь модернизацией старых. Наиболее показательна в этом отношении AWE64 по отношению к AWE32. Возможно, такое положение продолжалось бы и дольше, но назрел переход на шину PCI и 3D-звук.

Все звуковые платы SB вплоть до AWE64 включительно были реализованы в конструктиве под шину ISA. Однако тенденция отказа от наследия IBM PC требовала перехода на шину PCI, значительно более быструю, а также позволявшую разделять ресурсы компьютера, что существенно упрощало его конфигурирование. Более того, переход на PCI легко решал вопрос организации хранения банков инструментов не в ПЗУ или ОЗУ на самой звуковой карте, а в системном ОЗУ компьютера. Немаловажно и то, что PCI-карты были заметно дешевле. Первую реально работоспособную PCI-аудиокарту создала фирма Ensoniq, которую шустрая Creative тут же и купила. Произошло это в декабре 1997 года. После доработки и модернизации программного обеспечения карта стала называться довольно своеобразно - CreativeLabsEnsoniqAudioPCI (апрель 1998 года).

3 D-звук

Его элементы появлялись на звуковых картах уже давно, но, как правило, в реализации, аналогичной применяемой в бытовой аудиотехнике низшей ценовой категории. Это, например, расширение стереобазы (кое-кто вообще скажет, что к 3D это не имеет никакого отношения) и самые простейшие варианты Surround ("звук вокруг"). Кто бы мог подумать, что компьютерные игры простимулируют наряду с 3D-видео интерес к "настоящему" 3D-звуку, вокруг которого и развернулась борьба за передел рынка.

Борьба за первенство в 3D-звуке развернулась между двумя крепостями, первая из которых звалась A3D, а вторая - EAX. Но сначала несколько слов о самом 3D-звуке. Дело в том, что под этим термином, как правило, понимаются три различные технологии.

- Stereo Expansion (расширение стереобазы) - технология, которая увеличивает ширину звукового поля, используя избыточную информацию, содержащуюся в стереосигнале. Вариантов исполнения существует множество, из них самые известные – Sound Retrieval System (SRS) от фирмы SRS Labs и Spatializer 3-D от фирмы SpatializerLabs.

- Surround ("звук вокруг") – технология, которая использует специально закодированные данные в формате surround с целью воспроизведения нескольких звуковых каналов в их пространственной перспективе на небольшом числе реальных источников звука, к примеру, пяти звуковых каналов на двух колонках. Одна из последних реализаций технологии в компьютерной технике – CreativeMulti-SpeakerSurround (CMSS).

- Positional 3D Audio (позиционируемый 3D-звук) – технология, которая основывается на определении местоположения в трехмерном пространстве каждого из множества звуковых потоков.

Первые две технологии применяются в основном при воспроизведении музыки как на персональных компьютерах, так и на специализированной бытовой и профессиональной аудиоаппаратуре, в домашних кинотеатрах и т. п. Следует отметить, что продвинутые варианты технологии Surround широко распространены также в киноиндустрии. Третья технология прочно обосновалась в новейших компьютерных играх. В чистом виде эти технологии встречаются все реже, и в настоящее время появляется все больше реализаций 3D-звука, где они комбинируются самым причудливым образом.

Но это еще не все. Для обеспечения реализма звучания, помимо точного позиционирования источников звука необходима имитация взаимодействия звука с окружающим пространством, то есть, прежде всего, имитация звуков, отраженных от стен, пола и потолка (реверберация), прошедших через препятствие (окклюзия) и поглощенных препятствием (обструкция). Необходимо также произвести дистанционное моделирование, то есть учесть удаленность источника звука от слушателя.

Фирма Aureal выпускает прикладной интерфейс программирования (API) под названием A3D. При подготовке этой технологии Aureal опиралась на разработки лаборатории исследований компьютерного звука (ComputerAudioResearchLaboratory) университета Сан-Диего, выполненные под руководством Дика Мура (DickMoore) в начале 80-х годов. Помимо этого, фирма Aureal приобрела компанию CrystalRiver, в которой трудился Скотт Фостер (ScottFoster), в свое время по заказу NASA разработавший Convolvotron – одну из первых реализаций технологии виртуальной реальности. Второй крепостью стала технология от фирмы Creative под названием EAX (EnvironmentalAudioExtensions), расширяющая возможности прикладного интерфейса программирования (API) Microsoft Direct Sound 3D. Creative использовала результаты работ, проведенных Джоном Чоунингом (John Chowning) в Стэнфордском университете в конце 70-х годов, а также четвертьвековой опыт компании E-mu Systems, которая занималась созданием звукового оборудования для Голливуда и в марте 1993 года была приобретена фирмой Creative.

В связи с тем, что EAX не является полноценным звуковым API, так как в ней отсутствуют средства позиционирования 3D-звука (используются возможности MicrosoftDirectSound 3D, или DS3D), мы этот вопрос опустим, а более подробно поговорим о методах имитации взаимодействия звука с окружающей средой. Единственное, отметим, что при позиционировании 3D-звука в настоящее время все чаще используются бинауральные процессы обработки звука, и, как правило, это функции HRTF (HeadRelatedTransferFunction), посредством которых наши органы слуха совместно с соответствующими центрами головного мозга определяют местоположение источника звука. Качество реализации 3D-позиционирования в A3D и DS3D схожи, хотя существует мнение, что позиционирование звука в вертикальной плоскости реализовано в A3D лучше.

Так в чем же разнятся подходы Aureal и Creative к имитации взаимодействия звука с окружающей средой? Различия корнями уходят в университетскую науку США. Упомянутый выше Дик Мур разрабатывал методы, с помощью которых можно точно вычислить все необходимые параметры звука в зависимости от физических свойств среды. Джон Чоунинг пошел другим путем, и основой его метода моделирования акустической среды стал учет особенностей восприятия звука человеком. Фирма Aureal выбрала первый путь, а Creative – второй.

Реализацией подхода фирмы Aureal является технология WaveTracing, суть которой заключается в проведении анализа упрощенной геометрии окружающего пространства и расчете в режиме реального времени путей распространения звуковых волн, их отражения и поглощения в пассивных объектах акустической среды. У этой технологии есть и недостатки. Прежде всего, она по понятным причинам требует больших вычислительных ресурсов. Существуют также проблемы и с качеством, достижимым в реальных условиях. Дело в том, что алгоритмы, применяемые в WaveTracing, используют только ранние отраженные звуки, напрочь отбрасывая их рассеянные остатки (diffuse tail), играющие огромную роль в акустическом представлении пространства. И это зачастую приводит к явно слышимым артефактам.

Технология EAX от Creative использует для моделирования акустических свойств среды некую обобщенную модель (прежде всего, реверберации), при этом заранее создаются так называемые пресеты, содержащие в себе набор параметров звука для каждого типа среды. Creative руководствовалась, по-видимому, следующими соображениями. Широко известно, что в кинематографии (кстати, вспомните об опыте создания звуковых студий для Голливуда, который имеет E-mu) звук практически никогда не записывается сразу при съемках, а добавляется позже в студийных условиях. И дело не только в том, что на натуре трудно получить высокое качество. В искусстве всегда присутствует некоторая доля условности, более того, она даже необходима для увеличения степени воздействия на зрителя. Например, по замыслу режиссера необходимо, чтобы в какой-то момент на плотном звуковом фоне (шум автомобилей и т. п.) стало отчетливо слышаться тиканье часов. В жизни такого не бывает. А по сюжету фильма – надо. Естественно, звуковой фон и часы записываются отдельно, а потом сводятся воедино нужным способом. Все вышесказанное относится и к компьютерным играм, которые в своих лучших проявлениях, типа "Half-Lifе", уже относятся скорее к категории интерактивных игровых компьютерных фильмов. Раз так, то зачем заниматься расчетами путей прохождения звука в виртуальной акустической среде, когда можно, как в кинематографии, использовать заранее подготовленную высококачественную модель. Результат, утверждает Creative, не хуже, чем обеспечивает WaveTracing, а во многих случаях и лучше. Не все с этим согласны, и такой подход обычно критикуется за отсутствие интерактивности.

Справедливости ради, необходимо упомянуть компанию QSound, которая не смогла возвести свою крепость, но хорошо подготовленные позиции оборудовала. Компания предлагает целое семейство API (как полноценных, так и для очень специфических применений) под названиями Q3D, QMSS, QSoft3D, Qmixer и др., алгоритмы работы которых основываются не столько на формальных (прежде всего, математических) методах, сколько на результатах, полученных при прослушивании тестовых последовательностей звуков большим числом людей (называется цифра, превышающая 500 тысяч). Однако влияние QSound на компьютерном рынке не очень велико. Чтобы больше к фирме QSound не возвращаться, упомяну, что ее технология реализована в аудиопроцессоре VLSI Thunderbird 128 – мощном DSP, применяемом фирмой AztechLabs в звуковой плате AztechLabs PCI 386DSP.

Борьба конкурирующих API проявилась в ожесточенной конкуренции звуковых карт, их поддерживающих. Каждый производитель стремился занять место, которое занимала в свое время легендарная SoundBlaster.

Creative или Aureal?

Как сказано выше, производители аудиокарт вступили в борьбу за доминирующее место в индустрии, когда-то принадлежащее Sound Blaster, а ныне свободное. API A3D от Aureal, поддерживаемый многочисленными аудиокартами от разных производителей на основе фирменного чипа Vortex AU8820 (например, Diamond Sonic Impact S90), какое-то время пребывал почти в гордом одиночестве на рынке, и, порой, казалось, что именно A3D станет стандартом 3D-звука в отрасли. Между тем, приверженцы Creative ожидали возвращения Господаря. И он не заставил себя ждать.

К моменту выхода микросхемы EMU10K1 компания Aureal уже заканчивала подготовку следующего поколения своих чипов - AU8830 (Vortex 2), поэтому на рынке оба чипсета и карты на них появились почти одновременно. EMU10K1 и AU8830 - принципиально разные микросхемы. EMU10K1 – то легко модернизируемый программно DSP (DigitalSignalProcessor –цифровой сигнальный процессор), содержащий 2 млн. транзисторов, с пиковой производительностью, сравнимой с производительностью Pentium 90, полностью выделенного под обработку звука, то есть около 1000 MIPS (для справки: SB AWE64 имел производительность 36 MIPS). AU8830 (Vortex 2) – то специализированная звуковая микросхема (ASIC) с аппаратно реализованными функциями, код которых невозможно изменить. Она содержит 3 млн. транзисторов и имеет производительность 600 MIPS в собственной системе команд, а если привести ее к производительности DSP – где-то на уровне 800-1200 MIPS. Такой разброс значений получается потому, что до сих пор нет единого мнения о том, как же подсчитывать производительность. Звуковые карты на основе EMU10K1 с августа 1998 года выпускают Creative (семейство SoundBlasterLive!) и ее подразделение E-mu (семейство APS - Audio Production Studio), а самым распространенным представителем клана AU8830 (Vortex 2) является Diamond Monster Sound II MX300, поступившая на рынок в декабре 1998 года.

Карты получились такими разными, что иногда обозреватели даже позиционируют их в разных секторах рынка. Правда, сами Creative и DiamondMultimedia так не делают. Мы не будем глубоко вдаваться в технические характеристики этих изделий, так как об этом писалось неоднократно. Воспроизведение и запись цифрового звука в SB Live! и MX300 реализованы очень качественно. Частота дискретизации до 48 кГц, соотношение сигнал/шум на уровне 96 дБ, MX300 дополнительно оснащена аппаратным десятиполосным эквалайзером, применение которого, однако, ухудшает соотношение сигнал/шум чуть ли не на 20 дБ. Качество музыкального синтеза, реализованного в этих картах по одному принципу - с помощью банков инструментов формата SF2 для SB Live!, DLS 1.0 или ARL для MX300, загружаемых в оперативную память компьютера, - очень сильно отличается. Если у SB Live! оно считается одним из лучших в отрасли, то у MX300 качество просто никакое. Существует парочка банков от независимых разработчиков, с которыми MX300 звучит несколько лучше, но принципиально ситуацию это не меняет.

Несколько слов о позиционируемом 3D-звуке и имитации звуковой среды. MX300 на сегодняшний день позиционирует источники звука в вертикальной плоскости более четко, чем SB Live!, и мы об этом уже упоминали. С позиционированием в горизонтальной плоскости положение ближе к паритету. Звуковая среда ярче имитируется звуковой картой SB Live!, хотя и не без недостатков. В частности, при переходе из помещения в помещение смена пресетов происходит слишком резко (впрочем, претензии, может быть, стоит адресовать не фирме Creative, а производителям игр). Звуковая картина, создаваемая MX300, не очень убедительна. Все-таки технология WaveTracing еще очень молода, хотя АPI A3D существует значительно дольше, чем EAX. Но за спиной EAX – весь опыт киноиндустрии по работе со звуком, а технология A3D прокладывает себе совсем новые дороги. Фирме Aureal есть над чем поработать, чтобы раскрыть потенциал A3D – если, конечно, он есть. Конкуренты же явно считают иначе. Представители Creative неоднократно заявляли, что механический перенос методологии "ray-tracing" из 3D-видео на звук ни к чему дельному не приведет хотя бы потому, что звук, в отличие от света, легко огибает препятствия, по ходу сильно с ними взаимодействуя (тем, кто помнит, что существует явление дифракции света, лучше эту фразу просто забыть). А как уже отмечалось, тонкие взаимодействия с препятствиями, например, задержанные отражения, реализовать в рамках A3D пока сложно.

Кто выиграл эту гонку, Creative или Aureal? Если фирма Creative, то у нее есть веские аргументы, подтверждающие это предположение. Можно начать с того, что в Интернете банки инструментов в формате SF2 найти не в пример легче, чем в формате DLS, продолжить тем, что только за первые несколько месяцев продаж SB Live разошелся более чем в миллионе экземпляров, и это, не считая OEM-поставок, и закончить сообщением, что объединение производителей под названием IASIG (в него входят QSound, CreativeLabs, Aureal и другие) разрабатывает новый стандарт открытого звукового API именно на основе EAX. Более того фирма Microsoft объявила о намерении включить EAX в состав DirectSound 3D 8.0.

Применение звука

Другое очень интересное применение звука в персональных компьютерах – всевозможная работа с речью. Компьютер уже можно научить распознавать голосовые команды, что очень ускоряет и облегчает работу при необходимости частого ввода повторяющихся команд с клавиатуры. Есть программы, позволяющие распознавать произнесенный текст и вводить его сразу в текстовый процессор. Но самое неожиданное применение звука в ПК – это использование голоса пользователя для защиты от несанкционированного доступа. Стоит провести соответствующую настройку (произнести в микрофон несколько слов и отрегулировать чувствительность) – и постороннему человеку будет уже практически невозможно «влезть» в защищенный таким образом ПК.

К-во Просмотров: 269
Бесплатно скачать Реферат: Технологии мультимедия