Voice activity detector (VAD) 
ГЛАВНАЯ ИСТОРИЯ СТАНДАРТЫ ТЕХНОЛОГИИ ГАЛЕРЕЯ СТАТЬИ БЛОГ
Главная
О сотовой связи
История
Стандарты
Технологии
Галерея
Статьи
Словарь
Гостевая книга
Книги
Блог
Голосования
Карта сайта
RSS-лентаRSS-лента

Новые статьи на сайте:

  • Будущее голосовой связи в мобильных телефонах
  • M2M или IoT
  • Система кондиционирования базовой станции
  • Распределенная базовая станция
  • Термошкафы (термобоксы)


  • Telegram-канал

    VAD (Voice activity detector)

    Voice activity detector (VAD) – детектор активности речи – технология сжатия речевого сигнала, за счет кодирования пауз. В телекоммуникационных системах связи наиболее дорогостоящим элементом являются не станционные сооружения: коммутаторы, усилительные пункты, системы энергообеспечения и т.п., а линейные сооружения, связывающие элементы сети. Системы телефонной связи не являются исключением. Поэтому эффективность системы связи определяется в первую очередь эффективностью использования линий связи. Для увеличения объемов передаваемой информации применяются множество различных методов, например, частотное и временное уплотнение сигналов. В системах голосовой связи, к которым относятся и системы сотовой связи применяются различные системы сжатия. Речь как природный источник информации обладает избыточностью, т.е. в ней содержится множество данных не несущих смысловую нагрузку. В связи с этим, было создано множество различных алгоритмов, которые устраняют избыточность речи, пытаясь выделить только значимые параметры речи. Обычно одновременно применяются несколько технологий компрессии речевых данных, и они объединяются под общим название голосовой кодек или вокодер. Наиболее распространенным способом сжатия речевых данных является удаление пауз между фразами, словами, отдельными звуками. Как показали многочисленные исследования, в речи (монологе) может содержаться до 50 % пауз, а в диалоге их объем может достигать 70%. Если учесть, что телефонное соединение – это, как раз, разговор двух лиц, то появляется возможность сжатия в 2-3 раза без потери качества. Именно на основании этого свойства и реализован механизм детектора активности речи.

    Алгоритм VAD работает не сам по себе, а как одна из операций в процессе кодирования речевого сигнала перед его отправкой в телекоммуникационную систему. Обычно, наличие пауз определяется на основе анализа оцифрованных пакетов речевых данных, которые представляют собой отрезки сигнала. Как именно определить паузу, т.е. подобрать критерий, который позволил бы с высокой долей вероятности предсказывать, что данный пакет содержит паузу, а не речь – самый сложный аспект в алгоритме VAD. Ценой неверно принятого решения будет потеря части речевых данных. В наиболее простой реализации наличие паузы в наборе цифровых отсчетов определяется на основе сравнения суммарной энергии пакета речевых данных с некоторым пороговым значением, которое отделяет паузу от пакета с голосом. В таком случае необходимо подобрать порог так, чтобы не допустить слишком часто устранение ошибочных пауз, что может привести к потере полезных данных и ухудшению характеристик качества обслуживания (Quality of Service), а с другой стороны предотвратить многочисленный пропуск пауз, что может послужить снижению эффективности алгоритма VAD. Обычно, для определения пауз, применяется сложный алгоритм, учитывающий не только энергию пакета, но и энергию спектральных составляющих отрезка сигнала. Кроме того, в расчет берется и скорость изменения (нарастания или убывания) энергии данного отрезка с предыдущими. Также в случае со сложной шумовой обстановкой эффективность работы VAD может быть обеспечена периодической оценкой параметров фонового шума.

    На приемной стороне, работает другая часть VAD цель которой восстановить исходный сигнал. Суть восстановления состоит не просто в заполнении пауз отрезками с нулевой энергией. Как показали исследования, человек ассоциирует тишину в динамике своего телефона как пропадание связи и создает дискомфорт. Поэтому паузы между голосовыми отрезками заполняют шумом. Здесь возможны два варианта. Во-первых, шум может создаваться генератором белого шума. Это наиболее эффективный способ, т.к. в данном случае от источника передается только информация о длительности пауз. В другом случае, пауза на передающей стороне сильно сжимается, но общие параметры, описывающие громкость, частоту и т.п. остаются. На приемной стороне генератор воссоздает паузу на основании этих дополнительных данных. Этот вариант требует передачу дополнительных объемов информации, т.е. снижает общую эффективность VAD, но с другой стороны позволяет добиться наибольшей естественности голоса, что практически убирает «следы» работы детектора активности речи. На практике, как правило, используют второй вариант пусть более затратный, но и более комфортный.

    Алгоритм VAD используется практически во всех телекоммуникационных системах, где передается речь в цифровом виде. В частности, он нашел широкое применение в технологии VoIP, ТфОП, ISDN, безусловно, в сотовых системах связи начиная со второго поколения. Увеличение эффективности работы системы, доступное и использованием VAD позволяет прогнозировать и дальнейшее его применение, а также продолжение работ по поиску более совершенного механизма детектирования пауз в речи.

    
    Rambler's Top100 Яндекс.Метрика

    При использовании материалов ссылка на сайт обязательна

    —С автором сайта можно связаться по e-mail: ipleto@gmail.com