previous content next

Параметры речевого сигнала

При распознавании речевых сигналов, как правило, оперируют не с исходным речевым сигналом, а с его параметрами, вычисленными на кадре. Длина кадра обычно выбирается такой, чтобы длительность кадра по времени T=N/ν (сек.) составляла 10-20 мс. Пусть на текущем кадре длины N наблюдается последовательность отсчетов s1,...,sk,...,sN . Рассмотрим основные параметры речевого сигнала, используемые ниже.

  1. Кратковременная энергия речевого сигнала
  2. .

  3. Число нулей интенсивности Z
  4. ,

    где .

  5. Коэффициенты разложения в ряд Фурье c0,c1,...,cN/2
  6. Кадр определяет периодическую функцию с периодом 1, заданную на сетке из точек вида xl=l/N:

    fl=f(xl)=sk+1, если l=Nt+k, где 0≤kN-1, t - целое.

    Такую функцию можно разложить в ряд Фурье, т.е. представить в виде

    .

    Скалярное произведение для функций на сетке определяется сдедующим образом:

    .

    Функции gq(xl)=exp{2πiqxl} при 0≤q<N образуют ортонормированную систему относительно так введенного скалярного произведения. Коэффициенты Фурье можно найти по формуле

    (*)

    Непосредственное осуществление этих преобразований требует O(N2) арифметических операций. Для сокращения этого числа применяется алгоритм быстрого преобразования Фурье. Алгоритм основан на том, что при N=2m в слагаемых правой части выражений (*) можно выделить группы, входящие в выражения различных коэффициентов Aq. Вычисляя каждую группу только один раз можно сократить число операций до O(N×log2N). Если N≠2m, то в нашем случае можно добавить нулевые отсчеты. Разложение в ряд Фурье дает представление речевого сигнала в виде суммы гармонических колебаний с частотами ν(q). Запишем соотношение между частотой ν(q) и индексом q:

    ν(q) = qνD/N = 2-mqνD при q=0,1,...,N/2.

    Здесь νD - частота дискретизации.

    Значения спектра от q = N/2 + 1 до N-1 не содержат новой информации, т.к. значения fl действительны. Более точно

    при q=0,1,...,N/2.

    Удвоенное значение Aq - это комплексная амплитуда. Вещественные амплитуды получаются из них по формулам:

    c0=A0, cq=2|Aq| при q=1,...,N/2.

  7. Распределение энергии сигнала по частотным группам p1,...,p20
  8. Одним из важнейших свойств слуха является разделение спектра звука на частотные группы. Слух может образовывать частотные группы на любом участке шкалы частот. В области частот ниже 500 Гц ширина частотных групп почти не зависит от средней частоты групп и составляет примерно 100 Гц. В области выше 500 Гц она увеличивается пропорционально средней частоте. Если частотные группы совместить в один ряд, то в диапазоне от 70 Гц до 7 кГц разместятся 20 частотных групп. Распределение энергии по частотным группам можно найти либо непосредственно с помощью гребенки соответствующих фильтров, либо с помощью коэффициентов разложения в ряд Фурье. Значение pi для частотной группы от частоты νi-1 до νi с шириной Hiii-1 определяется по формуле:

    .


      previous content next