Zmodyfikowana dyskretna transformacja kosinusowa

Ten artykuł od 2021-06 zawiera treści, przy których brakuje odnośników do źródeł.
Należy dodać przypisy do treści niemających odnośników do źródeł. Dodanie listy źródeł bibliograficznych jest problematyczne, ponieważ nie wiadomo, które treści one uźródławiają.
Sprawdź w źródłach: Encyklopedia PWN • Google Books • Google Scholar • Federacja Bibliotek Cyfrowych • BazHum • BazTech • RCIN • Internet Archive (texts / inlibrary)
Dokładniejsze informacje o tym, co należy poprawić, być może znajdują się w dyskusji tego artykułu.
Po wyeliminowaniu niedoskonałości należy usunąć szablon {{Dopracować}} z tego artykułu.

Zmodyfikowana dyskretna transformacja cosinusowa (MDCT, ang. modified discrete cosine transform) – blokowa transformacja danych oparta na przekształceniu kosinusowym typu DCT-IV, należąca do rodziny transformacji zakładkowych. Ta ostatnia cecha oznacza, że kolejne bloki próbek sygnału poddawane przekształceniu pobierane są nadmiarowo, z zakładką (część próbek jest wspólna), co pozwala wyeliminować tzw. efekt blokowy występujący przy zastosowaniu tej transformacji w kompresji sygnału.

Definicja

Przekształcenie MDCT odwzorowuje każdy blok rzeczywistych próbek x n {\displaystyle x_{n}} o długości N {\displaystyle N} według wzoru:

X k = n = 0 2 N 1 w n x n cos [ π N ( n + 1 2 + N 2 ) ( k + 1 2 ) ] dla k = 0 , 1 , , N 1. {\displaystyle X_{k}=\sum _{n=0}^{2N-1}w_{n}x_{n}\cos \left[{\frac {\pi }{N}}\left(n+{\frac {1}{2}}+{\frac {N}{2}}\right)\left(k+{\frac {1}{2}}\right)\right]\quad {\textrm {dla}}\quad k=0,1,\dots ,N-1.}

Oryginalny sygnał można odtworzyć z sekwencji współczynników używając przekształcenia odwrotnego:

y n = 1 N k = 0 N 1 w n X k cos [ π N ( n + 1 2 + N 2 ) ( k + 1 2 ) ] dla n = 0 , 1 , , 2 N 1. {\displaystyle y_{n}={\frac {1}{N}}\sum _{k=0}^{N-1}w_{n}X_{k}\cos \left[{\frac {\pi }{N}}\left(n+{\frac {1}{2}}+{\frac {N}{2}}\right)\left(k+{\frac {1}{2}}\right)\right]\quad {\textrm {dla}}\quad n=0,1,\dots ,2N-1.}

Sekwencje y n {\displaystyle y_{n}} uzyskane w kolejnych blokach należy następnie zsumować z zakładką 50% aby uzyskać zrekonstruowany sygnał x n . {\displaystyle x_{n}.}

Należy zauważyć, że liczba współczynników transformaty w pojedynczym bloku jest dwukrotnie mniejsza od liczby próbek sygnału w tym bloku, co pozornie oznaczałoby nieodwracalność przekształcenia. W istocie, odrzucenie połowy współczynników powoduje zjawisko aliasingu w dziedzinie czasu: w zrekonstruowanym pojedynczym bloku y n {\displaystyle y_{n}} próbki z połowy poprzedniego i połowy następnego bloku są „zawinięte” do środka bloku. Właściwości symetrii przekształcenia DCT-IV powodują, że te składowe aliasowe w sąsiednich blokach mają przeciwny znak i w końcowym procesie składania sygnału ulegają kompensacji. Jest to tak zwana zasada TDAC (ang. Time-Domain Aliasing Cancellation).

W powyższych wzorach w n {\displaystyle w_{n}} oznacza funkcję okna, które pełni rolę ograniczającą skoki wartości sygnału na granicach bloku poprzez łagodne zmniejszenie ich amplitudy do zera. Aby TDAC działało poprawnie, funkcja okna powinna spełniać warunek:

w n 2 + w n + N 2 = 1. {\displaystyle w_{n}^{2}+w_{n+N}^{2}=1.}

W praktyce stosowane jest kilka popularnych funkcji okien, na przykład

w n = sin [ π 2 N ( n + 1 2 ) ] {\displaystyle w_{n}=\sin \left[{\frac {\pi }{2N}}\left(n+{\frac {1}{2}}\right)\right]} – okno wykorzystywane w technice kompresji MP3,
w n = sin ( π 2 sin 2 [ π 2 N ( n + 1 2 ) ] ) {\displaystyle w_{n}=\sin \left({\frac {\pi }{2}}\sin ^{2}\left[{\frac {\pi }{2N}}\left(n+{\frac {1}{2}}\right)\right]\right)} – okno wykorzystywane w technice Vorbis.

Interpretacja

Wartości rzeczywiste X k {\displaystyle X_{k}} (tak zwane współczynniki MDCT) reprezentują składowe sygnału w dziedzinie przypominającej dziedzinę fourierowską, zatem mogą być (z pewnymi zastrzeżeniami) interpretowane jako widmo częstotliwościowe. W rzeczywistości istnieje ścisła zależność między współczynnikami MDCT oraz DFT.

Zastosowanie

Podstawowym zastosowaniem MDCT jest kodowanie transformatowe dźwięku, gdzie współczynniki transformaty są kwantowane z wykorzystaniem modelu psychoakustycznego. Dzięki właściwości TDAC zrekonstruowany sygnał nie posiada zniekształceń blokowych, które byłyby zupełnie nieakceptowalne dla dźwięku.

Zobacz też

Bibliografia

  • John P. Princen, Alan B. Bradley, Analysis/synthesis filter bank design based on time domain aliasing cancellation, „IEEE Trans. Acoust. Speech Sig. Proc.” ASSP-34 (5), s. 1153–1161 (1986).
  • J.P. Princen, A. W. Johnson, A.B. Bradley, Subband/transform coding using filter bank designs based on time domain aliasing cancellation, „IEEE Proc. Intl. Conf. on Acoustics, Speech, and Signal Processing (ICASSP)” 12, s. 2161–2164 (1987).
  • A.W. Johnson, A.B. Bradley, Adaptive transform coding incorporating time domain aliasing cancellation, „Speech Comm.” 6, s. 299–308 (1987).
  • Marina Bosi, Richard E. Goldberg, Introduction to digital audio coding and standards, Springer, 2003.
  • Henrique S. Malvar, Signal Processing with Lapped Transforms, Artech House: Norwood MA, 1992.