Bu serinin önceki bölümlerinde Ayrık Kosinüs Dönüşümü'nü matematiksel tanımından gerçek örneklerdeki uygulamasına kadar öğrendik. Ayrıca DCT'nin frekans alanındaki verileri temsil etme yeteneğinin kayıplı veri sıkıştırmayı nasıl mümkün kıldığını da gördük.  Şimdi bir sonraki adıma geçiyoruz. Sonunda tartıştığımız bu soyut sayı dizilerini ve bunların temsil edebileceği gerçek görüntüleri birleştiren çizgiyi çizeceğiz.  Bu makalenin sonunda gerçek JPEG görüntü sıkıştırma işleminin yaklaşık %80'ini yeniden keşfetmiş olacağız.  Matris  Bir önceki yazımızda 2D-DCT'yi tanıtmıştık. Şimdi bu formülün biraz düzeltilmiş versiyonuna bakalım:  ve   değişkenleri, DCT kodlu 2B dizideki değerin yatay ve dikey uzaklığını temsil eder.   fonksiyonu,   ise   ye, aksi halde   . Son olarak   ve   , pikselin kaynak görüntüdeki konumunu temsil eder. u v α(x) x == 0 1/sqrt(2) 1 x y  Bu açık görünmeyebilir, ancak aynı hesaplama aşağıdaki biçimde bir matris çarpımı olarak temsil edilebilir:   Bu formülasyonda   , DCT matrisidir,   , matris aktarımını belirtir ve   , kaynak görüntüdür. DCT T IMG  Bu işlemin karmaşıklığının kaynak görüntünün boyutuyla orantılı olduğunu unutmayın. Her boyuttaki görüntüleri yönetmek ve işi azaltmak için hesaplamalarımızı 8 x 8 piksellik görüntü bloklarıyla sınırlayacağız.  Gerçek görüntüler daha yüksek çözünürlüğe sahip olma eğiliminde olsa da, bunları birçok bağımsız 8x8 bloktan oluşmuş olarak düşünebiliriz.  İstenilen etkiyi üreten DCT matrisini şu şekilde hesaplıyoruz:   var dctMatrix: [Float] = Array(repeating: 0.0, count: 8 * 8) for i in 0 ..< 8 { for j in 0 ..< 8 { let a: Float if i == 0 { a = sqrt(1.0 / 8.0) } else { a = sqrt(2.0 / 8.0) } dctMatrix[j * 8 + i] = a * cos((2.0 * Float(j) + 1) * Float(i) * Float.pi / (2.0 * 8)) } }    değeri: dctMatrix  0.35 0.49 0.46 0.42 0.35 0.28 0.19 0.10 0.35 0.42 0.19 -0.10 -0.35 -0.49 -0.46 -0.28 0.35 0.28 -0.19 -0.49 -0.35 0.10 0.46 0.42 0.35 0.10 -0.46 -0.28 0.35 0.42 -0.19 -0.49 0.35 -0.10 -0.46 0.28 0.35 -0.42 -0.19 0.49 0.35 -0.28 -0.19 0.49 -0.35 -0.10 0.46 -0.42 0.35 -0.42 0.19 0.10 -0.35 0.49 -0.46 0.28 0.35 -0.49 0.46 -0.42 0.35 -0.28 0.19 -0.10  Gördüğünüz gibi bu sadece bir sayı dizisi. Dönüşümü her uyguladığımızda matris değerlerini yeniden hesaplamamıza gerek yoktur, böylece bunları kodumuzda sabit bir dizide tutabiliriz.  Bu kod 8x8 matris çarpımı gerçekleştirir:   func matrixMul8x8(m1: [Float], m2: [Float], result: inout [Float]) { for i in 0 ..< 8 { for j in 0 ..< 8 { var acc: Float = 0.0 for k in 0 ..< 8 { acc += m1[i * 8 + k] * m2[k * 8 + j] } result[i * 8 + j] = acc } } }  8x8 DCT'yi şu şekilde hesaplıyoruz:   func dct(_ block: [Float]) -> [Float] { var tmpBlock: [Float] = Array(repeating: 0.0, count: 8 * 8) var resultBlock: [Float] = Array(repeating: 0.0, count: 8 * 8) matrixMul8x8(m1: dctMatrixT, m2: block, result: &tmpBlock) matrixMul8x8(m1: tmpBlock, m2: dctMatrix, result: &resultBlock) return resultBlock }  Ters DCT, normal ve transpoze DCT matrislerinin değiştirilmesiyle basit bir şekilde elde edilebilir:   func idct(_ block: [Float]) -> [Float] { var tmpBlock: [Float] = Array(repeating: 0.0, count: 8 * 8) var resultBlock: [Float] = Array(repeating: 0.0, count: 8 * 8) matrixMul8x8(m1: dctMatrix, m2: block, result: &tmpBlock) matrixMul8x8(m1: tmpBlock, m2: dctMatrixT, result: &resultBlock) return resultBlock }  Büyük resim  Artık bilgimizi gerçek görüntülere uygulamaya hazırız. Hadi bununla çalışalım:   Bu görüntüyü, her birinin karşılık gelen konumdaki bir pikselin parlaklığını temsil ettiği bir sayı dizisi olarak yükleyen bir koda sahip olduğumuzu hayal edin:   func loadImage(width: Int, height: Int) -> [Float] { ... }  Görüntünün 256x256 piksel olduğunu varsayarsak, aşağıdaki değerler sol üst köşeye karşılık gelir:  -2.00 3.00 -7.00 -6.00 -3.00 -5.00 -13.00 -9.00 -2.00 4.00 -7.00 -6.00 -3.00 -5.00 -13.00 -9.00 -3.00 -1.00 -8.00 -7.00 -6.00 -8.00 -14.00 -12.00 -7.00 -13.00 -9.00 -15.00 -15.00 -12.00 -23.00 -22.00 -18.00 -17.00 -11.00 -15.00 -11.00 -14.00 -20.00 -20.00 -21.00 -19.00 -20.00 -20.00 -18.00 -17.00 -19.00 -19.00 -16.00 -17.00 -20.00 -19.00 -17.00 -21.00 -24.00 -21.00 -19.00 -18.00 -20.00 -22.00 -19.00 -25.00 -20.00 -22.00  Matematiksel kolaylık sağlamak için piksel parlaklığını   ila   arasında bir sayı olarak ifade etmek yerine   çıkarırız. Başka bir deyişle değeri   yerine   civarında ortalıyoruz. 0.0 255.0 128.0 128.0 0.0  Daha sonra   fonksiyonunu görüntünün her 8x8 bloğuna uyguluyoruz: dct   let values: [Float] = loadImage() // convert RGB to -128.0 ... 128.0 var destinationValues: [Float] = Array(repeating: 0.0, count: values.count) for j in 0 ..< height / 8 { for i in 0 ..< width / 8 { let block = extractBlock(values: values, width: width, x: i * 8, y: j * 8) let resultBlock: [Float] = dct(block) storeBlock(values: &destinationValues, width: width, block: resultBlock, x: i * 8, y: j * 8) } } storeImage(destinationValues) // convert back to RGB  Sonuç şu görüntü:   Fotoğraf olarak pek tanınmasa da bazı desenler (şapka gibi) hala görülebilmektedir. İlginç bir şekilde çok sayıda siyah piksel var. Aslında piksellerin çoğu siyahtır. 8x8 bloklardan birine yakınlaşalım:   Bu 8x8 blok, frekans alanı temsilinin neyle ilgili olduğunu göstermektedir. Sıfır olmayan değerler bloğun sol üst köşesinde kümelenme eğilimindedir. Sağ alt köşeye doğru ilerledikçe büyük bir değerin çıkma olasılığı önemli ölçüde azalır.  Bu, sol üstteki değerlerin görüntü için daha fazla önem taşıdığını gösterir.  Bunu, sağ alt değerlerden bazılarını   olarak ayarlayarak ortadan kaldıran bir "sıkıştırma" işlevi yazarak gösterebiliriz: 0.0   func compress(_ block: [Float], level: Int) -> [Float] { var resultBlock: [Float] = block for y in 0 ..< 8 { for x in 0 ..< 8 { if x >= 8 - level || y >= 8 - level { resultBlock[y * 8 + x] = 0.0 } } } return resultBlock }  İşleme döngümüzü ayarladıktan sonra:   for j in 0 ..< height / 8 { for i in 0 ..< width / 8 { var block = extractBlock(values: values, width: width, x: i * 8, y: j * 8) block = dct(block) block = compress(block, level: 3) block = idct(block) storeBlock(values: &destinationValues, width: width, block: block, x: i * 8, y: j * 8) } }  Bu görüntüyü elde ediyoruz:   Ne olduğunu düşünmek için bir dakikanızı ayırın. Her görüntü bloğu için 64 değerden 39'unu eledik ve yine de orijinaline çok benzeyen bir görüntü ürettik. Bu, yalnızca matrislerin çarpılması ve verilerin deterministik olarak atılmasıyla elde edilen %60'lık bir sıkıştırma oranıdır!  DCT katsayılarının %86'sını attığımız zaman şu olur:   Niceleme  DCT katsayılarını, genellikle 4 baytlık depolama gerektiren kayan nokta sayıları olarak depolamak inanılmaz derecede israf olacaktır. Bunun yerine onları en yakın tam sayıya yuvarlamalıyız. 8x8 bloklar için her değer 2 baytlık bir tam sayı ile temsil edilebilir.  Daha önce incelediğimiz bloğu tekrar gözden geçirelim. (Yuvarlatılmış) sayısal gösterimi şöyledir:  209 -296 -49 43 -38 22 -6 1 39 24 -37 11 -4 -3 2 6 -15 16 -17 0 13 -4 0 5 16 4 2 4 -6 4 -3 -5 -11 4 -1 3 1 -3 6 3 6 -2 2 4 -2 -2 -4 -1 -6 1 0 1 -1 0 3 -1 0 0 0 0 -1 -1 -2 1  Daha önce görsel olarak da teyit ettiğimiz gibi, sol üst köşeye yakın yerlerde daha büyük değerlerin ortaya çıkma olasılığı daha yüksektir. Ancak her blok bu modeli izlemez. İşte resmimizden başka bir blok:   Bu blok DCT değerlerinin ortak dağılımına uymamaktadır. Sağ alt değerleri körü körüne göz ardı etmeye devam edersek görüntünün bazı kısımlarında daha fazla sıkıştırma kusuru görüntülenebilir. Bunu önlemek için hangi blokların diğerlerinden daha fazla veriye ihtiyaç duyduğuna karar vermemiz gerekiyor.  Basit ama zarif bir çözüm, daha önce keşfettiğimiz kümelenme özelliğinden yararlanır. Buna "kuantizasyon" denir. DCT değerlerimizi farklı katsayılara bölüyoruz. Kolaylık olması açısından her DCT katsayısı için bir değer içeren bir tablo kullanacağız:  16.50 11.50 10.50 16.50 24.50 40.50 51.50 61.50 12.50 12.50 14.50 19.50 26.50 58.50 60.50 55.50 14.50 13.50 16.50 24.50 40.50 57.50 69.50 56.50 14.50 17.50 22.50 29.50 51.50 87.50 80.50 62.50 18.50 22.50 37.50 56.50 68.50 109.50 103.50 77.50 24.50 35.50 55.50 64.50 81.50 104.50 113.50 92.50 49.50 64.50 78.50 87.50 103.50 121.50 120.50 101.50 72.50 92.50 95.50 98.50 112.50 100.50 103.50 99.50  Daha önemli konumlar daha düşük bölenlere karşılık gelir ve bunun tersi de geçerlidir. Kuantize edilmiş verileri tablodaki katsayılarla çarparak dekuantizasyon adımını gerçekleştiriyoruz.  Bu işlevler sırasıyla kuantizasyon ve dekuantizasyon adımlarını gerçekleştirir:   func quantize(_ block: [Int], table: [Float]) -> [Int] { var result: [Int] = Array(repeating: 0, count: block.count) for i in 0 ..< block.count { result[i] = Int(round(Float(block[i]) / table[i])) } return result } func dequantize(_ block: [Int], table: [Float]) -> [Float] { var result: [Float] = Array(repeating: 0, count: block.count) for i in 0 ..< block.count { result[i] = Float(block[i]) * table[i] } return result }  Kodumuza kuantizasyon ve dekuantizasyon işlemlerini dahil edelim:   block = dct(block) var iblock = rounded(block) iblock = quantize(iblock, table: testTable) block = dequantize(iblock, table: testTable) block = idct(block)  İlk blok nicelendiğinde şu şekilde görünür:  13 -26 -5 3 -2 1 0 0 3 2 -3 1 0 0 0 0 -1 1 -1 0 0 0 0 0 1 0 0 0 0 0 0 0 -1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0  Bu da ikinci blok:  -5 18 -10 0 1 1 1 0 0 3 1 -2 0 1 0 0 -4 0 1 0 1 1 0 0 -1 0 0 -2 0 0 0 0 0 1 -1 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0  İkinci blokta sıfırdan farklı değerlerin daha fazla olduğunu fark edeceksiniz. Böylece, niceleme adımı daha yararlı verileri saklamamıza ve geri kalanını atmamıza olanak tanır.  Sonuç ve Sırada Ne Var?  Temel matematikten gerçek görüntüleri kodlama ve kod çözme aşamasına geçtik. DCT'nin rastgele verileri nasıl bir frekans kümesine dönüştürdüğünü ve bazı frekansların diğerlerinden nasıl daha önemli olduğunu görsel olarak gördük.  Temel sıkıştırmaya alıştıktan sonra, depolama gereksinimlerini daha da azaltan niceleme kavramını tanıttık.  Bir sonraki bölümde RGB görüntülere geçeceğiz ve elde edilen verileri daha da sıkıştırmanın yollarını keşfedeceğiz.  Bu makalenin kodunu   adresinde bulabilirsiniz. https://github.com/petertechstories/image-dct

Read My Stories

Bu ses hikayenin orijinal dilinde üretilmiştir!

Bir Video Codec Bileşeni Yazalım - Bölüm 3: Durağan Görüntüler

About Author

YORUMLAR

ETİKETLERİ ASIN

BU YAZI

Related Stories

Kullanıcı Odaklı Kripto Ürünleri Oluşturma: Müşteri Geri Bildiriminin Önemi

Kazanmak için Dokun: Telegram, Solana'dan Önce Sonraki 10 Milyar Kripto Kullanıcısına Katılabilir

Sulara Yelken Açmak: Data Lakes ile Üretim Sınıfında RAG Uygulamaları Geliştirme

Telegram: Kripto Adası'nın anakaraya olan köprüsü

Kullanıcı Odaklı Kripto Ürünleri Oluşturma: Müşteri Geri Bildiriminin Önemi

Kazanmak için Dokun: Telegram, Solana'dan Önce Sonraki 10 Milyar Kripto Kullanıcısına Katılabilir

Sulara Yelken Açmak: Data Lakes ile Üretim Sınıfında RAG Uygulamaları Geliştirme

Telegram: Kripto Adası'nın anakaraya olan köprüsü

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps