paint-brush
Oyuna Kaydolun: Yapay Zeka Spor Yayınlarını Erişilebilir Hale Getirebilir mi?ile@degravia
250 okumalar

Oyuna Kaydolun: Yapay Zeka Spor Yayınlarını Erişilebilir Hale Getirebilir mi?

ile Roman Garin7m2023/09/19
Read on Terminal Reader
Read this story w/o Javascript

Çok uzun; Okumak

İşaret dillerine gerçek zamanlı çeviri yapmak, insan tercümanlar için bile zorlu bir iştir. Bu sorunu çözmek için yapay zekayı kullanmak çok ilginç bir zorluktur.
featured image - Oyuna Kaydolun: Yapay Zeka Spor Yayınlarını Erişilebilir Hale Getirebilir mi?
Roman Garin HackerNoon profile picture
0-item

23 Eylül, Birleşmiş Milletler tarafından 2017 yılında ilan edilen Uluslararası İşaret Dilleri Günüdür . Bu tarih, tüm medya ve teknoloji ürünlerine eşit şekilde erişilebileceği bir günün geleceğini hayal etmek (ya da belki bir hedef belirlemek) için iyi bir fırsattır. engellerine bakılmaksızın tüm insanlar. Bir gün tüm sağır insanların canlı spor yayınlarını izleyebileceğini hayal ediyorum. İşaret dillerine gerçek zamanlı çeviri yapmak, tercümanlar için bile zorlu bir iştir. Ancak çok az yetenekli tercüman ve çok sayıda farklı işaret dili olduğundan, spor yayınları şu anda gerçek anlamda evrensel olarak erişilebilir hale gelemiyor. Bu sorunu çözmek için Yapay Zekanın (AI) kullanılması çok ilginç bir teknik zorluktur ve kesinlikle çok iyi bir nedendir. Geçtiğimiz birkaç yılda bu alanda pek çok şey yapıldı, ancak engeller hâlâ devam ediyor. Bu makalede, bu amaca adanmış en son teknolojiye genel bir bakış sunuyorum ve sizi bu bulguları tartışmaya ve bu bilmeceyi çözmeye katkıda bulunmaya davet ediyorum.

Spor herkese göre değil mi?

Spor Kraldır, nokta. İlk antik Olimpiyatlardan bu yana (ve muhtemelen ondan da önce) insan doğasının rekabetçi yönünün şiddet içermeyen biçimlere dönüştürülmesine yardımcı oldu. Dünyanın her yerinde ve siyasi sınırların ötesinde milyonlarca insanı birleştiriyor. Aynı zamanda modern dijital ve medya evreninin de hükümdarıdır. Buna göre Araştırma ve Pazarlar, küresel spor pazarı, %5,2'lik bileşik yıllık büyüme oranıyla (CAGR) 2022'de 486,61 milyar dolardan 2023'te 512,14 milyar dolara yükseldi. Spor pazarının 2027 yılında %5,0'lık bir Bileşik Büyüme Oranıyla 623,63 milyar dolara ulaşması bekleniyor. Bu, 2022'de tahmini %3,5'ten 2023 ve 2024'te %3,0'a düşmesi öngörülen dünya ekonomisi büyümesinden çok daha hızlı. Uluslararası Para Fonu . Yalnızca küresel çevrimiçi canlı video spor yayını pazarının değeri 2020'de 18,11 milyar dolar olarak gerçekleşti ve bekleniyor 2028'de 87,33 milyar dolara ulaşacak. Sporun popülaritesini daha da gösteren bir 2022 Nielsen Sports'un raporu Sporun mevcut yayın programı içeriğinin yalnızca %2,7'sini oluşturmasına rağmen ABD doğrusal TV reklam gelirlerinin %31'inin canlı spor programlarına bağlı olduğunu ortaya çıkardı.


Ancak bu devasa endüstri, dünya nüfusunun önemli bir bölümünü (kısmen veya tamamen) kaçırıyor. BM Veriler, dünyada 70 milyon sağır insanın bulunduğunu gösteriyor; bu, Dünya'nın 8,05 milyarlık nüfusunun %10'undan biraz daha az. Sorun ilerlemektedir: Dünya Sağlık Örgütü, 2050 yılına kadar 2,5 milyar insanın (veya kabaca tüm insanların dörtte birinin) bir dereceye kadar işitme kaybı yaşayacağını tahmin etmektedir. Elbette spor yayınlarının birçoğunun altyazısı var. Ancak sorun şu ki, pek çok sağır insan okuma ve yazmayı öğrenmede zorluk yaşıyor. Çoğu ülkede sağırlar arasında okuma yazma bilmeme oranı %75'in üzerinde gerçekten şaşırtıcı bir oran. Başta televizyon olmak üzere birçok yayında canlı işaret dili tercümanları bulunmaktadır. Ancak yine bir sorun var. Dünya genelinde sağır insanlar 300'den fazla farklı işaret dili kullanıyor ve bunların çoğu karşılıklı olarak anlaşılamıyor. Bir yayının dünya çapında erişilebilir hale getirilmesi için 300 tercümanın görevlendirilmesi elbette imkansızdır. Peki ya bunun yerine bir yapay zeka kiralarsak?

Yaşam işareti (dili)

Bu görevin zorluğunu tam olarak anlamak için işaret dillerinin gerçekte ne olduğuna kısaca değinelim. Tarihsel olarak, normal işitme yeteneğine sahip ancak farklı diller konuşan insanlar tarafından sıklıkla ortak dil olarak kullanıldılar. En iyi bilinen örneği işaret dilidir. Ova Kızılderilileri 19. yüzyılda Kuzey Amerika'da. Farklı kabilelerin dilleri farklıydı ama yaşam tarzları ve çevreleri oldukça benzerdi, bu da onların ortak semboller bulmasına yardımcı oldu. Mesela gökyüzüne çizilen bir daire, Ay'ı ya da Ay kadar soluk bir şeyi ifade ediyordu. Benzer iletişim yolları Afrika ve Avustralya'daki kabileler tarafından da kullanılıyordu.


Ancak sağırların kullandığı işaret dillerinde durum böyle değildir. Her bölgede, her ülkede bağımsız olarak gelişmekte ve hatta bazen şehirden şehire farklılık göstermektedir. Örneğin, ABD'de yaygın olarak kullanılan Amerikan İşaret Dili (ASL), her iki ülke de İngilizce konuşsa da İngiliz İşaret Dilinden tamamen farklıdır. İronik olarak, ASL Eski Fransız İşaret Diline çok daha yakın (LSF) çünkü Fransız sağır Laurent Clerc, 19. yüzyılda ABD'de sağırlara yönelik ilk öğretmenlerden biriydi. Yaygın inanışın aksine gerçek bir uluslararası işaret dili yoktur. Bir tane yaratma girişimi Artık Uluslararası İşaret Dili olarak bilinen Gestuno 1951 yılında Uluslararası Sağırlar Federasyonu tarafından tasarlandı. Ancak işiten insanlar için onun benzeri olan Esperanto gibi, gerçek bir çözüm haline gelmek kadar popüler değil.


İşaret dillerine yapılan çevirileri tartışırken akılda tutulması gereken bir diğer önemli nokta da bunların kendi başlarına bağımsız diller olmaları ve duyabildiğimiz dillerden tamamen farklı olmalarıdır. Çok yaygın bir yanılgı, işaret dillerinin işitme duyusu tarafından konuşulanları taklit ettiğidir. Tam tersine tamamen farklı bir dil yapısına, dilbilgisine ve sözdizimine sahiptirler. Örneğin ASL'de konu-yorum sözdizimi bulunurken İngilizce'de konu-nesne-fiil yapıları kullanılır. Yani sözdizimi açısından ASL aslında konuşulan Japonca ile daha fazlasını paylaşır İngilizcede olduğundan daha fazla. İşaret alfabeleri var (onlar hakkında daha fazla bilgi edinin) Burada ), ancak sözcük oluşturmak için değil, yer ve kişilerin özel adlarını hecelemek için kullanılırlar.

Engelleri kırmak

Konuşma ve işaret dillerini birbirine bağlamak için çok sayıda girişimde bulunuldu “robotik eldivenler” kullanmak jest tanıma için. Bazıları 1980'li yıllara dayanıyor. Zamanla ivmeölçerler ve her türden sensör gibi daha karmaşık aygıtlar eklendi. Ancak bu girişimlerin başarısı en iyi ihtimalle sınırlıydı . Zaten çoğu, işaret dillerini konuşma dillerine çevirmeye odaklandı, tam tersi değil. Bilgisayarlı görme, konuşma tanıma, sinir ağları, makine öğrenimi ve yapay zeka alanındaki son gelişmeler, konuşma dillerinden işaret dillerine doğrudan çevirinin de mümkün olabileceğine dair umut veriyor.


En yaygın yol, işaret dili jestlerini ve duygularını görüntülemek için 3 boyutlu avatarları kullanmak, konuşmayı ve diğer verileri girdi olarak kullanmaktır. Dikkate değer bir özellik NHK tarafından geliştirildi Japonya'daki yayın şirketi, oyuncuların isimleri, puanlar vb. gibi spor verilerinin çizgi film benzeri animasyonlu bir avatar tarafından görüntülenen işaret diline çevrilmesine olanak tanıyor. Etkinlik organizatörlerinden veya diğer kuruluşlardan alınan veriler yorumlanır, şablonlara konulur ve ardından avatar tarafından ifade edilir. Ancak yalnızca sınırlı türdeki veriler bu şekilde çevrilebilir. NHK, avatarların duyguları daha insani bir şekilde ifade edebilmesi için teknolojiyi geliştirmeye devam ettiğini söylüyor.


Lenovo ve Brezilya İnovasyon Merkezi CESAR yakın zamanda duyuruldu Yapay zeka kullanan insanları duymak için bir işaret dili tercümanı yaratıyorlardı. Benzer şekilde SLAIT (İşaret Dili Yapay Zeka Tercümanı anlamına gelir) gelişiyor ASL'yi etkileşimli bir şekilde öğrenmeye yardımcı olan bir eğitim aracı. Bu görevler kapsamımızdan farklı olsa da, bu projelerle geliştirilen bilgisayarlı görme teknikleri ve yapay zeka eğitim modelleri, gelecekte konuşmadan işaret diline çevirinin sağlanmasında çok faydalı olabilir.


Diğer girişimler de tartışma konumuza yaklaşıyor. Örneğin, Signapsegeldi Metni, fotogerçekçi animasyonlu avatar hareketi olarak görüntülenen işaret diline çevirebilen bir çözümle. Şirket, Üretken Rekabet Ağları ve derin öğrenme tekniklerinin yanı sıra sürekli gelişen bir video veritabanını kullanıyor (bununla ilgili daha fazla bilgi için hakemli makalelerinde bilgi bulabilirsiniz) Burada ). Ancak bu platform daha çok kamuya açık duyuruların ve web sitesi metinlerinin çevrilmesine yöneliktir. Başka bir deyişle gerçek zamanlı canlı çeviriden hâlâ uzak görünüyor.


İsrail merkezli girişim CODA, hedefimize doğru bir adım daha attı. Yapay zeka destekli bir ses-imza çeviri aracı geliştirdi ve işe yaradığını iddia ediyor "Neredeyse anında" . Şu anda hizmetlerini beş kaynak dilde sunmaktadır: İngilizce, İbranice, Fransızca, İspanyolca ve İtalyanca. Daha sonra CODA, Hindistan ve Çin gibi yüksek nüfuslu ülkelerin birden fazla farklı işaret dilini eklemeyi hedefliyor.


Muhtemelen hayallerimize en yakın eşleşme, Baidu AI Cloud tarafından dijital avatar platformu Xiling'de sunuldu. Platform başlatıldı işitme engelli izleyicilere Pekin 2022 Paralimpik Kış Oyunları yayınlarını sunmak. Yerel medya, işaret dili çevirisi ve canlı tercüme için dijital avatarları "dakikalar içinde" oluşturabildiğini söyledi.

Çözüm

Konuşmadan işarete çeviriyi geliştirmenin bir sonraki adımı, çıktıyı mümkün olduğu kadar çok işaret diline genişletmek ve çeviri için gereken zaman aralığını dakikalardan saniyelere indirmek olacaktır. Her iki görev de büyük zorlukları temsil ediyor. Çıktı akışına daha fazla işaret dili eklemek, yüz ifadelerinin yanı sıra el ve vücut hareketlerinden oluşan kapsamlı veritabanlarının oluşturulması ve kalıcı olarak geliştirilmesi anlamına gelir. Spor anlardan ibaret olduğundan zaman aralığını azaltmak daha da önemlidir. Bir dakikalık bir boşluk bile yayının ertelenmesi gerektiği anlamına gelir, aksi takdirde seyirci oyunun özünü kaçıracaktır. Daha kapsamlı bir donanım altyapısı oluşturularak, daha cümle tamamlanmadan tanınabilecek en tipik konuşma şablonlarından oluşan veritabanları geliştirilerek çeviri için gereken süre kısaltılabilir. Bütün bunlar maliyetli bir girişim gibi görünebilir. Ancak bir yandan milyonlarca insanın yaşam kalitesinin iyileştirilmesi paha biçilemez. Öte yandan sadece hayırseverlikten bahsetmiyoruz. Yayınların alacağı ek izleyici kitlesini ve devrede olan sponsor parasını düşünün. Sonuçta, oldukça kazan-kazan oyunu olabilir.


Görünüşe göre teknoloji uzmanları da yarışa katılıyor. Bir kariyer portalı olan Zippia yakın zamanda Google'ın işe alınıyor işaret dili tercümanlarına normalde Amerika Birleşik Devletleri'nde bekledikleri maaşın iki katından fazla maaş alıyorlar (110.734 $'a karşılık ortalama 43.655 $). Bu oranda, bir dil tercümanı ABD'deki ortalama bir yazılım mühendisinden yaklaşık %10 daha fazla maaş alacaktır ( 100.260$ ). Bu, yakında büyük bir atılım beklediğimizin bir ipucu olabilir…


Lütfen yorum yapmaktan çekinmeyin ve çözümü bulmak için güçlerimizi birleştirmemize izin verin!