Yüzüklerin Efendisi’nin ünlü direktörü Peter Jackson‘ın Birinci Dünya Savaşı sırasında yaşayan İngiliz ve Yeni Zelandalı askerlerin ömürlerini ve hasretlerini bahis alan 2018 üretimi belgeseli They Shall Not Grow Old‘un yüz yılı aşkın sessiz çekimleri, hem renklendirme hem de daha evvel var olmayan diyaloglar için yeni ses kaydı yoluyla modernize edildi.
Yazdığınız cümleyi görüntüye dönüştüren yapay zeka da geliştirildi
Jackson, arşiv imajlarında yer alan kişilerin ne söylediklerine dair bir fikir edinmek için, kaydedilen konuşmalarını kestirim etmek üzere isimli dudak okuyucularından oluşan bir takım tuttu. Söylendiğine nazaran, “dudak okuyucular o kadar hassastılar ki konuşan şahısların lehçe ve aksanlarını bile belirleyebildiler.”
Jackson 2018’de Daily Sentinel’e verdiği demeçte, “Bu adamlar siyah beyaz, sessiz bir dünyada yaşamadılar ve bu sinema savaşla ilgili değil; askerlerin savaş tecrübesiyle ilgili” dedi. “İzleyicinin askerlerin ne gördüğünü, nasıl gördüğünü ve duyduğunu mümkün olduğunca yakından görmesini istedim.” sözlerini kullandı.
Bu, 2009 yılında yapılan bir araştırmanın birçok insanın dudak okumada yalnızca yüzde 20’lik bir doğruluk oranına sahip olduğunu ortaya koyduğu ve CDC’nin Çocuklarda İşitme Kaybı Ebeveyn Rehberi‘nin “iyi bir konuşma okuyucusunun 12 sözlük bir cümlede yalnızca 4 ila 5 kelimeyi görebileceğini” iddia ettiği göz önüne alındığında oldukça büyük bir dilsel muvaffakiyet. Benzeri halde, Oklahoma Üniversitesi’nde 2011 yılında yapılan bir çalışmada da deneklerin yalnızca yüzde 10’unun hakikat okuyabildiği görülmüş.
Bağlam önemli
Dudak okuma uygulaması geliştiricisi Liopa’nın CTO’su Dr. Fabian Campbell-West Engadget’a e-posta yoluyla yaptığı açıklamada, “Konuşmayı ekseriyetle duyduğumuz şey olarak düşünürüz, lakin konuşmanın duyulabilir kısmı yalnızca bir parçasıdır” dedi. “Algıladığımız formuyla, bir kişinin konuşması görsel ve işitsel ünitelere ayrılabilir. Vizem ismi verilen görsel üniteler dudak hareketleri olarak görülür. Fonem adı verilen işitsel üniteler ise ses dalgaları olarak duyulur.”
“Birbirimizle bağlantı kurarken ekseriyetle yüz yüze iletişim tercih edilir zira hem görsel hem de işitsel bilgilere duyarlıyız” diye devam etti. “Bununla birlikte, görsel öğelerin yaklaşık üç katı kadar sesbirim vardır. Öbür bir deyişle, dudak hareketleri tek başına konuşmanın işitilebilir kısmı kadar bilgi içermez.”
O zamanki Oxford Üniversitesi araştırmacısı ve LipNet geliştiricisi Yannis Assael, 2016 yılında Fisher’ın daha evvelki çalışmalarına atıfta bulunarak “Dudakların ve bazen lisan ve dişlerin yanı sıra dudak okuma aksiyonlarının çoğu kapalıdır ve bağlam olmadan meçhullüğü gidermek zordur” dedi.
Daha büyük bir dönüşümün genel bağlamına ek olarak, insanların konuşurken aktardıkları şeylerin birçok kelamsız olarak gerçekleşir. Campbell-West, “Kişiyi duymanın yanı sıra görebildiğinizde iletişim ekseriyetle daha kolaydır” diyor ve ekliyor: “Ancak son vakitlerde imajlı aramaların yaygınlaşması hepimize bunun yalnızca kişiyi görmekle ilgili olmadığını, çok daha fazla nüans olduğunu gösterdi. İnsan bağlantısını anlamaya yönelik akıllı otomatik sistemler oluşturmak için şu anda mümkün olandan çok daha fazla potansiyel var.”
Ağaca bakarken, ormanı gözden kaçırmak
İnsan ve makine dudak okuyucuları birebir genel son amaca sahip olsa da, ferdi süreçlerinin maksatları büyük ölçüde farklılık göstermekte. İran Bilim ve Teknoloji Üniversitesi’nden bir küme araştırmacının 2021’de savunduğu üzere, “Geçtiğimiz yıllarda, bir kişinin dudak okuması için çeşitli usuller önerildi, lakin bu formüller ile yapay zekada önerilen dudak okuma formülleri ortasında kıymetli bir fark var. Makine tarafından dudak okuma için önerilen prosedürlerin hedefi, görsel bilgileri sözlere dönüştürmek… Lakin, beşerler tarafından dudak okumanın temel maksadı, konuşmanın her bir sözünü anlamak değil, konuşmanın manasını çözmek.”
Kısacası, “insanlar genellikle tembeldir ve çok fazla ön bilgiye sahip olduğumuz için bağlama güvenirler” diye açıklanıyor bu durum. Ve süreçteki bu uyumsuzluk – ağaca bakarken, ormanı gözden kaçırmanın dilbilimsel muadili – dudak okumayı otomatikleştirme gayesi için eşsiz bir zorluk teşkil ediyor.
Hao, “Dudak okuma çalışmalarındaki en büyük mahzurlardan biri standart ve pratik bir bilgi tabanının olmamasıdır” dedi. “Veritabanının boyutu ve kalitesi bu modelin eğitim tesirini belirler ve eksiksiz bir veritabanı da dudak okuma misyonlarında giderek daha karmaşık ve sıkıntı problemlerin keşfedilmesini ve çözülmesini teşvik edecektir.” Diğer engeller ortasında zayıf aydınlatma ve değişen art planlar üzere çevresel faktörler, konuşmacının cilt tonu, başının dönme açısı (ağzın görüş açısını değiştirir) ve kırışıklıkların ve sakalların belirsizleştirici varlığı, makine görüş sistemlerini karıştırabilir.
Assael‘in belirttiği üzere, “Makineyle dudak okuma zordur zira görüntüden uzamsal-zamansal özelliklerin çıkarılmasını gerektirir (çünkü hem pozisyon hem de hareket önemlidir).” Bununla birlikte, Xinjiang Üniversitesi‘nden Mingfeng Hao’nun 2020 tarihli A Survey on Lip Reading Technology’de açıkladığı üzere, “video sınıflandırmasına ilişkin olan hareket tanıma, tek bir manzara aracılığıyla sınıflandırılabilir.” Hasebiyle, “dudak okumanın ekseriyetle tek bir imajdan konuşma içeriğiyle ilgili özellikleri çıkarması ve içeriği çıkarmak için tüm manzara dizisi ortasındaki vakit münasebetini tahlil etmesi gerekir.” Bu, üstesinden gelmek için hem doğal lisan sürece hem de makine görüşü yetenekleri gerektiren bir pürüzdür.
Kısaltma çorbası
Günümüzde konuşma tanıma, girdi kaynağına bağlı olarak üç çeşittir. Bugün bahsettiğimiz şey Görsel Konuşma Tanıma (VSR) araştırması kapsamına giriyor – yani ne iletildiğini anlamak için sırf görsel araçlar kullanıyor. Buna karşılık, tamamen sese dayanan Otomatik Konuşma Tanıma (ASR), yani “Hey Siri” ve varsayımlarına hem işitsel hem de görsel ipuçlarını dahil eden İşitsel-Görsel Otomatik Konuşma Tanıma (AV-ASR) vardır.
Campbell-West, “Otomatik konuşma tanıma (ASR) araştırmaları son derece olgunlaşmış durumda ve şu anki son teknoloji, araştırmaların başladığı devirde mümkün olanlarla kıyaslandığında tanınmaz halde” dedi. “Görsel konuşma tanıma (VSR) hala nispeten erken basamaklarda ve sistemler olgunlaşmaya devam edecek.” Liopa’nın hastanedeki hastaların faal olarak sözlü bağlantı kurup kuramadıklarına bakılmaksızın bağlantı kurmalarını sağlayan SRAVI uygulaması, ikinci metodolojiye dayanıyor. “Bu, oburunun eksikliklerinin üstesinden gelmeye yardımcı olmak için her iki bilgi modunu da kullanabilir” dedi. “Gelecekte, anlamayı desteklemek için ek ipuçları kullanan sistemler kesinlikle olacaktır.”
“Campbell-West kelamlarına şöyle devam etti: “VSR uygulamaları ortasında çeşitli farklılıklar var. “Teknik açıdan bakıldığında modellerin nasıl oluşturulduğuna dair mimari farklıdır… Derin öğrenme sorunlarına iki farklı açıdan yaklaşılabilir. Birincisi mümkün olan en uygun mimariyi aramak, ikincisi ise mümkün olduğunca fazla varyasyonu kapsayacak formda büyük ölçüde bilgi kullanmak. Her iki yaklaşım da kıymetlidir ve birleştirilebilir.”
VSR araştırmalarının birinci günlerinde, AVLetters üzere bilgi kümelerinin elle etiketlenmesi ve kategorize edilmesi gerekiyordu; bu da makine tahsili modellerini eğitmek için mevcut bilgi ölçüsünü önemli halde kısıtlayan yoğun emek gerektiren bir sınırlamaydı. Bu nedenle, birinci araştırmalar evvel mutlak temellere (alfabe ve sayı seviyesinde tanımlama) odaklanmış, daha sonra söz ve söz öbeği seviyesinde tanımlamaya ilerlemiş ve cümle seviyesi, insan konuşmasını daha doğal ortamlarda ve durumlarda anlamayı amaçlayan günümüzün en son teknolojisidir.
Son yıllarda, modelleri esasen internetin geneli üzerinde eğiten daha gelişmiş derin öğrenme tekniklerinin yükselişi ve çevrimiçi olarak yayınlanan toplumsal ve görsel medyanın muazzam genişlemesi, araştırmacıların çeşitli BBC programlarından binlerce konuşulan satıra dayanan Oxford-BBC Dudak Okuma Cümleleri 2 (LRS2) üzere çok daha büyük bilgi kümeleri oluşturmasına imkan sağlamıştır. LRS3-TED, çeşitli TED programlarından 150.000 cümle toplarken, LSVSR (Büyük Ölçekli Görsel Konuşma Tanıma) veritabanı, şu anda var olan en büyükler ortasında, 2.934.899 konuşma tabiri ve 127.000‘den fazla söz içeren 140.000 saatlik ses segmenti sunmaktadır.
Ve bu yalnızca İngilizce değil: Benzeri data setleri, bir dizi Çince şiire dayanan HIT-AVDB-II yahut tıpkı 15 cümleyi söyleyen 300 bireyden oluşan bir Fransızca data tabanı olan IV2 üzere bir dizi lisan için mevcuttur. Misal setler Rusça, İspanyolca ve Çekçe uygulamaları için de mevcut.
İleriye bakmak
Campbell-West, VSR’nin geleceğinin ASR’nin geçmişine çok benzeyebileceğini söylüyor: “Son birkaç on yıldaki gelişimi sırasında ASR için olduğu üzere VSR’nin benimsenmesinin önünde de birçok pürüz var.” Saklılık bunlardan en büyüğü elbette. Campbell-West, genç jenerasyonların hayatlarını internet üzerinden belgelemekten daha az çekindiklerini belirtiyor ve ekliyor: “İnsanlar haklı olarak mahremiyet konusunda eskisinden daha şuurlu. Beşerler bir kameraya tahammül edemezken bir mikrofona tahammül edebilirler.”
Her şeye karşın Campbell-West, VSR’nin yüksek doğrulukta otomatik altyazı üzere gelecekteki potansiyel uygulamaları konusunda heyecanını koruyor. Campbell-West, “Biriyle konuşurken gözlüğünüze canlı altyazı alabilmeniz için gerçek vakitli bir altyazı sistemi öngörüyorum” dedi. “İşitme zahmeti çeken herkes için bu hayat değiştiren bir uygulama olabilir, lakin gürültülü ortamlarda genel kullanım için bile bu faydalı olabilir.”
“Gürültünün ASR’yi çok zorlaştırdığı fakat ses denetiminin avantajlı olduğu durumlar vardır, örneğin bir otomobilde olduğu üzere,” diye devam etti. “VSR bu sistemlerin şoför ve yolcular için daha yeterli ve daha inançlı hale gelmesine yardımcı olabilir.”
Öte yandan, UW’deki laboratuarında Beyin-Bilgisayar Arayüzü teknolojilerini kapsamlı bir formda araştıran Profesör Adrian KC Lee, giyilebilir metin ekranlarını BCI teknolojisi daha da olgunlaşana kadar “geçici” bir önlem olarak görüyor. Lee, “BCI’ı ‘Tamam, yüksek sesle konuşmadan beyinden beyefendisine bağlantı kuracağız’ noktasına kadar satmak istemiyoruz” dedi. “Yaklaşık on yıl içinde, biyolojik sinyallerin işitme aygıtlarında kullanıldığını göreceksiniz. Aygıtın gözlerinizin nereye baktığını görmesi, dinlemeyi nereye odaklayacağı konusunda bir ipucu verebilir.”
Lee, “Gerçekten ‘evet, beyin denetimli işitme aygıtları alacağız’ demekte tereddüt ediyorum,” diye kabul etti. “Bunun yapılabilir olduğunu düşünüyorum, lakin vakit alacağını biliyorsunuz.”