Ses Klonlama Teknolojileri Bizi Nasıl Bir Geleceğe Hazırlıyor?

Yapay zekâ destekli konuşma sentezi ve ses teknolojilerinde son derece çarpıcı gelişmeler yaşanıyor. Bilim dünyasının, yapay zekâ uzmanlarının ve şirketlerinin şu anda odaklandıkları tek bir konu var: Ses Klonlama.

Yapay zekanın, hareket eden birinin video kaydını analiz edip onu en iyi şekilde taklit edebildiğine yabancı değiliz, ancak bir insanın konuşmasını dinleyerek, sesin tonuna ve vurgularına kadar sentezleyecek dereceye geldiğini bilmiyorduk. Ses sentezi öyle bir noktaya gelmiş ki, yapay zekâ dinlediği insanların gelecekteki sesini yaşlanmaya bağlı unsurlar da dahil olmak üzere en iyi şekilde taklit edebiliyor!

Sentetik seslerin kullanım anları giderek yaygınlaşıyor. Öyle ki, medya, müzik, bankacılık, eğitim, eğlence gibi tüm alanlarda kendine yer bulan ses klonlama köklü değişimlerin habercisi gibi görünüyor. Ses teknolojilerindeki gelişmelerin hangi boyuta ulaştığını görmek için 2022 yılında “sadece son birkaç ay içinde” ses klonlama teknolojilerinde yaşanan gelişmelere göz atacak olursak, bizi hiç de ütopik olmayan bir geleceğin beklediğini söyleyebiliriz.

Geleceğin konuşma sentezi için ses bankası kuruldu

“Ses klonlama” ile vefat etmiş veya artık konuşamayacak durumda olan sevdiklerinizin seslerini duyabiliyorsunuz. AI ses klonlama platformu VoCapsule, gelecekte seslerinin sentetik bir versiyonunu oluşturmak için kullanılabilecek ses kayıtlarını kaydetmek ve güvenli bir şekilde saklamak için ‘Ses Bankacılığı’nı hizmet sundu. Ses Bankası, müşterilerinin sesleri klonlayarak istedikleri zaman istediklerini kişiye seslerini duyurmalarını sağlayabiliyor. Bu teknoloji ile henüz doğmamış torunlarınıza ve hatta onların torunlarına bile seslerinizi miras olarak bırakabilirsiniz.

AI Anma Hizmetleri sunulmaya başlandı

Güney Koreli sanal insan geliştirici DeepBrain AI şirketi de kısa süre önce vefat eden birinin sesinin ve yüzünün sentetik olarak yeniden yaratıldığı cenaze törenleri için “AI anma hizmetleri” üretmeye başladı. Öte yandan bir Japon oyuncak firması çocuklara hikaye okumak üzere ebeveyn seslerini sentezlemeyi başardı. Akıllı hoparlör içeren cihaz, çocukları yatmadan önce bir hikaye istediğinde, ancak ebeveyn performans göstermeye müsait olmadığında bir yetişkinin sesini taklit edebiliyor. Yapay ses, tıpkı hikayeyi annesi okuyormuş gibi sesin yanı sıra tonlamayı da anneninkiyle eşleştirerek hikaye okuyabilir.

Konuşma bozukluğu olan hastalar için ses klonlama

Hastalığı nedeniyle konuşamayanlar, konuşma bozukluğu olanlar ve kekemelik sorunu yaşayanlar için ses erişilebilirliğine yönelik çalışmalar yapılıyor. Apple, kekemeliği telafi etmek, kullanıcının kesintiye uğramaması veya yanlış anlamamasını sağlamak için Siri’nin bilmesine yardımcı olacak ses klonlama teknikleri geliştiriyor. Diğer bir gelişme de Intel, Dell ve Rolls-Royce şirketlerinin motor nöron hastalığı (ALS) olan kişilerin seslerini konuşma yeteneklerini kaybetmeden önce korumak ve klonlamak için dijital bir araç hizmete sunması oldu.

Ukrayna’yı destekleyen video mesajları için ses klonları

Ukraynalı sentetik konuşma şirketi Respeecher, ünlülerin Ukrayna’ya destek olmaları için mevcut ses kayıtlarını kullanarak bir ses klonu üretmelerine izin veren bir uygulama başlattı. AI, kaydedilmemiş şeyler söylerken bile orijinal sesi taklit edebiliyor. Konuşmacı ses klonlama modelini onayladıktan sonra metnin Ukrayna diline çevirisi hazırlanarak anadili İngilizce olan biri gibi konuşma kaydediliyor. Ses klonu modeli, dili yeni kaydın üzerine kaplıyor ve böylece ünlü Ukraynaca konuşuyormuş gibi görünür.

Sentetik müzik yıldızları seslerini klonluyor

Müzik piyasasında sentetik ses teknolojilerinin kullanımıyla ilgili çok sayıda örnek bulunuyor. 27 yıl önce vefat eden bir şarkıcı için sesin zaman içindeki yaşa bağlı olarak değişiminin de eklendiği yeni bir sentetik albüm yapıldı. Öte yandan Yeni Gerçek Zamanlı AI Ses Dönüşümü, bir yabancı gibi veya Morgan Freeman gibi ses çıkarmanızı sağlayabilir. Artırılmış gerçeklik sanatçısı sentetik bir rapçinin şu an 10 milyon takipçisi olduğuna şaşırmayın ya da AI şarkı yazarlığı şirketinin bir milyondan fazla şarkı için iş birliği yaptığına!.. Zira geleceğin sentetik medya yıldızları yapay zekâ aracılığıyla üretilen şarkıları bile seslendirebiliyor. Şu an müzik piyasasında AI tarafından yazılan şarkıları, kendi şarkıları olarak seslendiren sanatçılara açılan davalardan bahsediliyor…

Sentetik haberler, sentetik sunucu tarafından okunuyor

Ses teknolojilerindeki gelişmelerin uygulandığı diğer bir alan ise medya sektörü. Sanal insan girişimi Hour One, AI bağlantılarıyla sentetik haber raporları ve sanal haber spikeri ile üç boyutlu videolar oluşturuyor. Bir başka değişle sentetik haber metni ile sentetik spikerin sesi eşleştiriliyor ve gerçek bir haber yayını tümüyle sentetik olarak simüle edilebiliyor. Ayrıca MBN ve LG HelloVision gibi televizyon istasyonları da benzer şekilde canlı yayınlarında gün boyunca düzenli haber güncellemeleri sağlayan “Virtual Human”lar kullanıyor. Bu teknoloji sayesinde, bir stüdyo, bir spiker, kamera, ekip, ışık, makyaj vb. maliyetli faktörlerin hiçbirine gerek kalmaksızın yayın yapılabiliyor. Medya şirketlerinin sanal sunuculara ve stüdyolara erişiminin giderek artması ile yayıncılık sektörü de köklü bir devrim geçireceğe benziyor.

Yapay zekâ, tonlama ve alt lehçeleri taklide kadar uzmanlaşıyor

Sentetik konuşma şirketi WellSaid Labs, bir kelimenin nasıl söyleneceğini belirlemek için bağlamı öğrenen bir ses modeli geliştirdi. Bu model, bağlamsal ipuçlarının başarısız olması durumunda AI’nın doğru telaffuzu öğrenmesini bile sağlıyor. Voicemod’un ses katalogu, duyduklarını sese dönüştürmek için konuşmadan konuşmaya çeviriyi ve sentetik ses oluşturmayı birleştiriyor. Konuşmacının orijinal hızı, tonlaması ve duygusal gücü aynı kalıyor. Buna aksan, cinsiyet ve diğer tanımlayıcı faktörler de dahil. Ses mühendisleri, AI’nin kelimeleri fonetik olarak heceleyebileceklerini hatta şuan akıcı satır okuma ve alt lehçe bile oluşturulduğu söylüyor.

Google’ın yeni icadı: Ses markalama

Artık müşteriler, başka birinin seslendirmesine gerek kalmadan AI platformunun bir parçası olarak markalı sese sahip olabilir. Google Cloud, sentetik konuşma arayüzüne sezi özelleştiren bir uygulama ekliyor. Şirket müşterilerine metinden konuşmaya (TTS) API’si tarafından sentezlenen kendi özel seslerini eğitme ve dağıtma seçeneği sunuyor. Ses modelleri, müşteri tarafından sağlanan kayıtlar üzerinde eğitilebiliyor. Böylelikle markalı bir ses yapay zekası istediği her yere entegre edilebiliyor. Kısaca önceden tanımlanmış statik sesten özel ve markalaşmış sese geçiliyor. Google Cloud konuşma ürün yöneticisi Calum Barnes, “Şirketlerin, konuşma tabanlı yapay zekâ sistemleriyle güçlü bir kimlik ve marka ilişkisi oluşturması önemlidir ve bu, sentetik sesle başlar” diyor.

Ses klonlama nedir?

Ses klonlama, doğal dil işleme ve yapay zekâ teknolojilerinin kullanılarak sesteki vurgular, duygusal ton ve aksan da dahil olmak üzere birinin konuşma şeklini gerçekçi bir şekilde taklit edecek şekilde tasarlanması anlamına geliyor. İnsan yüzlerini ve seslerini, birinin hareket etme ve konuşma şeklini taklit eden dijital kopyalar olarak simüle etmek için derin öğrenme teknolojisi kullanılıyor.

Yapay zekâ, yeniden yaratmayı planladıkları kişiyle yapılan uzun video görüşmelerinden görsel ve işitsel modeller oluşturuyor. Daha sonra model, kelimeler ve hareketlerden oluşan komut dosyası besleniyor ve AI bunu mümkün olduğu kadar orijinal insan gibi gerçekleştiriyor. Hatta gelecekte kişinin görünümünü ve sesini simüle edebilmesi için nasıl konuştuklarını ve hareket ettiklerini taklit edecek modeller bile üretiliyor. İşin aslı, sanal insanlar için AI’ler tarafından gelecek nesil konuşma arayüzleri yaratılıyor.

Daha önce yanlış telaffuz edilen kelimeler ve hatalı vurgulanan heceler, yapay zekanın yaygın kusurları olarak görülüyordu. Ama artık konuşmaya dayalı yapay zekâ testleri, sentetik yazı ve sesleri kolay kolay gerçeğinden ayıramacağımızı gösteriyor. Yapay zekâ uzmanları ses klonlamadaki gelişmeler ile artık sentetik sesin orijinalinden ayrıt edilemeyecek şekilde yüzde 90’ın üzerinde psikoakustik doğruluk taşıyacak bir seviyeye geldiğini belirtiyor.

Sonuç

Yapay zekâ son sınavını vermek üzere: Bağlam farkında, telaffuz hatası yapmayan ve alt lehçeleri bile konuşan sentetik sesler üretilebiliyor. Ses klonlama marka stratejisinin bir parçası haline getiriliyor. Müzik piyasasında sentetik müzisyenler ve şarkılar cirit atıyor. Hem haberlerin hem de sunucuların sentetik olduğu bir döneme girmek üzereyiz. Kısacası tümüyle sentetik medyaya ramak kaldı ve tüm bu haberler “Ses Devrimi”nin geldiğini gösteriyor.

Yapay zekâ destekli sentetik video ve konuşma sentezi teknolojileri geliştikçe etkileşimli avatarların olduğu dijital klon üretimlerine daha fazla tanık olacağız gibi görünüyor. Ses mühendislerinin geleceğin en popüler mesleklerinden biri haline geleceğini söylersek yanlış olmayacaktır. Çünkü sağlıktan eğitime, müzikten medya sektörüne kadar ses klonlama giderek tüm sektörlerde yaygınlaşıyor. Üstelik bu sentetik seslere sanal insan avatarları da eşlik ediyor.

Dijital ikizlerimizin üretilmesinden bir sonraki aşamada ses ikizlerimizin üretilmesi geliyor. Tabir yerindeyse “Sonik Devrim” kapımızı çoktan çaldı ancak buna ne kadar hazırız! Sentetik varlığımız ses klonlarımızla eşleştiğinde ne olur?

Ses klonlama yakın gelecekte çok ciddi etik sorunları ve hatta hukuki konuları da gündeme getirecek gibi görünüyor. Ses sahipliği gelecekte mülkiyet sorunlarına bile yol açabilir. Henüz kullanımı daha da yaygınlaşmadan ses klonlamanın etik ve hukuki sınırlarını daha net çizemezsek, bir takım insani ödünler karşılığında yapay zekanın sunacağı çözümlere mahkûm kalabiliriz.

Yazan: Semra AĞAÇ SUCU

Kaynak: https://voicebot.ai

(Bu yazı Vocicebot haberlerinden derlenerek hazırlanmıştır. Yazıda özetlenen haberlerin detaylarına linkten ulaşılabilir)

2 Yorum

Mevlüt - 29/09/2022, 18:52 -

Vay insanlık vay ! Etik ve hukuk bilinci taşımayan gelişmemiş ve gelişmekte olan ülkelerde daha çok her kesimin ‘öteki’ ne karşı köküne kadar kullönacağı bu tekniği düşündükçe ürpermemek elde değil !

Yanıtla
Yapay Zeka, 15 saniyede sesinizi kopyalabilir mi? – SEBB MEDYA - 30/03/2024, 14:59 -

[…] Görsele ulaşmak için tıklayınız. […]

Yanıtla

Atıf Çiftlikleri ve Kendine Atıf Çevresi

Alıntı Kartelleri: Bilimsel Yayıncılık Mafyası

Alıntı – Atıf Çetesi Nedir?

Nikomakhos’a Etik: Aristoteles’in Etik Düşüncelerine Nasıl Yaklaşılır?

Arkeologlar Aristoteles’in Uzun Zamandır Kayıp Olan Mezarını Bulduklarını İddia Ediyor

Bilişimin Solvay’i: Hesaplama Fiziği Konferansı (1981)

Evren dev bir kuantum bilgisayarı olabilir mi?

Moore Yasası ve Kuantum Halefi

Kuantum Ufukları: Moore Yasasının Ötesine, Kuantum Bilgisayar Çağına Geçiş

Kuantum Bilgisayarı: 1 milyon kübit

Bilim, batıl inançların hayatınız üzerinde çok gerçek bir etkisi olabileceğini söylüyor

Kuantum Evrenine Yolculuk

2024 Astrofotoğrafçılık Ödülü Yılın Fotoğrafçısı Ödüllerinden 12 Nefes Kesici Görüntü

Yaşayan en eski mikroplar 2 milyar yıllık kayada bulundu

Yeni Bilimsel Araştırma: Yaşlanma Saati Tersine İşletilebilir

Sophos Akademi

Ses Klonlama Teknolojileri Bizi Nasıl Bir Geleceğe Hazırlıyor?