Mühendisler Beyin Sinyallerini Doğrudan Konuşmaya Çevirdi

3.317
Mühendisler Beyin Sinyallerini Doğrudan Konuşmaya Çevirdi

 

Sınırlı konuşma yeteneği olan veya yeteneği olmayanlar için büyük umut vaat eden beyin-bilgisayar ara yüzlerine doğru önemli bir adım atıldı.

 

Bilimsel bir çalışma ile ilk defa Columbia Üniversitesinden nöro-mühendisler, düşünceyi anlaşılır ve tanınabilir bir konuşmaya çeviren bir sistem yarattılar.

Bu teknoloji bir kişinin beyin aktivitesini izleyerek duyduğu kelimeleri benzeri görülmemiş netlikte yeniden oluşturabilir. Konuşma sentezleyicilerinin ve yapay zekânın gücünü kullanan bu buluş, bilgisayarların doğrudan beyinle iletişim kurmasının yeni yollarını açabilir. Ayrıca amiyotrofik lateral skleroz (ALS) ile yaşayanlar veya inme geçirenler gibi konuşamayan insanlara yardım etmek için zemin hazırlıyor, dış dünya ile iletişim kurma yeteneklerini yeniden kazanmalarını sağlıyor.

Tüm bu bulgular Science Report’un bu ayki sayısında yayınlandı.

Makalenin kıdemli yazarı ve Columbia Üniversitesi’nden Mortimer B. Zuckerman Zihin Beyin Davranışı Enstitüsü’nde baş araştırmacı Nima Mesgarani, “Seslerimiz, arkadaşlarımıza, ailemize ve çevremizdeki dünyaya bağlanmamıza yardımcı oluyor; bu nedenle birinin sesini yaralanma veya hastalık nedeniyle kaybetmesi çok yıkıcı” diyor, “Bugünün çalışmasında, bu gücü geri kazanmanın potansiyel bir yoluna sahibiz. Doğru teknolojiyle bu insanların düşüncelerinin herhangi bir dinleyici tarafından deşifre edilebileceğini ve anlaşılabileceğini gösterdik.”

Onlarca yıl süren araştırmalar, insanlar konuşurken – ve hatta hayal ettikleri zaman bile – beynindeki aktivite kalıplarının açığa çıktığını göstermiştir. Belirgin (ancak tanınabilir) bir sinyal kalıbı, birisinin konuşmasını dinlediğimizde veya dinlemeyi hayal ettiğimizde de ortaya çıkar. Bu kalıpları kaydetmeye ve deşifre etmeye çalışan uzmanlar, düşüncelerin beynin içinde saklı kalmasına gerek olmayan ancak bunun yerine, sözlü dile çevrilebilen bir geleceği öngörüyorlar.

Ancak bu başarıya ulaşmak zor oldu. Mesgarani ve diğerleri tarafından beyin sinyallerini çözmek için yapılan erken çabalar, ses frekanslarının görsel temsilleri olan spektrogramları analiz eden basit bilgisayar modellerine odaklanmıştı.

Ancak bu yaklaşım anlaşılır konuşmaya benzeyen bir şey üretemediğinden Dr. Mesgarani’nin takımı bunun yerine, konuşan kişilerin kayıtları üzerine eğitildikten sonra konuşmayı sentezleyebilen bir bilgisayar algoritması olan ses kodlayıcısına döndü.

Columbia Fu Vakfı Mühendislik ve Uygulamalı Bilimler Fakültesi’nde elektrik mühendisliği doçenti olan Dr. Mesgarani, “Bu, ‘Amazon Echo’ ve ‘Apple Siri’ tarafından sorularımıza sözel cevaplar vermek için kullanılan teknolojinin aynısıdır” dedi.

Ses kodlayıcısına beyin aktivitesini yorumlamayı öğretmek için Dr. Mesgarani, Northwell Health Physician Partners Neuroscience Enstitüsü’ndeki bir beyin cerrahı ve bugünkü makalenin yazarlarından Ashesh Dinesh Mehta ile birlikte çalıştı. Mehta, bazıları düzenli ameliyatlar geçirmesi gereken epilepsi hastalarını tedavi ediyor.

Dr. Mestarani, “Dr. Mehta ile birlikte çalışarak, beyin ameliyatı geçiren epilepsi hastalarından, beyin aktivitesi örneklerini ölçtüğümüz sırada farklı insanlar tarafından konuşulan cümleleri dinlemelerini istedik” dedi, “Bu sinir kalıpları ses kodlayıcıyı eğitti”.

Daha sonra, araştırmacılar aynı hastalardan 0 ila 9 arasındaki basamakları okuyan hoparlörü dinlemelerini isterken sonradan ses kodlayıcısı ile çalıştırılabilir beyin sinyallerini kaydettiler. Ses kodlayıcısı tarafından bu sinyallere cevap olarak üretilen ses analiz edildi ve biyolojik beyindeki nöronların yapısını taklit eden bir tür yapay zeka olan sinir ağları tarafından düzeltildi.

Sonuç, bir dizi numarayı okuyan robotik bir ses oldu. Kaydın doğruluğunu test etmek için, Dr. Mesgarani ve ekibi bireylere kaydı dinlemek ve duyduklarını rapor etmek için görev verdi.

Mesgarani, “İnsanların, seslerin %75’ini anlayabildiğini ve tekrarlayabildiğini gördük, ki bu, önceki girişimlerin çok üstünde ve ötesinde” dedi. Anlaşılabilirlikteki gelişme özellikle yeni kayıtları önceki, spektrogram tabanlı girişimlerle karşılaştırırken belirgindi. “Hassas ses kodlayıcı ve güçlü sinir ağları, hastaların ilk dinlediği sesleri şaşırtıcı derecede doğrulukla temsil ediyordu”.

Mesgarani ve ekibi daha sonra daha karmaşık kelimeleri ve cümleleri test etmeyi planlıyor ve aynı konuşmayı bir kişi konuştuğunda ya da konuşmayı düşündüğünde yaydığı beyin sinyalleri üzerinde yapmak istiyorlar. Sonuçta, sistemlerinin bazı epilepsi hastaları tarafından giyilenlere benzer, kullanıcının düşüncelerini doğrudan kelimelere çeviren bir implantın parçası olabileceğini umuyorlar.

Dr. Mesgarani, “Bu senaryoda, kullanıcı ‘bir bardak suya ihtiyacım var’ diye düşünüyorsa, sistemimiz bu düşüncenin ürettiği beyin sinyallerini alabilir ve bunları sentezlenmiş, sözlü konuşmaya dönüştürebilir” dedi, ““Bu oyunu değiştiren bir şey olurdu. Yaralanma veya hastalık nedeniyle konuşma kabiliyetini kaybetmiş olan herkese, etraflarındaki dünyayla bağlantı kurma şansını verirdi”.

Araştırmacılar tarafından bir ses kodlayıcısı ve derin sinir ağı modeli kullanan ses rekonstrüksiyonuna yeni yaklaşımlarının gösterilmesi.

By The Zuckerman Institute at Columbia University, January 29, 2019

Kaynak Haber: https://zuckermaninstitute.columbia.edu/columbia-engineers-translate-brain-signals-directly-speech

Kaynak Makale: Hassan Akbari, Bahar Khalighinejad, Jose L. Herrero, Ashesh D. Mehta, Nima Mesgarani. Towards reconstructing intelligible speech from the human auditory cortex. Scientific Reports, 2019; 9 (1) DOI: 10.1038/s41598-018-37359-z