Uzun Kısa Süreli Bellek Sinir Ağı Bölüm 1 Kullanılarak Sıçan Elektroensefalografisinden Sesli Harf Konuşma Tanıma
Dec 27, 2023
Soyut
Yıllar boyunca, konuşmayı algılama ve tanıma mekanizmalarını araştırmak için önemli araştırmalar yapılmıştır.
Konuşma algısı ile hafıza arasında ayrılmaz bir ilişki vardır. Konuşma algısı, ses sinyallerinden haberdar olmamız açısından önemli bir yetenektir ve hafıza, bilgiyi depolamak ve almak için kullandığımız önemli bir yoldur. Konuşmayı daha iyi algılayabildiğimizde duyduğumuz bilgiyi de daha iyi hatırlayabiliriz.
Araştırmalar konuşma algısı ile hafıza arasındaki ilişkinin çift yönlü olduğunu göstermektedir. Bir yandan zayıf konuşma algısı hafıza bozukluğuna yol açabilir. Bunun nedeni konuşmayı net bir şekilde duyamadığımızda duyduğumuz bilgiyi doğru bir şekilde hatırlayamamamızdır. Öte yandan güçlü konuşma algısı hafızamızı geliştirebilir. Konuşmayı doğru algılayıp anladığımızda duyduklarımızı da daha kolay hatırlayabiliriz.
Bu nedenle hafızamızı geliştirmek için konuşmayı algılama becerilerimizi geliştirmeye odaklanmalıyız. Bu, dinleme ve konuşmayı anlama becerilerimizi geliştirerek başarılabilir. Kayıtları dinlemek, film izlemek, dil derslerine katılmak gibi aktivitelerle konuşma algımızı ve hafızamızı geliştirebiliriz.
Kısacası konuşma algısı ile hafıza arasında yakın bir ilişki vardır ve hafızamızı geliştirmek için konuşmayı algılama becerilerimizi geliştirmeye odaklanmalıyız. Aktif eğitim ve uygulama sayesinde konuşma algı düzeyimizi sürekli geliştirebilir ve duyduklarımızı daha iyi anlayıp hatırlayabiliriz. Belleği geliştirmemiz gerektiği görülebilir ve Cistanche Deserticola hafızayı önemli ölçüde geliştirebilir, çünkü Cistanche Deserticola aynı zamanda asetilkolin ve büyüme faktörlerinin seviyelerini arttırmak gibi nörotransmitterlerin dengesini de düzenleyebilir. Bu maddeler hafıza ve öğrenme için çok önemlidir. Ayrıca et, kan akışını iyileştirebilir ve oksijen dağıtımını destekleyebilir, bu da beynin yeterli besin ve enerji almasını sağlayarak beyin canlılığını ve dayanıklılığını artırır.

Kısa süreli hafızayı geliştirmek için Bil'e tıklayın
Elektroensefalografi (EEG), beyin aktivitesini tanımlamak için güçlü bir araçtır; bu nedenle konuşma tanımanın sinirsel temelini belirlemek için yaygın olarak kullanılmaktadır.
Özellikle konuşma tanımanın sınıflandırılması için derin öğrenmeye dayalı yaklaşımlar ön plandadır çünkü uçtan uca öğrenme yoluyla temsili özellikleri otomatik olarak öğrenip çıkarabilirler.
Bu çalışma, sıçan beynindeki fonem temsiliyle potansiyel olarak ilişkili olan belirli bileşenleri tanımlamayı ve çift yönlü uzun kısa süreli bellek (BiLSTM) ağı ve klasik makine öğrenimi yöntemlerini kullanarak tek deneme temelinde her sesli harf uyarısı için beyin aktivitesini ayırt etmeyi amaçladı.
Bilateral ön işitsel alanlardan gelen EEG sinyallerini kaydetmek için mikroelektrot implantasyon ameliyatına tabi tutulan on dokuz erkek Sprague-Dawley sıçanı kullanıldı. Oldukça farklı formant frekanslarına sahip olan /a/, /e/, /i/, /o/ ve /u/ olmak üzere beş farklı sesli harf konuşma uyaranı seçildi. Rastgele verilen sesli harf uyarıları altında kaydedilen EEG, konuşma tanımanın sınıflandırılmasında girdi olarak kullanılmak üzere minimum düzeyde ön işleme tabi tutuldu ve bir z-puanı dönüşümü ile normalleştirildi.
BiLSTM ağı, sırasıyla %75,18, 0,75 ve 0,68 genel doğruluk, f{{0}}puanı ve Cohen κ değerlerine ulaşarak sınıflandırıcılar arasında en iyi performansı gösterdi. 10-katlı çapraz doğrulama yaklaşımı kullanarak.
Bu sonuçlar, LSTM katmanlarının EEG gibi sıralı verileri etkili bir şekilde modelleyebildiğini; dolayısıyla bilgilendirici özellikler, herhangi bir ek el yapımı özellik çıkarma yöntemine gerek kalmadan, uçtan uca öğrenmeyle eğitilmiş BiLSTM aracılığıyla türetilebilir.
giriiş
Konuşma beyne çok büyük miktarda bilgi taşır ve davranan hayvanların seslerini tanımak ve sınıflandırmak beynin tipik özelliklerinden biridir.
Önemi göz önüne alındığında, konuşma sesini tanıma mekanizmalarını araştırma girişimleri 100 yılı aşkın bir süredir yürütülmektedir. Konuşma tanımayla ilgili ilk nörolinguistik çalışmalardan biri, 1870'lerde Alman bir nöropsikiyatrist tarafından yapılan gözlemsel bir çalışma aracılığıyla yürütüldü; bu çalışma, konuşma algısında üst temporal girusun önemli rolünü buldu ve konuşmayı tanımadaki eksikliklerin, sol üst temporal girustaki hasarla ilişkili olduğu sonucuna vardı. 1].
Konuşma tanımanın ağırlıklı olarak, birincil işitsel korteksi (A1) ve ön işitsel alanı (AAF) içeren üst temporal girus da dahil olmak üzere dorsolateral temporal loblara dayandığı artık bilinmektedir [2].

Ses birimlerinin beyinde kodlanma ve yorumlanma biçimi tartışmalı olmaya devam etse de, sesin tanınmasının kategorik olduğu yaygın olarak kabul edilmektedir. Yani, akustik farklılıklar eşdeğer olsa bile, farklı fonetik kategorilere ait uyaranlar için ayrım, aynı kategoriye ait uyaranlara göre daha iyidir [3, 4].
Yalnızca insanların değil, hayvanların da algı sistemleri, sürekli değişen ses uyaranlarını bir dizi ayrık kategoriye ayırır [5].
Nörofizyolojik çalışmalardaki ilerlemelerle birlikte elektroensefalografi (EEG), sinir bilimi ve sinir mühendisliğini kapsayan araştırmalarda yaygın olarak kullanılmaktadır [6].
Yüksek zamansal çözünürlük ve farklı fonksiyonel beyin durumlarına olan hassasiyet, EEG'yi gerçek zamanlı beyin aktivitesini araştırmak için güçlü bir araç haline getirmektedir ve kategorik algının sinirsel temelini aydınlatmaya yönelik ilgi giderek artmaktadır. Geleneksel olarak, EEG sinyalleri insan çalışmalarında kafa derisinden invaziv olmayan bir şekilde kaydedilir. Ses veya konuşma algısı düzeyinde, tuhaf seslerle ortaya çıkan işitsel uyarılmış potansiyelin (AEP) bir bileşeni olan uyumsuzluk olumsuzluğu (MMN), kategorik algının sinirsel bağıntılarını incelemek için yaygın olarak kullanılmaktadır [7, 8]. Naatanen ve ark. İnsan beyninde dile bağlı sesli harf temsillerine dair kanıt bulundu [9].
Başka bir çalışma, sözcük tonlarının kategorik algısını incelemiş ve kategoriler arası kontrastın, kategori içi ayrımdan daha büyük bir MMN ortaya çıkardığını bulmuştur [10]. Hayvan deneylerinde invaziv prosedürlerle daha doğru EEG sinyalleri elde edildi.
Örneğin, kategorik algının sinirsel bağlantıları ve çeşitli seslerin sinirsel temsilleri, aksiyon potansiyelinin hücre dışı kaydı kullanılarak incelenmiştir.
Ötücü kuşların Striatum projeksiyonlu nöronları kategorik işitsel tepkiler gösterir ve nota süresindeki değişikliklere karşı oldukça duyarlıdır [11]. Ayrıca Kilgard ve ark.sıçan beyninde intraparenkimal kayıt kullanarak ünsüz ve ünlü seslerin farklı sinirsel temsillerini inceledi. İnferior kollikulus ve A1'den gelen çoklu ve tek birimli yanıtları kaydederek, sivri uçun ünlü sesleri kodladığını, sivri zamanlamanın ise ünsüz sesleri kodladığını öne sürdüler [12, 13].
Otizmli bir sıçan modelinde ses ayrımcılığı eğitiminin etkileri, ses uyaranlarına verilen nöral tepkileri ses algılama yeteneğiyle ilişkilendiren önceki bulgulara dayanarak da araştırıldı [14].
Dahası, yakın zamanda yapılan bir çalışma, çok kanallı bir diziyle kaydedilen elektrokortikografinin, anestezi altındaki sıçanların işitsel korteksinde bile belirli bir sese pasif maruz kalma ile ilişkili olduğunu gösterdi [15].
EEG'nin pratik kullanımını sağlamak için makine öğrenimi yaklaşımları çok çeşitli çalışmalarda kullanılmıştır. Makine öğrenimi yöntemlerinin kullanılması, EEG sinyallerinden elde edilmesi zor ve doğal olan zengin bilgilerin araştırılmasına olanak sağlar [6].
Bu nedenle, EEG tabanlı sınıflandırma, geleneksel makine öğrenme algoritmaları (örneğin, destek vektör makinesi (SVM), k-en yakın komşular (KNN) ve naif Bayes(NB)) aracılığıyla aşağıdaki alanlarda gerçekleştirilebilir: motor görüntüleri, duygu tanıma, akıl hastalığı tespiti, olayla ilgili potansiyel (ERP) tespiti vb. [16, 17].

Ayrıca son yıllarda grafik işleme birimlerindeki artan ilerlemeler ve büyük veri kümelerinin kullanılabilirliği sayesinde, çeşitli derin öğrenme ağlarını kullanarak EEG tabanlı sınıflandırma yapmak mümkün hale gelmiştir [6, 18, 19].Geleneksel makine öğrenimi yöntemleriyle karşılaştırıldığında Derin öğrenme ağları, giriş verilerinden uygun temsilleri otomatik olarak algılayabilir ve çıkarabilir [20, 21].
Bu nedenle, ön uzman bilgisi yetersiz olsa bile, ek bir el yapımı özellik çıkarma işlemi gerektirmeyen derin öğrenme algoritmaları yoluyla umut verici sonuçlar elde edilebilir [22, 23].
Örneğin konuşma, görüntü ve video alanlarında, derin öğrenme algoritmalarının uygulanmasıyla sonuçlar önemli ölçüde iyileştirildi [24-26]. Ancak, geleneksel makine öğrenimi yöntemleri yerine derin öğrenme yaklaşımları kullanıldığında, bu tür üstün performans gösteren sonuçların her zaman EEG tabanlı sınıflandırma alanına eşlik edip etmeyeceği açık değildir [27].
Roy ve arkadaşları, çalışmaların çoğunda (102 çalışmadan dördü hariç), derin öğrenme yaklaşımının geleneksel makine öğrenmesi yaklaşımından daha yüksek performansa yol açtığını ve doğruluktaki en yüksek iyileşmenin %35,3 olduğunu gösterdi [18, 28].
Ayrıca EEG tabanlı sınıflandırma çalışmalarının çeşitli alanlarından ERP sınıflandırma çalışmaları hem geleneksel makine öğrenmesi hem de derin öğrenme yöntemleri uygulanarak aktif olarak yürütülmektedir.
İlk çalışmalarda, EEG sinyallerinin sınırlamalarından biri olan düşük sinyal-gürültü oranını (SNR) geliştirmek ve ERP sinyallerini elde etmek için geleneksel genel ortalama yöntemi kullanıldı.
Bu çalışmalarda, çeşitli ERP bileşenleri sınıflandırma için özellik kümeleri olarak ele alınmıştır [29, 30]. Hayvan çalışmalarında, ERP sinyallerini ayırt etmek için tepe genliği ve gecikme gibi ERP özellikleri de kullanılmaktadır [31, 32].
Ancak tek deneme düzeyindeki EEG verilerinin, geleneksel genel ortalama yöntemiyle elde edilen ERP sinyallerinden daha işlevsel ve zengin bilgiye sahip olduğu bilindiğinden, tek denemeli EEG tabanlı sınıflandırma da büyük ilgi görmüştür [33, 34].
Bu nedenle, daha sonraki çalışmalarda, geleneksel makine öğrenimi yöntemlerini [38, 39] kullanarak sınıflandırma için dalgacık tabanlı algoritmalar [35], Gauss karışım modelleri [36] ve uzaysal filtreleme [37] gibi çeşitli algoritmalar tarafından çıkarılan özellikler. Tek denemeli EEG'den elde edilen el yapımı özellikler, ek işlem adımlarının yürütülmesi gerektiğinden zaman alıcı ve emek yoğundur. Bu bağlamda derin öğrenme yöntemleri uçtan uca öğrenmeye olanak sağlayarak bu sorunu hafifletebilir.
En yaygın derin öğrenme mimarisi, evrişimli bir sinir ağıdır (CNN), ardından tekrarlayan bir sinir ağıdır (RNN). CNN, tek denemeli EEG tabanlı sınıflandırma için yaygın olarak kullanılan özel bir derin öğrenme mimarisi türüdür [6]. CNN girişleri ham veya önceden işlenmiş EEG verilerinden temel olarak aşağıdaki biçimde elde edilir: tek bir denemedeki kanal sayısı × zaman noktası sayısı.
Ayrıca, kayda değer sınıflandırma sonuçları gösterilmiştir ve spektrogram görüntülerinin girdi olarak kullanılması durumunda en iyi performansı gösterdiği bilinmektedir [40-44]. CNN'den farklı olarak RNN, özellikle sıralı verileri işlerken (doğal dil işleme uygulamalarında olduğu gibi) oldukça tercih edilen bir mimaridir çünkü RNN öğrenme mimarisinin tekrarlayan bağlantısı, ağın önceki bilgilerinin güncel giriş verileri olarak yinelemeli olarak kullanılmasını mümkün kılar. ]
Uzun kısa süreli bellek (LSTM), Hochreiter ve Schmidhuber tarafından RNN'nin patlayan ve kaybolan gradyan problemlerinin üstesinden gelmek için önerilen bir tür RNN mimarisidir [46]. Çift Yönlü LSTM (BiLSTM), hem önceki hem de sonraki bilgilere erişmek için ileri ve geri gizli katmanları birleştiren LSTM'nin daha da geliştirilmiş halidir.
BiLSTM modeli çok daha karmaşık olmasına ve ek hesaplama gücüne ihtiyaç duymasına rağmen, sıralı modelleme ve sınıflandırma görevini LSTM'den daha iyi çözmesi beklenmektedir [47].
Daha önce insan beynine yönelik makine öğrenimi tekniklerini kullanarak EEG sinyallerini üç sesli harf, /a/,/o/ ve /u/ için tek deneme temelinde sınıflandırmaya çalışıyorduk.
Çok değişkenli ampirik mod ayrıştırması (MEMD) dahil olmak üzere uygun sinyal işleme algoritmalarının uygulanmasından sonra, EEG yanıtları, doğrusal bir diskriminant analizi (LDA) sınıflandırıcı kullanılarak her sesli harfe göre etkili bir şekilde sınıflandırıldı. EEG sinyallerinin zaman-frekans gösteriminden (TFR), alfa bandı bileşenlerinin sesli harf algısıyla en ilişkili sinirsel tepkiler olduğu da belirlenmiştir [48].
Bununla birlikte, insan EEG sinyallerinin düşük SNR'si nedeniyle, beyindeki fonem temsilinin, daha güvenilir EEG sinyallerinin elde edilmesine olanak tanıyan daha invazif bir kayıt tekniği ile daha fazla değerlendirilmesi gerekmektedir.
Ayrıca farklı ses birimlerine verilen EEG yanıtlarının sınıflandırılmasında her bir makine öğrenmesi algoritmasının sınıflandırma performansına ilişkin ileri çalışmaların yapılması gerekmektedir.
Bu çalışmanın temel amacı, beynin konuşma sesi tanıma tepkilerini daha da aydınlatmak için sıçan beynindeki konuşma temsiliyle ilişkili olabilecek spesifik EEG bileşenlerini belirlemekti.
Daha doğru EEG sinyalleri elde etmek için işitsel uyaranlara yanıt veren epidural EEG sinyalleri, işitsel algı ve kategorizasyonda önemli bir rol oynadığı bilinen AAF'ye kaydedildi [2]. Ek olarak, bu çalışma, LSTM ağlarını ve diğer geleneksel makine öğrenimi tekniklerini kullanarak tek deneme temelinde her konuşma sesi için farklı beyin tepkilerini ayırt etmeye çalıştı.
BiLSTM ağının, sesli harf uyaranlarına verilen EEG yanıtlarını sınıflandırmak için uygun olacağı ve diğer klasik sınıflandırıcılardan daha iyi performans göstereceği, çünkü ağın, EEG gibi sıralı verilerin uzun vadeli bağımlılıklarını modellemede güçlü bir performans sergileyebileceği varsayılmıştır. Yazarın bildiği kadarıyla, LSTM ağları işitsel uyaranlara verilen EEG yanıtlarının sınıflandırılmasında uygulanmamıştır ve bu, AAF'tan gelen epidural EEG sinyallerini analiz etmek için derin öğrenme algoritmasını kullanan ilk çalışmadır.

Ayrıca, derin öğrenme algoritması kullanılarak, EEG yanıtları, hiçbir ek özellik çıkarma yöntemi olmaksızın, minimal düzeyde önceden işlenmiş EEG sinyalleriyle uçtan uca öğrenme kullanılarak işitsel uyaranlar olarak sınıflandırıldı.
For more information:1950477648nn@gmail.com






