
تعداد نشریات | 43 |
تعداد شمارهها | 1,705 |
تعداد مقالات | 13,969 |
تعداد مشاهده مقاله | 33,509,557 |
تعداد دریافت فایل اصل مقاله | 13,276,121 |
تحلیل سیگنال گفتار بیماران آلزایمری فارسیزبان | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
هوش محاسباتی در مهندسی برق | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
مقاله 7، دوره 11، شماره 1، فروردین 1399، صفحه 81-94 اصل مقاله (2.09 M) | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
شناسه دیجیتال (DOI): 10.22108/isee.2019.109797.1109 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
نویسندگان | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
مهدیه رحمانی1؛ مریم مومنی* 2 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
1کارشناسی مخابرات، دانشکده فنی و مهندسی، دانشگاه اراک، اراک، ایران | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
2استادیار، گروه مهندسی برق، دانشکده فنی و مهندسی، دانشگاه اراک، اراک، ایران | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
چکیده | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
آلزایمر یک نوع اختلال عملکرد مغزی است که بهتدریج تواناییهای ذهنی بیمار تحلیل میرود؛ ازجمله علائم اولیة این بیماری فقدان حافظه، اختلال در تصمیمگیری و اشتباه در انتخاب واژگان درست است؛ بنابراین، پردازش سیگنال گفتار این بیماری توجه بسیاری از پژوهشگران را در دهه اخیر جلب کرده است. تشخیص بیماری آلزایمر با استفاده از سیگنال گفتار به فرهنگ و زبان و محتوای گفتار، جنسیت، سن، لهجه و بسیاری از عوامل دیگر وابسته است؛ ازاینرو، سیگنال گفتار بیماران آلزایمری در زبانهای مختلف بررسی شده است. هدف این مقاله تشخیص بیماران آلزایمری از افراد سالم با استفاده از پردازش سیگنال گفتار آنها در زبان فارسی با ترکیب ویژگیهای زمانی، فرکانسی و زمانی - فرکانسی است. در این مقاله پس از پیشپردازش سیگنال گفتار فارسی با بهرهگیری از بسته موجک، بهعنوان ویژگی زمان - فرکانس در کنار ضرایب کپسترال فرکانس مل، نرخ عبور از صفر، افت طیف، پهنای باند، انرژی سیگنال و فرکانس مرکز طیفی، ویژگیهای سیگنال گفتار بیماران آلزایمری و افراد سالم استخراج شدند و دقت طبقهبندی نتایج با ماشین بردار پشتیبان، نتیجة 96% را دربرداشت. نتایج پذیرفتنی نشاندهندة الگوریتم پیشنهادی غیرتهاجمی و کمهزینه در تشخیص بیماران آلزایمری فارسیزبان است. | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
کلیدواژهها | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
بیماری آلزایمر؛ تبدیل موجک گسسته؛ سیگنال گفتار؛ ماشین بردار پشتیبان | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
اصل مقاله | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
1- مقدمه[1] آلزایمر یک نوع اختلال عملکرد مغزی است که بهتدریج تواناییهای ذهنی بیمار تحلیل میرود. علائم اولیة این بیماری فقدان حافظه، اختلال در تصمیمگیری و اشتباه در انتخاب واژگان درست است. یکی از نخستین بخشهای تأثیرگرفته از این بیماری، قسمتی از قشر مغز است که توانایی پردازش صحبت را دارد [1]؛ بنابراین، پردازش سیگنال گفتار این بیماری میتواند در تشخیص آن مفید واقع شود. همچنین، تجزیه و تحلیل سیگنال گفتار در بسیاری از موارد برای ایجاد ارتباط بهتر و آسانتر بین انسان و ماشین صورت گرفته است [2]. این حقیقت سبب شده است پژوهشگران علاقة زیادی به سیگنال گفتار داشته باشند تا بتوانند ارتباط بین ماشین و انسان را به این طریق به وجود آورند که پردازش خودکار گفتار ([1]ASR) این امکان را برای پژوهشگران فراهم کرده است [3]. همچنین، تشخیص بیماری آلزایمر با استفاده از سیگنال گفتار به فرهنگ و زبان و محتوای گفتار، جنسیت، سن، لهجه و بسیاری از عوامل دیگر وابسته است [4]؛ ازاینرو سیگنال گفتار بیماران آلزایمری در زبانهای فارسی [5]، اسپانیایی [6]، انگلیسی [7]، فرانسوی [8]، کاتالان، چینی، باسک، عربی، پرتغالی [9] و روسی [10] بررسی شده است. بهطور کلی بررسی سیگنال گفتار بیماران آلزایمری شامل دو مرحلة استخراج ویژگی و طبقهبندی است [11]. به دست آوردن بهترین نتیجه و استخراج درست ویژگی در مرحلة نخست بر روند انجام مرحلة دوم تأثیر میگذارد. در مرحلة نخست باید اطلاعاتی از سیگنال گفتار استخراج شود که حداکثر تفاوت را بین ویژگیهای افراد سالم و بیماران آلزایمری داشته باشد. نشان داده شده است که ویژگیهای نوایی مثل فرکانس پایه، فرمنتها [13،12]، ویژگیهای زبان و فرکانس مانند ضرایب کپسترال فرکانس مل ([2]MFCC) در این حوزه بسیار پرکاربرد است [14]. در مرجع [9]، ابعاد فرکتال و پارامترهای خطی برای بهبود عملکرد سیستم تشخیص بیماری آلزایمر بررسی میشود. در مرجع [8]، نخستین نشانگرهای صوتی از سیگنال گفتار سه سطح از بیماران آلزایمری استخراج شده و اختلال شناختی بیماران آلزایمری در مراحل اولیه و افراد سالم ارزیابی شده است. در مرجع [15]، ویژگیهای وابسته به تغییرات زمانی سیگنال گفتار در بیماران آلزایمری ارزیابی شده است. در مرجع [16]، اهمیت حروف بیصدا در دستیابی به نتایج مطلوب در تشخیص بیماری نشان داده شده است. در مرجع [17]، شدت و سطح بیماری آلزایمر با استفاده از روان صحبت کردن و تشحیص احساس بیماران بررسی شده که برای شناسایی احساس از ویژگیهای پروزودیک[3] و زبانشناختی سیگنال گفتار استفاده شده است. در مرجع [10]، ویژگیهایی از سیگنال گفتار همچون نقش کلمات در جمله، گرامر صحیح، تلفظ کلمات، روانشناسی لغات و MFCC بیماران روسی زبان بررسی شده است. در مرجع [6]، ویژگیهایی همچون تعداد فعل، اسم، حروف ربط و روشهای آماری از سیگنال گفتار بیماران آلزایمری اسپانیایی زبان بررسی شده و طبقهبندی با استفاده از ماشین بردار پشتیبان([4]SVM) با کرنل تابع پایه شعاعی ([5]RBF) صورت گرفته است. مطالعات نشان میدهند حدود دو سوم از سیگنال گفتار صدادار است و نقش بسیار مهمی در گفتار دارد که بهدلیل طبیعت متناوب میتواند شناسایی و استخراج شود [19،18]. بررسیهای انجامشده نشان میدهند طنین حروف صدادار و بیصدا در بیماران آلزایمری تفاوت بسیاری دارند؛ بنابراین، ویژگیهایی که حروف صدادار در آنها نقش مهمی بر عهده دارند، مانند انرژی، فرکانس مرکزی طیف ([6]SC)، نرخ عبور از صفر ([7]ZC)، میانگین مربعات ([8]RMS)، پهنای باند ([9]BW) و افت طیف ([10]SR) میتوانند مفید واقع شوند [20]. در مقالة حاضر نیز از این ویژگیها استفاده شده است. همچنین، تبدیل موجک در تحلیل سیگنال گفتار استفاده میشود؛ زیرا تجزیه و تحلیل را با رزولوشن چندمنظوره انجام میدهد و امروزه در تحلیل سیگنالهای بیولوژیکی بسیار استفاده میشود [22،21]. بسته موجک، تعمیمیافتة تبدیل موجک است و بهدلیل حجم بالای اطلاعات استخراجشده، آنتروپی در گرههای درخت موجک بهعنوان بردار ویژگی استفاده میشود [23-28]. در مقالة حاضر نیز از بسته موجک برای تکمیل بردار ویژگی استفاده شده است؛ زیرا بسته موجک بهطور چشمگیری تفاوت بین سیگنالها را نشان میدهد [26]. در این مقاله، پس از اخذ سیگنال گفتار و پیشپردازش، ویژگیهای زمانی، فرکانسی و زمانی - فرکانسی سیگنال گفتار بررسی و طبقهبندی شده و درنهایت، تحلیل نتایج صورت گرفته است (شکل 1).
شکل (1): بلوک دیاگرام مراحل انجام کار 2- روش 2-1- داده صدای ضبطشده از بیماران آلزایمری در مرکز نگهداری بیماران آلزایمری شایستگان با میکروفون SWD\MMDEVAPI HP جمعآوری شده است. اطلاعات بهدستآمده شامل 100 داده از افراد سالم و بیماران آلزایمری در فاصلة سنی 85-50 سال است. دادههای پردازششده در محیطی دوستانه، جمعآوری و از بیماران سؤالاتی مشخص در آرامش پرسیده شده است. مدت زمان مکالمة ضبطشدة هریک از مصاحبهشوندگان حدود 70 دقیقه و در فرمت .wav است. این پژوهش، مجوز اخلاقی از مرکز مربوطه دارد. دادههای اخذشده با پردازشگر i5-5200U CPU 2.20GHz و با نرمافزار متلب 2018 (MATLAB) پردازش شدهاند. 2-2- پیشپردازش ابتدا نویز موجود در دادههای جمعآوریشده، حذف و سیگنال گفتار نرمالیزه میشود. سپس با توجه به ماهیت غیرایستان سیگنال گفتار، با استفاده از پنجره همینگ، به قسمتهای 50-30 میلیثانیه با همپوشانی 50%، تقسیم و سکوت در سیگنال گفتار با عبور از صفر و انرژی سیگنال حذف میشود. شکل موج سیگنال گفتار و سکوت
2-3- استخراج ویژگی گفتار بیماران آلزایمری آرامتر و با تعداد مکثهای زیادی است و برای پیداکردن کلمة مناسب مدت زمان زیادی را صرف و بیشتر جملات خود را ناتمام رها میکنند. در سیگنال گفتار افراد سالم، حروف صدادار بهخوبی مشهودند و تعداد بیشتری حرف صدادار دارد؛ درحالیکه در سیگنال گفتار بیماران آلزایمری حروف صدادار کاهش یافتهاند و درنتیجه، انرژی سیگنال کمتر میشود؛ زیرا حروف صدادار دارای سطح بالایی از انرژیاند. همچنین، بیان جملات مشابه در بیماران آلزایمری سرعت کمتری نسبت به افراد سالم دارد. بنابراین، سبب افزایش طول سیگنال گفتار برای جملات و کلمات مشابه میشود؛ درنتیجه، این ویژگیها بر انرژی و پهنای باند سیگنال تأثیر میگذارند. در شکل (3)، سیگنال گفتار بیمار آلزایمری و فرد سالم نشان داده شده است. انرژی سیگنال در بیمار آلزایمری نسبت به فرد سالم 7880/0 است.
در این مطالعه، ویژگیهای استخراجشده به سه دسته تقسیم میشوند:
استخراج ویژگی ZC یکی از رایجترین روشها برای تحلیل سیگنال گفتار است. نرخ عبور از صفر، نرخ تغییرات علامت در طول یک سیگنال است؛ یعنی نرخی که سیگنال از مثبت به صفر تا منفی یا از منفی به صفر تا مثبت تغییر میکند. به کمک رابطة زیر برای هر فریم نرخ عبور از صفر به دست میآید:
در رابطة بالا نمونههای سیگنال مربوط به فریم ام و طول فریم است که برابر با 480 نمونه بهمنظور محاسبة مقدار RMS سیگنالهای متناوب، روشهای مختلفی وجود دارند که در اینجا از انتگرال یکپارچهسازی دادههای پیوسته و از رابطة زیر به دست آمده است [27]:
که در آن مقدار سیگنال در بازة بین و و دورة تناوب سیگنال است. SC تخمینی از مرکز ثقل طیف در هر باند فرعی است؛ در اصل بهعنوان یک ویژگی برای سیستم تشخیص گفتار ارائه شده است. طیف مرکزی فرکانس، میانگین وزنهای فرکانسی باندهای فرعی را محاسبه میکند که در آن وزنها نرمالیزه شدهاند و بیانکنندة انرژی هریک از مؤلفههای فرکانسیاند [28]:
که S[f] طیف سیگنال گفتار است و میتواند با استفاده از فیلتر گابور[11] که در حوزة فرکانس با نمایش داده میشود به m باند فرعی تقسیم شود. با فرض کمترین فرکانس و بیشترین فرکانس در mامین باند فرعی، در mامین باند فرعی محاسبه میشود. SR، 95% از توزیع طیفی توان را مشخص میکند. این اندازهگیری قسمتهای صدادار و بیصدای گفتار را از هم متمایز میکند. کلمات بیصدا محدودة وسیعی از طیف فرکانسی را شامل میشوند؛ اما بیشتر انرژی مربوط به کلمات بیصدا در باندهای پایینی قرار دارند [29]. محاسبة ضرایب MFCC، روش رایج و معروف در زمینة ستخراج ویژگی سیگنال گفتار است. مطالعات نشان میدهند سیستم شنوایی انسان، سیستم خطی نیست؛ به این صورت که برای مؤلفههای زیر 1000 هرتز، بهصورت خطی و برای مؤلفههای بالای 1000 هرتز بهصورت لگاریتمی عمل میکند [30]. این امر سبب آشکارشدن ویژگیها و مشخصات آکوستیکی سیگنال گفتار میشود. براساس رابطة (4)، فرکانس در مقیاس مل حاصل میشود:
بلوک دیاگرام محاسبة MFCC در شکل (4) نمایش داده شده است. برای محاسبة ضرایب، ابتدا سیگنال گفتار با اعمال پنجره همینگ با طول 256 نمونه پنجرهگذاری میشود که در 128 نمونه همپوشانی دارند. استفاده از پنجره همینگ باعث میشود کمترین اطلاعات فرکانسی از دست برود. شکل(4):بلوکدیاگراممحاسبةMFCC بعد از مرحلة پنجرهگذاری تبدیل فوریه سریع روی هر فریم، اعمال و سپس بانک فیلتری مثلثی در مقیاس مل اعمال میشود و در مرحلة نهایی با اعمال تبدیل کسینوس با رابطة (5)، ضرایب از مقیاس مل به مقیاس زمانی تبدیل میشوند:
که در آن ضریب nام ضرایب MFCC، خروجی امین کانال بانک فیلتر، تعداد کانالهای بانک فیلتر است و است. در این مقاله تعداد کانالهای فیلتر، 40 و تعداد ضرایب انتخابی 19 در نظر گرفته شده است. تبدیل موجک اطلاعات دقیقی از سیگنال گفتار را دربردارد و این اجازه را میدهد تا در مقیاسهای متفاوت سیگنال بررسی شود [31]. تابع موجک برای ایجاد تعادلی بین حوزة زمان (بازه محدود) و حوزة فرکانس (پهنای باند محدود) به کار میرود. با تحلیل و تغییر اندازة موجک مادر، اجزای فرکانس پایین و بالا را بهترتیب در مقیاسهای بزرگ و کوچک میتوان مشاهده کرد [32]. تبدیل موجک از رابطة (6) به دست میآید:
که در آن، تبدیل ویولت اصلی است و و بهترتیب ضرایب مقیاس و جابجاییاند. معمولاً ضرایب و در تبدیل موجک گسسته به شکل زیر تعیین میشوند:
که در آن و عدد صحیحاند؛ بنابراین، تبدیل موجک گسسته از رابطة زیر به دست میآید:
گرچه پارامترهای این تبدیل گسستهاند، این تبدیل در حوزة زمان پیوسته است و ضرایب تجزیة موجک به کمک رابطة زیر محاسبه میشود:
که
تبدیل موجک کمک شایان توجهی در تحلیل و استخراج ویژگی سیگنال میکند. سیگنال در تبدیل موجک به دو گروه تقریب و جزئیات دستهبندی میشود و این روند روی نتایج تقریب ادامه مییابد؛ درحالیکه در بسته موجک همین روند روی هر دو گروه تقریب و جزییات تکرار میشود. بنابراین، تجزیه و تحلیل سیگنال به کمک بسته موجک نسبت به تبدیل موجک اطلاعات بیشتری خواهد داشت [33]. افزایش عمق پیشروی بسته موجک سبب میشود تحلیل سیگنال بهصورت جزئیتر و کاملتر بررسی شود؛ اما حجم و زمان محاسبات افزایش مییابد. شکل (5)، درخت بسته موجک با عمق پیشروی 4 شامل 31 گره را نشان میدهد.
شکل(5): درخت بسته موجک با عمق پیشروی 4 حجم بالای ضرایب و چند بعدی بودن آنها سبب میشود از آنتروپی شانون استفاده شود. آنتروپی معیاری از اطلاعات موجود در هر گره است. محاسبة اعداد و ویژگیهای استخراجشده از گرهها در بسته موجک، با استفاده از آنتروپی شانون، اطلاعات بسیار ارزشمندی را در اختیار ما قرار میدهد و کاهش حجم اطلاعات و محاسبات را سبب میشود [34]. 2-4- طبقهبندی عملکرد سیستمهای ASR مستقیماً به ابزار طبقهبندی استفادهشده بستگی دارد. بهطور کلی دو نوع ابزار طبقهبندیکننده وجود دارد؛ مولد[12] و تشخیصی[13][35]. مدل مولد سعی میکند پراکندگی دادهها را در یک کلاس خاص تخمین بزند، دادههای رقابتی را نادیده میگیرد و فقط اطلاعات مرتبط را در نظر میگیرد؛ مدل مخفی مارکف از این نوع است. مدل تشخیصی سعی میکند تابع طبقهبندی را پیشبینی کند و خطاهای طبقهبندی را تا حد ممکن کاهش دهد؛ SVM [36] و شبکههای عصبی [37] از این نوعاند. اساس کار SVM افزایش فاصله بین نمونهها و مشخصکردن مرز طبقهبندی است. این فاصله، حاشیه شناخته میشود و با افزایش آن قادر به تعمیم الگوهای ناشناخته است. راهحل افزایش حاشیه، به SVM این اجازه را میدهد تا بیشترین طبقهبندیهای غیرخطی را در حضور نویز، یکی از مشکلات ASR، انجام دهد. همچنین، SVMها مشکلات همگرایی و پایداری معمول که بیشتر شبکههای عصبی دارا هستند را ندارند. مفهوم اساسی نهفته در SVM، کاهش خطای ساختاری است [31]. یک دستگاه یادگیری بهگونهای انتخاب میشود که علاوه بر به حداقل رساندن خطای آزمون، تعمیمپذیری مناسبی در طبقهبندی و تخمینی از نسبت بردارهای طبقهبندیشده بر کل بردارهای آموزش داشته باشد [4]. 3- نتایج کارآیی روش پیشنهادی در این مقاله با استفاده از دادههای جمعآوریشده از بیماران آلزایمری فارسیزبان بررسی شده است. شکل (6)، اختلاف میانگین ویژگیهای استخراجشدة نوزده ضریب MFCC در افراد سالم و آلزایمری را نشان میدهد که نرخ تغییرات در طیف سیگنال گفتار را مشخص میکند. مقادیر مثبت ضرایب MFCC نشاندهندة وجود انرژی بیشتر است و متعاقباً ضرایب منفی انرژی بسیار کمی را در سیگنال گفتار نشان میدهند [38]. مطابق شکل (6)، تعداد ضرایب مثبت در افراد سالم بیشتر است که نشاندهندة انرژی بیشتر در سیگنال گفتار این افراد است. ضرایب ابتدایی (ضریب 11-1) نشاندهندة چگونگی توزیع انرژی در طیف سیگنال گفتار است و دیگر ضرایب (19-12) جزئیات طیفی سیگنال را بررسی میکنند؛ به همین دلیل استفاده از این ضرایب در تحلیل سیگنال گفتار مطلوب است. در شکل (6) نیز این ضرایب تفاوت بیشتری در دو گروه دارند.
شکل (6): نسبت ضرایب MFCC در دو گروه افراد سالم (خط ممتد) و بیماران آلزایمری (مستطیل) ضرایب حاصل در بردار ویژگی از MFCC، در دو گروه بهصورت چشمگیری تغییر کردهاند که تفاوتهای فرکانسی سیگنالهای گفتار ارزیابیشده در بیماران آلزایمری و افراد سالم فارسیزبان، به این امر بسیار کمک کردهاند. این تفاوتها که از ویژگیهای حروف و تأثیرات بیماری آلزایمری بر سیگنال گفتار حاصل میشوند، ویژگیهای مناسب برای طبقهبندی در نظر گرفته شدهاند.
شکل (7) نشاندهندة پراکندگی ویژگیهای RMS، ZC، SR، SC و BW است و میزان تفاوت ویژگیهای استخراجشده در هر دو گروه را نشان میدهد؛ برای مثال، در شکل (7-الف) که تفاوت ویژگیهای استخراجشدة حاصل از RMS را نشان میدهد، سیگنال گفتار از دو گویندة آقا (فرد سالم و آلزایمری) با گفتن جملة «من یک کشاورز هستم» به دست آمده است. پس از محاسبة ویژگی از سیگنال گفتار مشاهده میشود ویژگی استخراجشده بین افراد سالم (نقطه در شکل 7-الف) و آلزایمری (مربع در شکل 7-الف) متفاوت است که از این ویژگی در کنار دیگر ویژگیهای بهدستآمده برای طبقهبندی استفاده شده است. همانطور که در شکل (8) مشاهده میشود، رگرسیون موجکهای مادر دابیچیز ([14]db) نسبت به سایر موجکها بالاتر است. همچنین، آنتروپی شانون موجک مادر db4 بهترین عملکرد را بین سایر موجکهای db داشته است (جدول 1)؛ بنابراین، در این مطالعه از این موجک استفاده شده است. با توجه به تأثیر عمق پیشروی در بسته موجک بر نتایج بهدستآمده، عمق پیشرویهای متفاوتی، بررسی و سپس ویژگیهای استخراجشده با SVM ارزیابی و طبقهبندی شد. عمق پیشرویهای متفاوت درخت موجک مادر db4 در تشخیص بیماری آلزایمر در جدول (2) نشان داده شدهاند. بسته موجک با عمق پیشروی 4 به سیگنال گفتار اعمال و اطلاعات موجود در گرههای مشخصشده در شکل (5)، در شکل (9) نشان داده شده است. جدول (1): نرخ تشخیص بهازای انواع موجک db
جدول (2): نرخ تشخیص بهازای عمق پیشرویهای متفاوت موجک مادر db4
گره فرد (3،0) و زوج (3،1) بهترتیب خروجیهای فیلتر بالاگذر و پایینگذر را نشان میدهند. شکلهای
که در آن، TP مثبت درست، TN منفی درست،
شکل (9): اطلاعات موجود در گرههای مشخصشده در درخت موجک شکل (5)، شکلهای (الف) و (ب) بهترتیب نشاندهندة سیگنال گرههای (3،0) و (3،1) مربوط به بیمار آلزایمری و شکلهای (ج) و (د) نظیر گرههای گفتهشده در فرد سالم جدول (3): نتایج صحت طبقهبندی با SVM
4- بحث و نتیجهگیری گفتار یکی از مهمترین راههای ارتباط انسانی است و بهدلیل ماهیت آن، برای تشخیص زوال عقل استفاده میشود [39]. در این مقاله، روش پیشنهادی با استفاده از دادههای جمعآوریشده از بیماران آلزایمری فارسیزبان مطالعه شده است. در اینجا هدف بررسی ویژگیهای مستقل از گوینده است و تنوع جملات در دادههای تست و آموزش رعایت شده است. به این صورت که جملات یکسان در اخذ دادة افراد سالم و آلزایمری استفاده شدهاند؛ درحالیکه تنوع جملات در هر دو گروه بهمنظور داشتن عوامل تأثیرگذار در پردازش سیگنال گفتار (لهجه، جنسیت، سن و سطح بیماری) و تشکیل پایگاه دادة عمومیتر برای کسب نتایج قابل اطمینان رعایت شده است. این
مقاله
از ASR، روشی سودمند برای پردازش سیگنال گفتار بیماران آلزایمری، بهره گرفته است. انتخاب روش دقیق و درست برای استخراج بردار ویژگی از سیگنال گفتار تأثیر چشمگیری بر نتایج بهدستآمده خواهد داشت؛ بنابراین در این مقاله سعی بر این است که از پردازش گفتار در علم پزشکی و تشخیص بیماری آلزایمر در مراحل اولیه استفاده شود. ویژگیهایی انتخاب و ارزیابی شدهاند که بتوانند کمک شایان توجهی به این موضوع داشته باشند. ویژگیهای مطرحشده در این مقاله، ویژگیهای نوایی و فرکانسی ZC، SR، SC، BW و RMS و همچنین، ویژگیهای حاصل از بررسی فرکانس مل و استخراج ضرایب کپسترال آن و ضرایب حاصل از آنتروپی موجکاند که امروزه در پردازش سیگنال گفتار بسیار استفاده میشوند. پس از استخراج ویژگی، طبقهبندی با SVM انجام گرفته است و کرنلهای مختلف این روش ارزیابی شدهاند. مطابق جدول (3)، بردار ویژگی از آنتروپی بسته موجک، MFCC، ZC، SR، SC، BW و RMS تشکیل شد و با کرنلهای مختلفی ارزیابی شدند. کرنل توابع شعاعی در هر 6 بردار ویژگی نتایج خوبی نسبت به سایر کرنلها نداشته است. بردار تشکیلشده از ویژگیهای ZC، SR، SC، BW و RMS بهترین نتیجه را در طبقهبندی با صحت 91% و با استفاده از کرنل چندجملهای درجه 4 داشته است. نتیجة 91% بار دیگر در کرنل چندجملهای درجه 2 برای بردار ویژگی MFCC به همراه آنتروپی بسته موجک ظاهر شده است؛ اما اضافهکردن ویژگیهای ZC، SR، SC، BW و RMS به بردار ویژگی مذکور نتیجة 93% را داشته است که بهترین نتیجة حاصل از این طبقهبندی بوده است. جدول (4)، خلاصة برخی مطالعات انجامشده در زمینة تحلیل سیگنال گفتار بیماران آلزایمری را نشان میدهد. همانطور که در جدول (4) مشاهده میشود، در مراجع [5،8،40]، ویژگیهای زبانی و آماری سیگنال گفتار، پردازش و در [41،42] ویژگیهای گفتاری و زبانی تحلیل شدهاند. در [7] نیز گفتار از لحاظ احساس و عواطف بررسی شده است و در [9] زبانهای مختلف بررسی شدهاند. در مراجع [5،41،43]، ویژگیهای آکوستیک و در [44،45] ویژگیهای فرکانسی مانند MFCC استخراج و ارزیابی شدهاند. ویژگی آکوستیک، گفتاری و زبانی بهصورت دستی استخراج میشوند که بسیار زمانبرند و دقت بالایی ندارد. مرجع [5] باوجود عملکرد خوب، پیچیدگی محاسباتی دارد. در مقالة حاضر ویژگیهای متداول در پردازش سیگنال گفتار، همچون بسته موجک در کنار ضرایب کپسترال فرکانس مل، نرخ عبور از صفر، افت طیف، پهنای باند، انرژی سیگنال و فرکانس مرکز طیفی سیگنال گفتار بیماران آلزایمری و افراد سالم فارسیزبان بهطور خودکار استخراج شدهاند و در این طبقهبندی، دقت بهدستآمده با ماشین بردار پشتیبان 96% بوده است.
جدول (4): خلاصة برخی مطالعات انجامشده در زمینة تحلیل سیگنال گفتار بیماران آلزایمری
مشاهده میشود نتیجة حاصل از این پژوهش در زبان فارسی با کارهای مشابه در زبانهای دیگر مقایسهپذیر است؛ همچنین، استخراج ویژگیها بهصورت خودکار و مستقل از گویندهاند. گسترش این کار میتواند امکان ابتلا به این بیماری را در افراد پیشبینی کند و این مسئله کمک شایان توجهی در خصوص بهبود زندگی افراد خواهد داشت. برای دستیابی به اطلاعات دقیقتر میتوان افرادی را بررسی کرد که در سطح پایینتری از این بیماری قرار دارند و بیماری آنها به مرحلة حاد پیشرفت نکرده است. صحت عملکرد این ساختار را با علم پزشکی نیز میتوان بررسی کرد. در عصر حاضر، پیشبینیهای صورتگرفته در علم پزشکی براساس عوامل ژنتیکی، تحصیلات، حرفة افراد، منطقة آبوهوایی و سن افراد است که در صورت بررسی این موضوع به شکلی بسیار کاملتر این پیشبینی شکل دقیقتر و مفیدتری به خود خواهد گرفت. [1] تاریخ ارسال مقاله: 05/12/1396 تاریخ پذیرش مقاله: 04/09/1398 نام نویسندۀ مسئول: مریم مؤمنی نشانی نویسندۀ مسئول: ایران - اراک - دانشگاه اراک - دانشکده فنی و مهندسی - گروه مهندسی برق [1] Automatic Speech Recognition [2] Mel Frequency Cepstral Coefficients [3] Prosodic [4] Support Vector Machine [5] Radial Basis Function Kernel [6] Spectral Centroid [7] Zero Crossing [8] Root Mean Square [9] Band Width [10] Spectral Roll Off [11] Gabor [12] Generative [13] Discriminative [14] Daubechies [15] Morlet [16] Meyer [17] Haar | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
مراجع | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
[1] M. Nobakht, S. N. Hoseini, P. Mortazavvi, I. Sohrabi, B. Esmailzade, N. Rahbar Rooshandel, S. Omidzahir, "Neuropathological Changes in Brain Cortex and Hippocampus in a Rat Model of Alzheimer’s Disease", Iranian Biomedical Journal, Vol. 15, PP. 51-58, 2011. [2] A. Khodabakhsh, F. Yesil, E. Guner, C. Demiroglu, "Evaluation of Linguistic and Prosodic Features for Detection of Alzheimer’s Disease in Turkish Conversational Speech", EURASIP Journal on Audio, Speech, and Music Processing, Vol. 2015, No. 1, Mar. 2015. [3] M. El Ayadi, M. S. Kamel, F. Karray, "Survey on Speech Emotion Recognition: Features, Classification Schemes, and Databases", Pattern Recognition, Vol. 44, No. 3, PP. 572-587, Mar. 2011. [4] S. J. Chaudhari, R. M. Kagalkar, "Automatic Speaker Age Estimation and Gender Dependent Emotion Recognition", International Journal of Computer Applications, Vol. 117, No. 17, PP. 5-10, May 2015. [5] M. Nasrolahzadeh, Z. Mohammadpoori, J. Haddadnia, "Analysis of Mean Square Error Surface and its Corresponding Contour Plots of Spontaneous Speech Signals in Alzheimer's Disease with Adaptive Wiener Filter", Computers in Human Behavior, Vol.61, PP. 364-371, Aug. 2016. [6] L. Hernandez-Domınguez, E. Garcia-Cano, S. Ratte, G. Sierra-Martinez, "Detection of Alzheimer’s Disease Based on Automatic Analysis of Common Objects Descriptions", Proceedings of the 7th Workshop on Cognitive Aspects of Computational Language Learning, pp.10-15,11 Aug 2016. [7] K. Lopez-de-Ipiña, J. B. Alonso, J. Solé-Casals, N. Barroso, P. Henriquez, M. Faundez-Zanuy, C. M. Travieso, M. Ecay-Torres, P. Martinez-Lage H. Eguiraun, "On Automatic Diagnosis of Alzheimer's Disease based on Spontaneous Speech Analysis and Emotional Temperature", Cognitive Computation, Vol. 7, PP. 44-55, 2015. [8] A. König, A. Satt, A. Sorin, R. Hoory, O. Toledo-Ronen, A. Derreumaux, V. Manera, F. Verhey, P. Aalten, P. H. Robert, R. David, “Automatic speech analysis for the assessment of patients with predementia and Alzheimer’s disease”, Alzheimer’s & Dementia: Diagnosis, Assessment & Disease Monitoring, Vol. 1, No. 1, PP. 112–124, Mar. 2015. [9] K. López-de-Ipina˜, J. Solé-Casals , H. Eguiraun, J. B. Alonso, C. M. Travieso, A. Ezeiza, N. Barroso, M. Ecay-Torres, P. Martinez-Lage, B. Beitiaf, "Feature Selection for Spontaneous Speech Analysis to Aid in Alzheimer’s Disease Diagnosis: A Fractal Dimension Approach", Computer Speech and Language, Vol. 30, No.1 ,PP. 43-60, 2015. [10] K. C. Fraser, J. A. Meltzer, F. Rudzicz, "Linguistic Features Identify Alzheimer’s Disease in Narrative Speech", Journal of Alzheimer’s Disease, Vol. 49, No. 2, PP. 407-422, Oct. 2016. [11] M. Kalamani, S. Valarmathy, C. Poonkuzhali, R. Karthiprakash, "Comparison Of Cepstral And Mel Frequency Cepstral Coefficients For Various Clean And Noisy Speech Signals", ECE Department, Bannari Amman Institute of Technology, Vol. 2, No. 1, PP.2897-2904, 2014. [12] D. Gharavian, M. Sheikhan, F. Ashoftedel, "Using Neutralized Formant Frequencies to Improve Emotional Speech Recognition", IEICE Electronics Express, Vol. 8, No. 14, PP. 1155-1160, 2011. [13] A. Potamianos, P. Maragos, "Speech Formant Frequency and Bandwidth Tracking using Multiband Energy Demodulation", The Journal of the Acoustical Society of America, Vol. 99, No. 6,PP. 3795-3806, Jun. 1996. [14] B. J. Mohan, R. Babu, "Speech Recognition using MFCC and DTW", 2014 International Conference on Advances in Electrical Engineering (ICAEE), PP.1-4, Jan. 2014. [15] S. Ahmed, A. M. F. Haigh, C. A. de Jager, P. Garrard, "Connected Speech as a Marker of Disease Progression in Autopsy-Proven Alzheimer’s Disease", Brain, Vol. 136, No. 12, PP.3727-3737, Oct. 2013. [16] J. J. G. Meilán, F. Martínez-Sánchez, J. Carro, J. A. Sánchez, E. Pérez, "Acoustic Markers Associated with Impairment in Language Processing in Alzheimer’s Disease", The Spanish journal of psychology, Vol. 15, No. 02, PP.487-94, Jul. 2012. [17] K. López-de-Ipiña, J. B. Alonso, N. Barroso, M. Faundez-Zanuy, M. Ecay, J. Solé-Casals, C. M. Travieso, A. Estanga, A. Ezeiza, "New Approaches for Alzheimer’s Disease Diagnosis Based on Automatic Spontaneous Speech Analysis and Emotional Temperature", Ambient Assisted Living and Home Care, pp. 407–414, 2012. [18] M. Gordon, "Linguistic Aspects of Voice Quality with Special Reference to Athabaskan", In Siri Tuttle & Gary Holton (eds.) Proceedings of the 2001 Athabaskan Languages Conference. Fairbanks: Alaska Native Langue Center, PP. 163–178, 2001. [19] R. G. Bachu, S. Kopparthi, B. Adapa, B. D. Barkana, "Separation of Voiced and Unvoiced using Zero crossing rate and Energy of the Speech Signal", Department of Electrical Engineering School of Engineering, University of Bridgeport, Bridgeport, USA, PP.279-282, March. 2008. [20] T. F. Quatieri, "Discrete-Time Speech Signal Processing: Principles and Practice", 1st Ed. Kindle Edition, 2001. [21] L. Falek, A. Amrouche, L. Fergani , H. Teffahi, A. Djeradi, "Formantic Analysis of Speech Signal by Wavelet Transform", Proceedings of the World Congress on Engineering. London, Vol. 2, PP.1572-1576, 2011. [22] N. Erfanian Saeedi, F. Almasganj, "Wavelet Adaptation for Automatic Voice Disorders Sorting", Computers in Biology and Medicine, Vol. 43, No. 6, PP. 699-704, Jul. 2013. [23] R. Behroozmand, F. Almasganj, "Optimal Selection of Wavelet-Packet-Based Features using Genetic Algorithm in Pathological Assessment of Patients’ Speech Signal with Unilateral Vocal Fold Paralysis", Computers in Biology and Medicine, Vol. 37, No. 4, PP. 474-485, Apr. 2007. [24] H. Khadivi Heris, B. S. Aghazadeh, M. Nikkhah-Bahrami, "Optimal Feature Selection for the Assessment of Vocal Fold Disorders", Computers in Biology and Medicine, Vol. 39, No. 10, PP. 860-868, Oct. 2009. [25] C. D. P. Crovato, A. Schuck, "The Use of Wavelet Packet Transform and Artificial Neural Networks in Analysis and Classification of Dysphonic Voices", IEEE Transactions on Biomedical Engineering, Vol. 54, No. 10, PP.1898-1900, Oct. 2007. [26] N. Erfanian Saeedi, F. Almasganj, F. Torabinejad, "Support Vector Wavelet Adaptation for Pathological Voice Assessment", Computers in Biology and Medicine, Vol. 41, No. 9, PP. 822-828, Sep. 2011. [27] S. Poomjan, T. Taengtang, K. Srinuanjan, S. Kamoldilok, C. Ruttanapun, P. Buranasiri, "Proof of using Fourier Coefficients for Root Mean Square Calculations on Periodic Signals", Advanced Studies in Theoretical Physics, Vol. 8, pp. 21–25, 2014. [28] P. N. Le, E. Ambikairajah, J. Epps, V. Sethu, E. H. C. Choi, "Investigation of Spectral Centroid Features for Cognitive Load Classification", Speech Communication, Vol. 53, No. 4, PP. 540-551, Apr. 2011. [29] J. Vesanto, Esa Alhoniemi. "Clustering of the Self-Organizing Map", Reprinted from IEEE Transactions on Neural Networks, Vol. 11, No. 3, PP. 586-600, 2000. [30] S. Akbari, M. H. Ghassemian, "Heart Sound Classification using MFCC and SVM", Iranian Association of Information and Communication Technology, May 20015. [31] Y. Li, L. Zhang, B. Li, Y. Xu, S. Wu, X. Wei, X. Liu, R. Lin, Q. Wang, "The Simulation Study of Three Typical Time Frequency Analysis Methods", BIO Web of Conferences, Vol. 8, PP. 02007, 2017. [32] L. Salhi, M. Talbi, A. Cherif, "Voice Disorders Identification Using Hybrid Approach: Wavelet Analysis and Multilayer Neural Networks", World Academy of science, Engineering and Technology, Vol. 45, PP.330-339, 2008. [33] S. Rekik, D. Guerchi, H. Hamam, S. Selouani, "Audio Steganography Coding Using the Discrete Wavelet Transforms", International Journal of Computer Science and Security (IJCSS) ,Vol. 6, No. 1, PP. 79-93, 2012. [34] S. Vajapeyam, "Understanding Shannon's Entropy metric for Information", Computer Science, Information Theory, Vol. 1, No. 2014, March. 2014. [35] N. Almaadeed, A. Aggoun, A. Amira, "Speaker Identification using Multimodal Neural Networks and Wavelet Analysis", IET Biometrics, Vol. 4, No. 1, PP. 18-28, Mar. 2015. [36] T. Matsui, S. Furui, "A Text-Independent Speaker Recognition Method Robust Against Utterance Variations", [Proceedings] ICASSP 91: 1991 International Conference on Acoustics, Speech, and Signal Processing, 1991. [37] A. Shukla, "Speaker Identification using Wavelet Analysis and Modular Neural Network", Journal of Acoustic Society of India, Vol. 36, No. 1, PP.14-19, 2009. [38] X. Pan, H. Zhao, Y. Zhou, "The Application of Fractional Mel Cepstral Coefficient in Deceptive Speech Detection", Peer J., Vol. 3, No.18,PP. e1194, Aug. 2015. [39] K. Forbes-McKay, M. F. Shanks, A. Venneri, "Profiling Spontaneous Speech Decline in Alzheimer’s Disease: A Longitudinal Study", Acta Neuropsychiatrica, Vol. 25, No. 06, PP.320-327, May 2013. [40] J. Weiner, M. Engelbart, T. Schultz, "Manual and Automatic Transcriptions in Dementia Detection from Speech", Interspeech 2017, PP. 3117-3121, Aug. 2017. [41] J. Weiner, T. Schultz, "Selecting Features for Automatic Screening for Dementia Based on Speech", Lecture Notes in Computer Science, PP. 747–756, 2018. [42] J. Weiner, C. Herff, T. Schultz, "Speech-Based Detection of Alzheimer’s Disease in Conversational German", Interspeech 2016, PP. 1938-1942, Sep. 2016. [43] B. Mirheidari, D. Blackburn, T. Walker, A. Venneri, M. Reuber, H. Christensen, "Detecting Signs of Dementia Using Word Vector Representations", Interspeech 2018, PP. 1893-1897, Sep. 2018. [45] T. Warnita, N. Inoue, K. Shinoda, "Detecting Alzheimer’s Disease using Gated Convolutional Neural Network from Audio Data", Interspeech 2018, PP. 1706-1710, Sep. 2018. [44] G. Gosztolya, V. Vincze, L. Tóth, M. Pákáski, J. Kálmán, I. Hoffmann, "Identifying Mild Cognitive Impairment and Mild Alzheimer’s Disease Based on Spontaneous Speech using ASR And Linguistic Features", Computer Speech & Language, Vol. 53, pp. 181–197, Jan. 2019. | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
آمار تعداد مشاهده مقاله: 1,235 تعداد دریافت فایل اصل مقاله: 544 |