تعداد نشریات | 43 |
تعداد شمارهها | 1,639 |
تعداد مقالات | 13,336 |
تعداد مشاهده مقاله | 29,940,724 |
تعداد دریافت فایل اصل مقاله | 11,975,209 |
شبکههای تخاصمی مولد تغییراتی برای جلوگیری از فروافتادگی حالت | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
هوش محاسباتی در مهندسی برق | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
مقاله 7، دوره 13، شماره 3، مهر 1401، صفحه 75-86 اصل مقاله (990.76 K) | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
نوع مقاله: مقاله پژوهشی فارسی | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
شناسه دیجیتال (DOI): 10.22108/isee.2021.129742.1495 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
نویسندگان | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
مهدی جاماسب خلاری1؛ ولی درهمی* 2؛ مهدی یزدیان دهکردی3 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
1دانشجوی دکتری، دانشکده مهندسی کامپیوتر- دانشگاه یزد- یزد- ایران | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
2استاد، دانشکده مهندسی کامپیوتر- دانشگاه یزد - یزد- ایران | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
3استادیار، دانشکده مهندسی کامپیوتر- دانشگاه یزد - یزد- ایران | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
چکیده | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
مدلهای مولد سعی میکنند توزیع احتمالی که مشابه با توزیع دادههای دیده شده باشد را به دست آورند. برای این کار دو راهحل در سالهای اخیر ارائه شده است؛ یکی کمینهکردن واگرایی (فاصله) بین دو توزیع ازطریق بیشینهکردن باند پایین تغییراتی و دیگری کاهش ضمنی فاصله بین دو توزیع ازطریق فرآیندهای تخاصمی. یکی از مشکلات موجود در شبکههای تخاصمیمولد، فروافتادگی حالت است. فروافتادگی حالت به موضوعی گفته میشود که مدل مولد بهازای مقادیر ورودی متفاوت و پراکنده، نمونههای با پراکندگی کم یا حتی نمونههای مشابه به هم تولید میکند. این مقاله با ارائۀ روشی با عنوان شبکههای مولد تخاصمی تغییراتی سعی در مقابله با فروافتادگی حالت و همچنین، تولید دادههای طبیعیتر دارد. این روش با استفاده از خودرمزگذارهای تغییراتی، شبکههای تخاصمی مولد را مقداردهی اولیه میکند. به بیان دیگر، علاوه بر اینکه باند پایین تغییراتی را بیشینه میکند، فاصله بین دو توزیع را بهصورت ضمنی کاهش میدهد. نتایج تجربی نشان میدهند این روش توانسته است بهتر از روشهای موجود با مشکل فروافتادگی حالت مقابله کند. همچنین، در تحلیل کیفی براساس نظرسنجی از 136 فرد در رابطه با واقعیبودن تصاویر تولیدشده نشان داده شد روش پیشنهادی تصاویر مشابهتری به واقعیت نسبت به روش پایه تولید کرده است. | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
کلیدواژهها | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
استنباط تغییراتی؛ شبکههای تخاصمی مولد؛ فروافتادگی حالت؛ یادگیری ماشینی؛ یادگیری عمیق | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
اصل مقاله | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
از سال 2006 یادگیری عمیق بهعنوان یک حوزۀ جدید در تحقیقات یادگیری ماشین شناخته شده است. تکنیکهای مربوط به آن در سالهای اخیر توسعه پیدا کرده و در کاربردهای مختلفی از پردازش اطلاعات و پردازش سیگنال استفاده شده است [1]–[4]. بهتازگی گونۀ خاصی از شبکههای یادگیری عمیق با عنوان شبکههای تخاصمی مولد[1] یا بهاختصار GANs معرفی شده است [5], [6]. شبکههای تخاصمی مولد درحقیقت یک چارچوب هستند که مدلهای مولد را براساس یک فرآیند تخاصمی میسازند. در این چارچوب دو مدل همزمان آموزش داده میشود. یک مدل مولد[2] G که توزیع دادهها را به دست میآورد و یک مدل متمایزکننده[3] D که احتمال اینکه نمونه از دادههای آموزشی آمده باشد یا از مدل G را تخمین میزند. پروسۀ آموزش G این است که احتمال اینکه D اشتباه کند را بیشینه کند. درحقیقت این چارچوب مانند یک بازی دونفره بازی کمینه - بیشینه[4] است. نمای کلی شبکههای تخاصمی مولد در شکل (1) نشان داده شده است. در صورتی که G و D بهصورت یک شبکۀ پرسپترون چندلایه تعریف شده باشند، کل سیستم میتواند بهصورت پسانتشار[5] خطا آموزش داده شود. در این روش، مدل مولد با استفاده از شبکۀ عصبی نویزهای تصادفی را به نمونه تبدیل میکند. همچنین، با استفاده از شبکههای عصبی یک مدل متمایزکننده، آموزش داده میشود. با استفاده از این روش هیچ نیازی به تخمین استنتاج[6] و زنجیره مارکوف نیست [5]. شکل (1): نحوۀ عملکرد شبکههای تخاصمی مولد
برای یادگیری توزیع مولد pg از داده x، یک احتمال پیشین[7] بر متغیر نویز تصادفی ورودی pz(z) تعریف میشود. پس از آن، نگاشتی[8] به فضای داده[9] با عنوان G(z; θg) ارائه میشود که G یک تابع مشخص[10] است که بهوسیله یک پرسپترون چندلایه با پارامترهای θg بیان میشود. همچنین، پرسپترون چندلایۀ دوم D(x; θd) تعریف میشود که یک خروجی اسکالر دارد. این خروجی احتمال اینکه x از دادهها آمده باشد در مقابل pg را تخمین میزند. شبکه D احتمال انتساب برچسب درست - که x از داده است - را در مقابل داده از pg را بیشینه میکند. همزمان با آن، G برای کمینهکردن log(1-D(G(z))) آموزش داده میشود. درحقیقت، D و G بازی کمینه - بیشینۀ دونفره زیر را با تابع مقدار V(G, D) بازی میکنند [5].
با بازنویسی رابطۀ فوق در صورتی که تابع هدف D بهصورت بیشینهیابی log-likelihood برای تخمین احتمال شرطی P(Y=y|x) ترجمه شود و در نظر گرفتن این موضوع که برای G بهترین D برابر است با مشخص میشود درحقیقت شبکههای تخاصمی مولد فاصله جنسنشانون را کمینه میکند [5]. پس تابع هدف مولد همان کمینهکردن فاصلۀ جنسنشانون است. همچنین، میتوان این تابع هدف را از هر فاصله، یا به عبارت صحیحتر، هر واگرایی f تعریف و کمینه کرد [7]. با اینکه شبکههای تخاصمی مولد نتایج شگفتانگیزی از خود بروز دادهاند، در مقالههای مختلف به دو مشکل اساسی در شبکههای تخاصمی مولد اشاره شده است [8]–[11]. مشکل اولی این است که به دلیل اینکه حقیقت شبکههای تخاصمی مولد یک بازی مجموع صفر[11] است، هر مدل (مولد و متمایزکننده) باید تابع هدفی را بهینه کند که فقط بر پارامترهای خود کنترل دارد و نمیتواند پارامترهای رقیب را تغییر دهد. پس تلاش بیشتری برای آموزش و یافتن بهینه که عمدتاً هممحلی است، وجود خواهد داشت که به یک بهینۀ سراسری منجر نمیشود و آموزش را سخت میکند. مشکل دیگر با عنوان «فروپاشی حالت»[12] یا «سناریو هلوتیکا» وجود دارد. این مشکل به حالتی اطلاق میشود که مدل مولد تابعی را یاد میگیرد که تعداد زیادی از ورودیهای متفاوت (مقادیر z که از تابع توزیع ساده میآیند) را به یک نقطۀ مشابه خروجی نگاشت میکند. در عمل این بهصورت جزئی اتفاق میافتد که تعداد زیادی ورودی متفاوت به تعداد خیلی کمی خروجی متفاوت نگاشت میشود. در این بخش، مقدمهای از شبکههای تخاصمی مولد و همچنین، مشکلات آن گفته شد. در ادامه، کارهای مرتبط برای رفع مشکل فروافتادگی حالت در سالهای اخیر بررسی میشوند و در ادامه، اصول روشهای مولد بر پایه استنباط تغییراتی بیان میشوند. سپس روش پیشنهادی با عنوان «شبکه تخاصمی مولد تغییراتی»[13] ارائه میشود. پس از آن، نتایج تجربی کیفی و کمیِ بهدستآمده، بررسی و نتیجهگیری میشوند. 2- کارهای مرتبطایان گودفلو و همکارانش شبکههای تخاصمی مولد را در سال 2014 معرفی کردند [5]. با توجه به موفقیتهای این روش در تولید دادهها تحقیقات وسیعی در این حوزه شکل گرفت. همانطور که اشاره شد این نوع از شبکهها دارای دو ضعف مهماند. بیشتر تحقیقات بر سختی آموزش این نوع شبکه برای کاربردهای واقعی معطوف بوده است [12]–[15] از میان کارهای انجامشده در حوزۀ مقابله با فروافتادگی حالت، به راهکار ارائهشده در مقاله اشاره میشود. در این کار بهجای استفاده از یک شبکه برای مولد و یک شبکه برای متمایزکننده، بهصورت محلی از چندین شبکه برای تولید دادهها و از چندین شبکه برای تمایز دادهها استفاده میکند. در راهکار دیگری [16] از شبکههای کانولوشنالی و ضد کانولوشنالی [13] برای مدل متمایزکننده و مدل مولد استفاده کرده است. همچنین، از خودرمزگذارها استفاده شده است تا بتوانند بر مشکل سختی آموزش غلبه کنند [14]. راهحل ارائهشده در [17] راهکاری با عنوان «ویژگیهای دسته کوچک» است که در آن به متمایزکننده اجازه داده میشود یک نمونه را با یک دسته کوچک دادههای تولیدشده از مولد و یک دسته کوچک از دادههای واقعی مقایسه شود. با اندازهگیری فاصله با دیگر نمونهها میتواند بفهمد یک نمونه با دیگر نمونههای تولیدشده مشابه است یا خیر. این کار نتایج مناسبی داشته است. این روش تا حدی مشکل فروپاشی حالت را حل میکند؛ اما مشکلات دیگری نظیر مشکل شمارش، پرسپکتیو در تصویر و ساختارهای کلی را بهبود نمیدهد. راهحل بعدی ارائهشده، استفاده از روشی به نام «شبکههای تخاصمی مولد بازشده» است [8]. این روش بر این مسئله اصرار دارد که باید ابتدا متمایزکنندۀ بهینه پیدا شود و بر اساس آن، مولد آموزش ببیند. برای این کار بهازای هر دسته کوچک داده، چندین بار مدل متمایزکننده آموزش داده میشود؛ در حالی که فقط یکبار مدل مولد آموزش داده میشود. این کار نسبت به روش «ویژگیهای دسته کوچک» مشکل «فروپاشی حالت» را نمیتواند برطرف کند؛ اما مشکلات دیگر را نیز تا حدی بهبود میدهد. مشکل این روش این است که به دلیل افزایش بسیار زیاد پیچیدگی، برای دادههای واقعی بزرگ (مانند مجموعه داده CFAR 10) مقیاسپذیر نمیشود. راه حل دیگر برای مقابله با مشکل فروباشی حالت، اضافهکردن ترم پنالتی به تابع هدف شبکههای تخاصمی مولد (رابطه (1)) به شکلی است که فاصله بین نمونههای تولیدشده از مدل مولد افزایش یابد. ترمهای متعددی برای این کار ارائه شدهاند [18]–[20] که برخی از آنها بهصورت ضمنی و برخی بهصورت صریح، ترم رگلاتوری را به تابع هدف اضافه میکنند. یکی از معایب این روشها سختترشدن آموزش کل شبکه است. همانطور که گفته شد شبکههای تخاصمی مولد از سختی آموزش و عدم همگرایی رنج میبرند که با اضافهکردن ترمهای پنالتی نامناسب مسئله را بغرنجتر میکنند. استفاده از چندین شبکهمولد به صورتی که هر کدام بتوانند چندین مد را پوشش دهند نیز یکی از راهحلهای مقابله با فروافتادگی حالت بیان شده است [21]–[25] در این راهحلها با استفاده از چندین شبکه مولد یا چندین شبکه متمایزکننده قصد دارند مجموعهای از شبکهها را آموزش دهند که هر کدام از شبکهها مختص یک یا چند حالت باشند و مجموعۀ این شبکهها بتوانند تمام حالتهای مسئله را پوشش دهند. یکی از معایب عمده این کار، هزینه زیاد آموزش مدل است. نقش اساسی وزندهی اولیه برای مقابله با فروافتادگی حالت در شبکههای مولد تخاصمی در مقالههای [26], [27] تأکید شده است. این نشاندهندۀ این است که میتوان با وزندهی اولیه مناسب، مسئلۀ فروافتادگی حالت را تا حد زیادی کنترل کرد. نتیجۀ بهدستآمده از این پژوهش میتواند در بهبود عملکرد مدلهای مولد تأثیر بسزایی داشته باشد که بر اساس آن، میتوان نمونه دادههای بسیار مشابه به واقعیت را تولید کرد. این نمونهها میتوانند مانند این پژوهش، تصویر واقعی یا متن [28]، نقاشی [12]، ویدئو [29] یا هر اثر هنری [30] باشد. 3- استنباط تغییراتیاستنباط تغییراتی یکی از روشهای استنباط در مدلهای گرافیکی[14] است.
شکل (2): مدل گرافیکی استنباط تغییراتی
در صورتی که در مدل گرافیکی شکل فوق X مشاهدهها[15] و Z متغیر پنهان[16] باشد، هدف، محاسبۀ احتمال پسین P(Z|X) است که با استفاده از قضیه بیز بهصورت زیر محاسبه میشود.
در رابطه فوق، p(x) یک توزیع حاشیهای[17] است که از رابطه محاسبه میشود. این انتگرال در بسیاری از موارد رامنشدنی[18] است و نمیتوان آن را محاسبه کرد و هنگامی که z از ابعاد بالا باشد، به دلیل اینکه انتگرال چندگانه خواهد شد، مهارناپذیر است. در حوزۀ آمار و احتمال دو روش برخورد با این مشکل وجود دارد؛ یکی استفاده از روش مونتکارلو است که با نمونهگیری، انتگرال را حل میکند و روش دیگر، استنباط تغییراتی است. در روش استنباط تغییراتی، p(z|x) را با توزیع دیگری نظیر q(z) تقریب میزنند. اگر q(z) یک توزیع رامشدنی باشد، میتوان با تغییر پارامترهای آن به شکلی مشابه p(z|x) این تقریب را انجام داد. برای اینکه q(z) یک توزیع رامشدنی باشد، میتوان آن را از خانوادۀ توزیعهای مشهور مانند گاوسی و نمایی انتخاب کرد. پس نیاز است فاصله بین q(z) و p(z|x) کمینه شود. برای این کار میتوان از معیارهای واگرایی و فاصله استفاده کرد. یکی از واگراییهای معروف، واگرایی کولبک - لیبلر[19] است که جنسنشانون نیز از آن بهره میگیرد و بهصورت زیر تعریف میشود [31]:
در رابطه فوق، p و q دو توزیع متفاوتاند که واگرایی بین آنها سنجیده میشود. به این ترتیب، برای اینکه دو توزیع به هم نزدیک شود، باید رابطه زیر کمینه شود:
در صورت جایگذاری رابطه (2) بهجای p(z|x) و سادهسازی بهصورت زیر است:
با توجه به رابطه (4) و بازنویسی آن رابطه زیر پدید میآید:
با توجه به معلومبودن x، log p(x) مقداری ثابت خواهد شد. در استنباط تغییراتی بهجای کمینهکردن واگرایی کولبک – لیبلر ترم را بیشینه میکنند که با عنوان «باندپایینحاشیهای» شناخته میشود. برای بیشینهکردن این ترم بهصورت زیر عمل میشود:
نتیجه این خواهد بود که باند پایین حاشیهای شامل دو ترم میشود که یکی از آنها واگرایی کولبک - لیبلر بین p(z) و q(z) است و دیگری امید ریاضی log p(x|z) با توجه به q(z) است. به این ترتیب، رابطه (7) بهصورت زیر نوشته میشود:
این رابطه نشان میدهد بهجای کاهش فاصله بین توزیع q(z) و p(z|x) (رابطه (4))، از رابطه (8) استفاده میشود و فاصله q(z) با p(z) یعنی KL_dist که مستقل از مشاهده x است، کاهش و لگاریتم راستنمایی[20] یعنی log_like افزایش مییابد. روشهای استنباط تغییراتی با استفاده از بیشینهکردن راستنمایی سعی در افزایش شباهت بین دو توزیع دارند. یکی از رویکردهای متداول برای این منظور، استفاده از شبکههای خودرمزگذار تغییراتی[21] است که در ادامه بررسی میشوند. 4- روش پیشنهادیدر این مقاله یک روش مبتنی بر شبکۀ خودرمزگذار تغییراتی، برای بهبود چالش فروافتادگی حالت و افزایش کیفیت دادههای تولیدی در شبکههای تخاصمی پیشنهاد شده است. در قسمت قبل نشان داده شد با کمکردن فاصله (واگرایی) بین یک توزیع رامشدنی دلخواه q(z) و توزیع p(z|x) در حین افزایش لگاریتم راستنمایی، میتوان p(x|z) را تقریب زد. با استفاده از رمزگذارها این بهینهسازی انجام میشود. خودرمزگذار تغییراتی مدنظر در شکل (3) نشان داده شده است.
شکل (3) :خودرمزگذار تغییراتی تابع هزینه این خودرمزگذار از رابطه (8) برداشت میشود که شامل دو ترم و است. ترم بیان میکند توزیع z که خروجی کدگذار است، مشابه هر توزیع دلخواه و رامشدنی مانند گاوسی است. ترم بهصورت مفهومی همان خطای بازسازی[22] است. پس تابع هزینۀ خودرمزگذار تغییراتی بهصورت زیر دانسته میشود [32].
در رابطه فوق، به عبارتی بهجای بیشینهکردن رابطه (8) از کمینهکردن خطای بازسازی و واگرایی کولبک - لیبلر استفاده میشود. باید توجه داشت کاهش خطای بازسازی معادل افزایش تابع راستنمایی در نظر گرفته میشود [33]. روش پیشنهادی، با بهرهگیری از شبکۀ خودرمزگذار تغییراتی و تغییر در ساختار تابع هدف و فرآیند یادگیری شبکۀ تخاصمی مولد، مدلی ارائه میکند که از قابلیت هر دو شبکۀ مولد تخاصمی و خودرمزگذارهای تغییراتی در فرآیند ساخت مدل مولد استفاده میکند. در رابطه (5) دو ترم واگرایی کولبک - لیبلر و باندپایین حاشیهای وجود دارد. در روشهای استنباط تغییراتی ازجمله خودرمزگذار تغییراتی فقط باند پایینحاشیهای را بیشینه میکنند و در شبکههای تخاصمی واگرایی (درحقیقت فاصله جنسنشانون) را کمینه میکنند؛ اما راهحل بینابینی - که این مقاله به آن پرداخته است - نیز وجود دارد که هر دو را بهصورت نوبهای بهینه میکند. در مقاله [7] نشان داده شده است از هر واگرایی f میتوان بهجای فاصله شانون در شبکههای تخاصمی مولد استفاده کرد. در خودرمزگذارهای تغییراتی نیز از انواع دیگر واگرایی بهعنوان ترم تنظیم[23] استفاده میشود. پس میتوان پس از اینکه باند پایین حاشیهای را با استفاده از خودرمزگذار تغییراتی بیشینه کرد، با استفاده از شبکههای تخاصمی مولد، ترم واگرایی بین دو توزیع را کاهش داد. با این کار برعکس خودرمزگذارهای تخاصمی [34] که قصد دارند با استفاده از مکانیسم تخاصمی خودرمزگذارهای تغییراتی را بهبود دهند، سعی در بهبود شبکههای تخاصمی با استفاده از خودرمزگذارهای تغییراتی دارد. دیاگرام عملکرد سیستم پیشنهادی بهصورت شماتیک در شکل (4) نشان داده شده است.
شکل (4): شبکۀ تخاصمی مولد تغییراتی
شبکۀ تخاصمی تغییراتی، دو مرحله برای آموزش دارد؛ در مرحلۀ نخست، شبکه با عنوان یک خودرمزگذار تغییراتی آموزش داده میشود تا توزیع z تعیین شود و پس از آن در مرحلۀ دوم با تبدیل کدگشا به شبکه مولد G و تبدیل کدگذار به شبکۀ متمایزکننده D و اضافهکردن یک تبدیلکننده C که وظیفۀ کلاسهبندی را دارد، یک شبکه مولد تخاصمی تشکیل میشود که وظیفۀ کمینهکردن فاصله بین توزیع دادهها و نمونههای تولیدشده را دارد. به بیان دیگر، روش پیشنهادی یک پیشآموزش برای شبکههای مولد تخاصمی است که در این پیشآموزش از خودرمزگذارهای تغییراتی استفاده میشود. در ادامه، نتایج تجربی بهدستآمده از این روش بیان میشوند [35].
یکی از چالشهای اساسی در مدلهای مولد بهخصوص شبکههای تخاصمی، مولدیافتن معیاری برای ارزیابی مدل ارائهشده است. در این بین راهحلهایی ارائه شدهاند؛ اما در تمامی موارد، محققان اذعان دارند نتایج با این معیارها بهصورت صحیح ارزیابی نمیشوند. همچنین، در این مقاله هدف، کاستن مشکل فروپاشی حالت بوده است؛ بنابراین، میتوان از راهحلهای بهکاررفته در مقالههای[7], [17], [35]–[37] برای ارزیابی مدل استفاده کرد؛ اما در این مقاله از ارزیابی کیفی نیز استفاده شده است؛ بنابراین، در دو بخش آینده، روش پیشنهادی بهصورت مجزا ارزیابی کمی و کیفی میشوند. بخشی از پیادهسازی روش پیشنهادی دردسترس است[24]. مجموعه دادههای بررسیشده، مجموعه داده مشهور MNIST [38] و CIFAR [39] است. نمونههایی از تصاویر تولیدشده برای دو مجموعه داده در شکل (8) نشان داده شدهاند. در این شکل چند نمونه بهصورت خاص با دایره قرمز مشخص شدهاند. این تصاویر برتری کیفیت روش شبکۀ تخاصمی مولد تغییراتی را نسبت به روش DC-GAN بهصورت بصری نشان میدهد.
معیارهای محدودی برای ارزیابی مدلهای مولد ارائه شدهاند که یکی از پراستفادهترین آنها استفاده از معیار لگاریتم راستنمایی بر توزیع دادههای تولیدشده در کنار توزیع دادههای آزمایشی استخراجشده از پنجره پارزن است. این روش در مقاله [40] ارائه شده و برای ارزیابی روشهای مولد در بیشتر کارهای انجامشده در حوزۀ شبکههای تخاصمی مولد از آن استفاده شده است. در جدول زیر مقادیر بهدستآمده از روش پیشنهادی این مقاله (VGAN) و روشهای پیشین ارائه شدهاند. جدول (1): میانگین و انحراف استاندارد لگاریتم راستنمایی پنجره پارزن در دو مجموعه داده با روشهای مختلف
با توجه به جدول، در هر دو مجموعهداده، روش ارائهشده در این مقاله نسبت به سایر روشها نتیجه بهتری کسب کرده است. در وضعیت فروافتادگی حالت، پراکندگی تخمین کلاس به سمت یک فضای خاص سوق مییابد. در صورتی که بتوان از این فروافتادگی حالت جلوگیری کرد، پراکندگی مناسب در فضای توزیع دادههای تولیدشده برقرار خواهد شد. برای سنجش این خصوصیت از شاخص پراکندگی تخمین کلاس دادهها استفاده شده است. در این شاخص، پراکندگی کل دادهها بر حسب مجموعه داده مدنظر، محاسبه و بهصورت زیر معرفی میشود:
در رابطه فوق، تعداد نمونههای کلاس i م در مجموعه داده آزمایشی و تعداد نمونههای کلاسهبندیشده در کلاس i با استفاده از کلاسهبند مناسب هر مجموعه داده است. هرچه این معیار کمتر باشد، بهتر است و پراکندگی بهتری در فضای دادههای تولیدشده وجود دارد. جدول 2 نتیجۀ مقایسۀ روشها را با این معیار نشان میدهد.
جدول (2): معیار اختلاف پراکندگی در کلاس برای روشهای VGAN و DC-GAN.
نتایج نشان دهندۀ این است که توزیع دادههای تولیدشده در روش پیشنهادی (VGAN) اختلاف کمتری با دادههای واقعی داشته است. برای بررسی دقیقتر این مسئله، در نمودار زیر توزیع تعداد نمونههای کلاسهبندیشده در هر کلاس برای مجموعه داده MNIST نشان داده شده است.
شکل (6): تعداد نمونههای تولیدشده در هر کلاس برای مجموعه داده MNIST در روش DC-GAN (میلههای آبی) واضح است بخش زیادی از دادهها در کلاس 3 و سپس 7 تجمیع شدهاند که با توزیع واقعی (میلههای قرمز) تفاوت محسوسی دارند؛ اما در روش پیشنهادی VGAN دادهها بهصورت مناسبتری در بین کلاسها پخش شدهاند.
برای ارزیابی بهتر روش پیشنهادی، در این بخش از معیارهای کیفی استفاده شده که از روی نظرات تعداد زیادی از کاربران انسانی به دست آمده است. برای نظرسنجی از کاربران، در یک سامانه تحت وب 10000 تصویر واقعی از مجموعه داده MNIST به همراه 10000 تصویر تولیدشده از روش DC-GAN و همچنین، 10000 تصویر تولیدشده از روش پیشنهادی (VGAN) وجود دارد. این تصاویر بهصورت تصادفی به کاربران نشان داده شده و از کاربران خواسته شده است مشخص کنند کدام تصویر واقعی و کدام تصویر تولیدشده از ماشین است[25]. درخور ذکر است در نظرسنجی به کاربران هیچ پیشفرضی داده نشده و از نظرسنجی احتمالی توسط باتها با بهکارگیری کپچای گوگل جلوگیری شده است. شکل (7) عکسی از صفحۀ نظرسنجی را نشان میدهد.
شکل (7): تصویر صفحۀ نظرسنجی
در زمان نگارش این مقاله تعداد 136 نفر در این نظرسنجی شرکت کردند. کل تصاویر یکتا برابر 30000 مورد بوده که بهصورت میانگین هر کاربر دربارۀ 220 تصویر اظهارنظر کرده است. درمجموع، تعداد کل تصاویر نشان داده شده 108959 مورد بوده است. باید توجه داشت برخی از تصاویر بیش از چند مرتبه نشان داده شده است. برای نتایج آنلاین[26] نظرسنجی[27] تا انتهای سال 2021 میلادی دردسترس خواهد بود. نتایج آماری بهدستآمده در جدول زیر نشان داده شدهاند.
جدول (3): مقایسۀ روش VGAN با روش DC-GAN بهصورت کیفی.
سطر آخر (مجموع) جدول فوق نشان میدهد توزیع نمایش تصاویر (واقعی، ساختگی VGAN و ساختگی DC-GAN) یکنواخت بوده است. ستون آخر نشان میدهد با وجود اینکه تنها 33 درصد دادهها واقعی بودهاند، کاربران درمجموع بیش از 54% دادهها را واقعی تشخیص دادهاند. در روش DC-GAN میزان 41% کل تصاویر ساختگی، واقعی تشخیص داده شده است؛ در حالی که در روش پیشنهادی VGAN، بیش از نیمی از کاربران (52%) تصاویر ساختگی این شبکه را واقعی تشخیص دادهاند. جزئیات آمارهای این نظرسنجی نیز بهصورت برخط دردسترساند[xxviii].
در این مقاله، روشی برای مقابله با فروپاشی حالت ارائه شد. روش پیشنهادی دارای دو مرحله است؛ در مرحلۀ نخست، یک خودرمزگذار تغییراتی آموزش داده میشود تا بتواند یک نگاشت از دادههای آموزشی به نویز تصادفی از توزیع دلخواه قابل رامشدنی از رمزگذار باشد. همچنین، قابلیت نگاشت نویز تصادفی از توزیع انتخابشده به توزیع دادههای واقعی را داشته باشد. در مرحلۀ دوم از همین رمزگذار و رمزگشا به فرم یک شبکه مولد تخاصمی استفاده میشود. به بیان دیگر، خودرمزگذارهای تغییراتی برای وزندهی اولیۀ شبکههای تخاصمی مولد استفاده شدهاند. توجیه این کار با رابطۀ استنباط تغییراتی بیان شده است. با نتایج تجربی نشان داده شد با بیشینهکردن باند پایین حاشیهای با استفاده از خودرمزگذار و کمینهکردن واگرایی بین دو توزیع مولد و واقعی بهصورت ترتیبی، جوابهای بهتری به دست میآیند. این نتایج به دو صورت کیفی و کمی تحلیل شدهاند. در روش تحلیل کیفی، کاربران، سامانۀ اینترنتی را برای مشخصکردن تصاویر واقعی نسبت به تصاویر مصنوعی تهیه کردند و کاربران عادی و دانشجو نظرات خود را با حداقل پیشفرض، تصاویر واقعی را از مصنوعی را تمیز دادند. در تحلیل کمی از معیار میانگین لگاریتم راستنمایی پنجره پارزن و معیار اختلاف پراکندگی در کلاس استفاده شد. با توجه به تحلیل کیفی انجامشده، روش ارائهشده در این مقاله توانسته است عملکرد بهتری در رابطه با کیفیت تصاویر تولیدشده ارائه دهد. همچنین، نتایج تجربی نشان دادند روش پیشنهادی تا حدودی توانسته است بر مسئلۀ فروافتادگی حالت غلبه کند.
روش پیشنهادشده در این مقاله برای تولید تصاویر استفاده شده است. این در حالی است که روش پیشنهادی قابلیت استفاده در تولید انواع داده را دارد؛ خواه این داده، تصویر، ویدئو، متن یا حتی هنر و شعر باشد. همچنین، میتوان راهکارهای دیگری برای مقابله با فروافتادگی حالت مانند اضافهکردن ترم پنالتی به تابع هدف شبکۀ تخاصمی مولد یا آموزش چندین شبکه مولد با روش پیشنهادشده در این مقاله ترکیب کرد؛ حتی میتوان روش پیشنهادی را روی توسعههای ارائهشده بر شبکۀ تخاصمی مولد مانند WGAN [31], [36] اعمال کرد و دادههای باکیفیتتری تولید کرد.
[1] تاریخ ارسال مقاله: 07/05/1400 تاریخ پذیرش مقاله: 13/06/1400 نام نویسندۀ مسئول: ولی درهمی نشانی نویسندۀ مسئول: ایران – یزد –دانشگاه یزد – دانشکده مهندسی کامپیوتر
[1] Generative Adversarial Nets [2] Generative Model مدلی که آموزش میبیند تا داده تولید کند [3] Discriminative مدلی که آموزش میبیند تا دادهها را در کلاسهای متفاوت تفکیک کند [4] minimax [5] Backpropagation [6] Approximate inference [7] Prior probability [8] Mapping [9] Data space [10] Differentiable function [11] Zero sum game [12] Mode Collapse [13] Varitinal Generative Adversarial Network (VGAN) [14] Graphical Model [15] Observation [16] Hidden Variable [17] Marginal Distribution [18] intractable [19] Kullback–Leibler [20] Likelihood [21] Variational Autoencoder [22] Reconstruction Error [23] Regularization [24] https://colab.research.google.com/drive/1aNnewedDeqmGmZjEqVLK612WV-1eLZhj [25] کاربران شرکت کننده در نظرسنجی دانشجویان رشته کامپیوتر دانشکده شهید باهنر شیراز، دانشگاه یزد و تعداد محدودی از افراد عادی بودهاند. [26] http://pws.yazd.ac.ir/lcir/GAN_project1/stat.php [27] http://pws.yazd.ac.ir/lcir/GAN_project1 [xxviii] http://pws.yazd.ac.ir/lcir/GAN_project1/scoreboard.php | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
مراجع | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
[1] M. Hajizadeh Tahan, M. Ghasemzadeh, and M. Rezaeian, “An evolutionary attention-based deep long short-term memory for time series prediction,” Comput. Intell. Electr. Eng., Vol. 11, No. 4, 2021. [2] S. Sheykhivand, S. Meshgini, and Z. Mousavi, “Automatic Detection of Various Epileptic Seizures from EEG Signal Using Deep Learning Networks,” Comput. Intell. Electr. Eng., Vol. 11, No. 3, 2020. [3] L. Deng and D. Yu, “Deep Learning: Methods and Applications,” Found. Trends® Signal Process., Vol. 7, No. 3–4, pp. 197--387, 2013, doi: 10.1136/bmj.319.7209.0a. [4] Y. Bengio, “Learning Deep Architectures for AI,” Found. Trends® Mach. Learn., Vol. 2, No. 1, pp. 1–127, 2009, doi: 10.1561/2200000006. [5] I. J. Goodfellow et al., “Generative Adversarial Nets,” in Advances in Neural Information Processing Systems (NIPS), 2014, pp. 1–9, doi: 10.1017/CBO9781139058452. [6] Z. Wang, Q. She, and T. E. Ward, “Generative adversarial networks in computer vision: A survey and taxonomy,” ACM Comput. Surv., Vol. 54, No. 2, pp. 1–38, 2021. [7] S. Nowozin, B. Cseke, and R. Tomioka, “f-GAN: Training Generative Neural Samplers using Variational Divergence Minimization,” Vol. 2, No. 1, pp. 1–9, 2016, [Online]. Available: http://arxiv.org/abs/1606.00709. [8] L. Metz, B. Poole, D. Pfau, and J. Sohl-Dickstein, “Unrolled Generative Adversarial Networks,” in 5th International Conference on Learning Representations, 2017, pp. 1–25, [Online]. Available: http://arxiv.org/abs/1611.02163. [9] T. Chavdarova and F. Fleuret, “SGAN: An Alternative Training of Generative Adversarial Networks,” arXiv Prepr. arXiv1712.02330, 2017, [Online]. Available: http://arxiv.org/abs/1712.02330. [10] S. Reed, A. van den Oord, N. Kalchbrenner, V. Bapst, M. Botvinick, and N. de Freitas, “Generating interpretable images with controllable structure,” in 5th International Conference on Learning Representations, 2017, pp. 168–175. [11 S. Reed, Z. Akata, X. Yan, L. Logeswaran, B. Schiele, and H. Lee, “Generative Adversarial Text to Image Synthesis,” in Proceedings of The 33rd International Conference on Machine Learning (ICML), 2016, Vol. 48, pp. 1060–1069, [Online]. Available: http://proceedings.mlr.press/v48/reed16.html. [12] Y. Liu, Z. Qin, T. Wan, and Z. Luo, “Auto-painter: Cartoon image generation from sketch by using conditional Wasserstein generative adversarial networks,” Neurocomputing, vol. 311, pp. 78–87, 2018, doi: 10.1016/j.neucom.2018.05.045. [13] J. Luo and J. Huang, “Generative adversarial network: An overview,” Yi Qi Yi Biao Xue Bao/Chinese Journal of Scientific Instrument, vol. 40, no. 3. pp. 74–84, 2019, doi: 10.19650/j.cnki.cjsi.J1804413. [14] M. Lee and J. Seok, “Controllable generative adversarial network,” IEEE Access, vol. 7, pp. 28158–28169, 2019, doi: 10.1109/ACCESS.2019.2899108. [15] Y. Deldjoo, T. Di Noia, and F. A. Merra, “A survey on adversarial recommender systems: from attack/defense strategies to generative adversarial networks,” ACM Comput. Surv., Vol. 54, No. 2, pp. 1–38, 2021. [16] C. Tao, L. Chen, R. Henao, J. Feng, and L. Carin, “X2 generative adversarial network,” in 35th International Conference on Machine Learning, ICML 2018, 2018, Vol. 11, pp. 7787–7796, doi: 10.1007/978-1-4842-3679-6_8. [17] T. Salimans, I. Goodfellow, W. Zaremba, V. Cheung, A. Radford, and X. Chen, “Improved Techniques for Training GANs,” in Conference on Neural Information Processing Systems (NIPS ), 2016, pp. 1–9, doi: arXiv:1504.01391. [18] Q. Mao, H.-Y. Lee, H.-Y. Tseng, S. Ma, and M.-H. Yang, “Mode seeking generative adversarial networks for diverse image synthesis,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2019, pp. 1429–1437. [19] Y. Yao, Y. Pan, I. W. Tsang, and X. Yao, “Support Matching: A Novel Regularization to Escape from Mode Collapse in GANs,” in International Conference on Neural Information Processing, 2019, pp. 40–48. [20] H. Eghbal-zadeh, W. Zellinger, and G. Widmer, “Mixture density generative adversarial networks,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2019, pp. 5820–5829. [21] A. Ash-Saki and S. Ghosh, “How Multi-Threshold Designs Can Protect Analog IPs,” 2019, doi: 10.1109/ICCD.2018.00075. [22] I. Tolstikhin, S. Gelly, O. Bousquet, C. J. Simon-Gabriel, and B. Schölkopf, “AdaGAN: Boosting generative models,” in Advances in Neural Information Processing Systems, 2017, vol. 2017-Decem, pp. 5425–5434. [23] A. Grover and S. Ermon, “Boosted generative models,” in 32nd AAAI Conference on Artificial Intelligence, AAAI 2018, 2018, pp. 3077–3084. [24] T. Chavdarova and F. Fleuret, “SGAN: An Alternative Training of Generative Adversarial Networks,” in Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 2018, pp. 9407–9415, doi: 10.1109/CVPR.2018.00980. [25] D. Saxena and J. Cao, “Generative Adversarial Networks (GANs) Challenges, Solutions, and Future Directions,” ACM Comput. Surv., Vol. 54, No. 3, pp. 1–42, 2021. [26] N. Yu, L. S. Davis, and M. Fritz, “Attributing fake images to gans: Learning and analyzing gan fingerprints,” in Proceedings of the IEEE International Conference on Computer Vision, 2019, pp. 7556–7566. [27] S. Bell-Kligler, A. Shocher, and M. Irani, “Blind super-resolution kernel estimation using an internal-gan,” in Advances in Neural Information Processing Systems, 2019, pp. 284–293. [28] H. Zhang et al., “StackGAN++: Realistic Image Synthesis with Stacked Generative Adversarial Networks,” IEEE Trans. Pattern Anal. Mach. Intell., vol. 41, no. 8, pp. 1947–1962, 2019, doi: 10.1109/TPAMI.2018.2856256. [29] D. Guera and E. J. Delp, “Deepfake Video Detection Using Recurrent Neural Networks,” 2019, doi: 10.1109/AVSS.2018.8639163. [30] N. Murray, “PFAGAN: An Aesthetics-Conditional GAN for Generating Photographic Fine Art,” in Proceedings of the IEEE International Conference on Computer Vision Workshops, 2019, p. 0. [31] M. Arjovsky, S. Chintala, and L. Bottou, “Wasserstein gan,” arXiv Prepr. arXiv1701.07875, 2017, doi: 10.2507/daaam.scibook.2010.27. [32] Y. Burda, R. Grosse, and R. Salakhutdinov, “Importance Weighted Autoencoders,” pp. 1–14, 2015, [Online]. Available: http://arxiv.org/abs/1509.00519. [33] D. P. Kingma and M. Welling, “Auto-encoding variational bayes,” 2014. [34] A. Makhzani, J. Shlens, N. Jaitly, I. Goodfellow, and B. Frey, “Adversarial Autoencoders,” arXiv Prepr. arXiv1511.05644., 2015, [Online]. Available: http://arxiv.org/abs/1511.05644. [35] M. Mirza and S. Osindero, “Conditional generative adversarial nets,” arXiv Prepr. arXiv1411.1784, pp. 1–7, 2014, doi: 10.1017/CBO9781139058452. [36] I. Gulrajani, F. Ahmed, M. Arjovsky, V. Dumoulin, and A. C. Courville, “Improved training of wasserstein gans,” in Advances in neural information processing systems, 2017, pp. 5767–5777, doi: 10.1097/WAD.0b013e318211c83c. [37] A. Odena, C. Olah, and J. Shlens, “Conditional image synthesis with auxiliary classifier gans,” in Proceedings of the 34th International Conference on Machine Learning-Volume 70, 2017, pp. 2642–2651, doi: 10.1016/0021-9614(70)90038-8. [38] Y. LeCun, C. Cortes, and C. J. C. Burges, “MNIST handwritten digit database,” AT&T Labs [Online]. Available http//yann. lecun. com/exdb/mnist, vol. 2, 2010. [39] A. Krizhevsky, V. Nair, and G. Hinton, “The CIFAR-10 dataset,” online: http://www. cs. toronto. edu/kriz/cifar. html, 2014. . [40] O. Breuleux, Y. Bengio, and P. Vincent, “Quickly generating representative samples from an RBM-derived process,” Neural Computation, vol. 23, no. 8. pp. 2058–2073, 2011, doi: 10.1162/NECO_a_00158. [41] Y. Bengio, G. Mesnil, Y. Dauphin, and S. Rifai, “Better mixing via deep representations,” in 30th International Conference on Machine Learning, ICML 2013, 2013, No. PART 1, pp. 552–560. [42] A. Radford, L. Metz, and S. Chintala, “Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks,” arXiv Prepr. arXiv1511.06434, 2016, doi: 10.1051/0004-6361/201527329. | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
آمار تعداد مشاهده مقاله: 1,175 تعداد دریافت فایل اصل مقاله: 472 |