تعداد نشریات | 43 |
تعداد شمارهها | 1,639 |
تعداد مقالات | 13,334 |
تعداد مشاهده مقاله | 29,926,445 |
تعداد دریافت فایل اصل مقاله | 11,971,561 |
انتقال سبک برای افزایش دادههای آموزشی شبکههای کانولوشنی در شناسایی شعلۀ آتش | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
هوش محاسباتی در مهندسی برق | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
مقاله 8، دوره 13، شماره 4، دی 1401، صفحه 97-114 اصل مقاله (1.93 M) | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
نوع مقاله: مقاله پژوهشی فارسی | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
شناسه دیجیتال (DOI): 10.22108/isee.2021.124044.1490 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
نویسنده | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
محمود امین طوسی* | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
استادیار، گروه علوم کامپیوتر، دانشکده ریاضی و علوم کامپیوتر، دانشگاه حکیم سبزواری، سبزوار، ایران | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
چکیده | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
وجود دادههای آموزشی کافی، امری اساسی در همۀ سیستمهای یادگیری با نظارت و منجمله در حوزۀ یادگیری عمیق و بینایی ماشین است. یکی از روشهای استفادهشده برای افزایش تعداد نمونههای آموزشی در یادگیری عمیق، شیوۀ «دادهافزایی» است. این شیوه، متضمن تبدیلهای دوران، انتقال و برش روی تصاویر آموزشی است که به افزایش تعداد نمونههای آموزشیِ نسبتاً متفاوت از دادههای اولیه منجر میشود. در این نوشتار از الگوریتم «انتقال سَبْک» مبتنی بر شبکههای مولد رقابتی برای افزایش تعداد نمونههای آموزشی استفاده شده است. هدف در انتقال سبک، اِعمال ظاهر یا سبک بصری یک تصویر روی تصویری دیگر است که جنبۀ هنری آن بیشتر دیده شده است. در این نوشتار از این شیوه برای تولید نمونههای جدید آموزشی استفاده شده و بهمنزلۀ یک کاربرد، روش پیشنهادی بر روی مسئلۀ شناسایی شعلۀ آتش اعمال شده است. با این فرض که تصاویر آموزشی ثبتشده در طی شب، کمتر از نمونههای اخذشده در روزند، با اعمال یک روش انتقال سبک، تصاویر روز به تصاویر شب، تبدیل و بهعنوان دادۀ آموزشی به مجموعه دادگان اضافه میشوند. نتایج آزمایشات انجامشده، کارایی شیوۀ پیشنهادی را نشان داده است. شیوۀ پیشنهادی بهصورت میانگین، ۷ درصد نرخ تشخیص درست را نسبت به استفادهنکردن از آن افزایش داده است. | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
کلیدواژهها | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
انتقال سبک؛ شبکههای مولد رقابتی؛ یادگیری عمیق؛ شناسایی آتش | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
اصل مقاله | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
انتقال سبک نقاشی که از دیرباز مورد علاقۀ هنرمندان بوده است، در حوزۀ بینایی ماشین و یادگیری عمیق [1, 2] نیز توجه زیادی را به خود معطوف کرده است. یک روش انتقال سبک، دو تصویر دریافت میکند و تصویر سومی به دست میدهد که محتوای کلی آن از تصویر اول و سَبْک و سیاق (استایل) آن از تصویر دوم حاصل شده باشد. این مسئله تا حدودی مشابه ترکیب (ادغام) تصاویر در پردازش تصویر است. شیوههای سنتی بسیاری در ترکیب و ادغام تصاویر ارائه شدهاند؛ برای مثال، در [3] از روشهای همرنگسازی چندبانده و تبدیل موجک برای ادغام تصاویر استفاده شده است. در [4] هدف، انتقال بافت یک تصویر به تصویر دیگر است. این شیوه، بافت یک تصویر مانند پارچه را روی تصویری دیگر اعمال میکند. یک جفت تصویر آموزشی (A,A') و تصویر مدنظر (B) برای اعمال سبک بهعنوان ورودی به آن داده میشوند. در یک ساختار هرم گاوسی، بهازای هر پنجره از تصویر ورودی، نزدیکترین پنجره به آن از A یافت میشود و بافت پنجرۀ متناظر از A' برای تولید B' به کار میرود. روش مشابه بعدی، روش فراتفکیکپذیری مبتنی بر مثال فریمن و همکاران [5] بوده است که کلیات کار آن مشابه [4] است. محدودیت اصلی این شیوهها آن است که فقط از ویژگیهای سطح پایین تصویر استفاده میکنند. با گسترش یادگیری عمیق و شبکههای عصبی کانولوشنی، شاهد انجام انتقال سبک با این شبکهها - بهصورتی بسیار کارآمدتر از شیوههای سنتی - با نام «انتقال سبک عصبی»[1] هستیم که با کار تأثیرگذار گَتیس[2] و همکاران [6] شروع شد. هدف در انتقال سبک، ایجاد تصویر جدیدی براساس دو تصویر ورودی است که محتوای کلی آن از تصویر اول و سبک آن از تصویر دوم (بهطور مثال، یک اثر هنری) گرفته شده باشد. تصویر اول، تصویر «محتوا»[3] و دومی، تصویر «استایل» (سبک)[4] نامیده میشوند. شکل ۱ نتیجۀ اعمال شیوۀ انتقال سبک عصبیِ [7] روی تصویری از یک روباه[5] و چند سبک مختلف را نشان میدهد. گرچه شاید به جنبۀ هنری انتقال سبک بیشتر توجه شده است، کاربردهای عملی هم دارد. کاربرد مدنظر در این نوشتار، استفاده از آن برای تولید تصاویر آموزشی بیشتر برای شناسایی شعلۀ آتش است. آنچه در اینجا مدنظر است، شناسایی شیئ (آتش) و یافتن محل آن[6] در تصویر است که درواقع پیچیدهتر از طبقهبندی تصاویر به دو گروه دارای شعله و بدون شعله است. در روال آموزشِ یک سیستم و شناسایی اشیا، به دادههای آموزشی کافی - وابسته به پیچیدگی مدل - نیاز است. گاهی تعداد نمونهها نسبت به پیچیدگی مدل کم است که به بیشبرازشی[7] مدل منجر خواهد شد؛ موردی که در مجموعه دادگان حوزۀ شناسایی آتش با آن مواجهیم. در بسیاری از مجموعه دادگان حوزۀ شناسایی آتش، تعداد تصاویر حاوی شعلۀ آتش که در شب اخذ شدهاند، کمتر از نمونههای ثبتشده در نور روزند. در این نوشتار با یک روش انتقال سبک، تعدادی از نمونههای روز به نمونههای شب، تبدیل و در روال آموزش استفاده میشوند. نتایج آزمایشات انجامشده نشاندهندۀ کارایی شیوۀ پیشنهادی بوده است. با توجه به اینکه شیوۀ پیشنهادی مرتبط با شبکههای عصبی کانولوشنی، انتقال سبک، شبکههای مولد رقابتی و شناسایی آتش است، در ادامه بخشهایی به هر یک از این موارد اختصاص داده خواهد شد. پس از بیان شیوۀ پیشنهادی، نتایج آزمایشات و جمعبندی را خواهیم داشت.
۱-۱- شبکههای عصبی کانولوشنی افزایش قدرت محاسباتی سختافزارها و الگوریتمهای جدید بهینهسازی در حوزۀ شبکههای عصبی موجب توجه مجدد به این شبکهها و بهویژه شبکههای عصبی کانولوشنی شده است. برخلاف شبکههای سنتی چندلایۀ پرسپترونی که هر نود در یک لایه به تمام نودها (نورونهای) لایههای قبل و بعد از خود متصل است، در شبکههای کانولوشنی هر نورون در یک لایه از یک گروه محلی از نورونهای لایۀ قبل از خود تأثیر میپذیرد [1]. این شبکهها متضمن چندین لایه از انواع مختلفاند که هر دسته از آنها عملکرد مشخصی دارند [2]. در یک نگاه کلی در یک شبکۀ کانولوشنی، مشابه یک هرم گاوسی، در هر لایه، تصویر فیلتر و کوچک میشود[9]. لایههای کانولوشنی وظیفۀ استخراج ویژگیها را به عهده دارند؛ لایههای ادغام بیشینه، اندازۀ ورودی را تغییر میدهند که ویژگیها در مقیاسهای مختلف دیده شوند. لایههای تمام متصل، کار طبقهبندی ویژگیهای استخراجشده را انجام میدهند. مدلهای VGG16 [8]، DarkNet [9]، ResNet [10] و AlexNet [11] ازجمله مدلهای مشهور یادگیری عمیقاند.
۱-۲- شبکههای مولد رقابتی موضوع اصلی این نوشتار، شبکههای مولد رقابتی[10] (GAN) نیست؛ اما با توجه به اینکه در روش پیشنهادی به کار رفته است، اشارهای به این شبکهها خواهیم داشت. شبکههای مولد رقابتی ازجمله ابداعات تأثیرگذار دهۀ اخیر در حوزۀ علوم کامپیوترند که با مقالۀ ایان گودفلو[11]، ژان پوژه-آبادی[12]، مهدی میرزامؤمن[13] و همکاران [12] روند رو به رشدی را آغاز کرده و کاربردهای متنوعی منجمله جعل تصویر و ویدئو و انتقال سبک (استایل) پیدا کرده است [13]. هدف اصلی در شبکههای مولد رقابتی، تولید نمونههای جدید از دادههای آموزشی است؛ وقتی توزیع دادهها دردسترس نیست. در این روش دو شبکۀ عصبی برای تولید نمونههای جدید با یکدیگر به رقابت میپردازند؛ این دو شبکه، مولد[14] و متمایزکننده[15] نامیده میشوند. شبکۀ مولد تبدیل از یک بردار تصادفی به توزیع مدنظر را فرا میگیرد و شبکۀ متمایزکننده، نمونههای تولیدی شبکۀ مولد را از توزیع واقعی دادهها تفکیک میکند. آموزش شبکۀ مولد با این هدف انجام میشود که نمونههایی تولید کند که شبکۀ متمایزکننده را بفریبد و متمایزکنندۀ نمونههای تولیدشدۀ مولد را از نمونههای اصلی نتواند تفکیک کند[16]. اگر G و D بهترتیب معرف مولد و متمایزکننده باشند، متمایزکننده به نحوی آموزش داده میشود که بتواند نمونههای از توزیع واقعی دادههای pdata را از نمونههای جعلی با توزیع pg را از هم تفکیک کند. مولد، نویز z∼p_z-> z∼p_z را بهعنوان ورودی میگیرد و نمونههای G(z) از توزیع pg را تولید میکند. تابع هدف GAN در زیر آمده است [26]:
خروجی متمایزکننده، صفر یا یک است. پس لگاریتم آن منهای بینهایت یا صفر است و درنتیجه، بیشینۀ مقدار عبارت اول صفر خواهد بود. متمایزکننده سعی در شناسایی نمونههای تولیدی از مولد بهعنوان جعلی دارد (یعنی صفرکردن عبارت دوم)؛ بنابراین، در کل هدف آن بیشینهسازی تابع هدف است. همچنین، مولد سعی در فریب متمایزکننده را دارد که به معنی منفی بینهایتشدن عبارت دوم یا کمینهکردن کل عبارت است؛ بنابراین، مولدِ بهینه، G*ی است که رابطۀ (۲) زیر را برآورده سازد:
شبکۀ اشارهشده در بالا لازم نیست یک شبکۀ کانولوشنی باشد. شبکههای مولد رقابتی با شبکههای از نوع کانولوشنی با نام DCGAN[17] در [14] معرفی و نسخههای متنوعی از شبکههای مولد رقابتی بر اساس آن ارائه شدند که برخی از آنها در انتقال سبک عصبی استفاده شدهاند که در بخش بعد به آن پرداخته خواهد شد.
۱-۳- انتقال سبک عصبی همانگونه که پیش از این ذکر شد منظور از انتقال سبک عصبی، اعمال سبک (بافت و رنگ) تصویر استایل روی تصویر محتوای ورودی با استفاده از شبکههای عصبی کانولوشنی است. در [6] برای نخستینبار این ایده مطرح شده بود؛ در یک فرآیند تکراری، خطای بازسازی[18] بین تصویر حاصله و تصاویر محتوا و سبک را کمینه میکند. روال کلی کار بهصورت زیر است [13]:
هدف، تغییر تصویر ورودی است؛ به نحوی که محتوای آن از این تصویر و سبک آن از تصویر دیگر باشد. دو مسئلۀ اصلی مرتبط با محتوا و سبک وجود دارد: ایجاد محتوا: ایجاد تصویری که محتوای آن از تصویر محتوا باشد. محتوای کلی اگر برای مثال، نشاندهندۀ یک منظره است، این محتوا باید حفظ شود؛ اما ظرافتها و بافت و رنگ تصویر (سبک آن) باید از تصویر دیگر اخذ شود. یک تابع زیان بین تصویر محتوای ورودی و تصویر تولیدی باید کمینه شود. برای مقایسۀ محتوای دو تصویر از ویژگیهای استخراجشدۀ شبکههای عصبی کانولوشنی استفاده میشود. با توجه به ساختار کلی شبکههای کانولوشنی که مثل یک هرم گاوسی به طرف لایههای آخر، تصویر کوچکتر میشود و جزئیات اصلی، حذف و کلیات آن باقی میماند، لایههای آخر شبکه نمایانگر محتوای کلی تصویر ورودیاند؛ بنابراین، برای لحاظکردن محتوای تصویر عموماً از لایههای آخر شبکه استفاده میشود که نمایشدهندۀ ویژگیهای سطح بالاترند که گاهی به آنها ساختارهای کلان[20] هم گفته میشود [12]. اگر p وx بهترتیب نمایانگر تصویر محتوا و تصویر تولیدشده از شبکه باشند، تابع هزینۀ این قسمت بهصورت زیر تعریف میشود:
که در آن و ویژگیهای استخراجشده در لایۀ ام تصاویر تولیدی و محتوا (x وp) هستند. ، تعداد فیلترها در لایۀ ام و حاصلضرب درازا و پهنای فیلترهاست. مشتق این تابع بر حسب خروجی تابع فعالیت در لایۀ ام بهصورت زیر است:
با روش پس انتشار خطا [1] مشتقگیری میتواند بر حسب x انجام شود. تولید سبک (استایل یا شمایل)، ایجاد تصویری است که سبک و سیاق کلی آن مشابه سبک تصویر استایل باشد. استفاده از سبکهای نقاشی ازجمله پراستفادهترین تصاویر استایلاند که در انتقال سبک به کار برده میشوند و هدف، اعمال سبک یک نقاشی روی تصویر ورودی است. به این منظور هم از یک تابع هزینه استفاده میشود که تفاوت سبک تصویر استایل و تصویر تولیدی را نشان دهد. بافت و رنگ مشخصههای اصلی سبکاند که با استفاده از خصوصیات آماری [15] ویژگیهای استخراجشده از لایههای اولیۀ شبکههای کانولوشنی محاسبه میشوند. ویژگیهای استخراجشده از لایههای اولیۀ شبکه، مشخصکنندۀ ویژگیهای مکانی تصویر، همچون لبهها و اشکال هندسیاند که به آنها ساختارهای خُرد[21] هم گفته میشود. برای لایۀ ام، میزان تفاوت سبک آن با سبک تصویر استایل بهصورت زیر محاسبه میشود:
که در آن ماتریس گرام حاصل از ضرب داخلی ویژگیهای لایۀ ام تصویر تولیدی است که بهصورت زیر تعریف میشود:
و ماتریس گرام متناظر لایۀ ام تصویر استایل است. نکتۀ اصلی در ماتریس گرام آن است که همرخدادی بافتهای مختلف در تصویر را مشخص میکند؛ برای مثال، اگر بافت صورت و بافت راهراه سیاه و زرد با هم رخ دهند، میتوان انتظار صورت یک ببر را داشت. تابع هزینۀ مربوط به بخش استایل بهصورت مجموع وزندار تابع رابطۀ (۵) محاسبه میشود:
که میزان مطابقت همرخدادی یادشده در لایههای مختلف دو تصویر - با ضرایب وزنی متفاوت - را محاسبه میکند. مشتق این تابع بهصورت زیر است:
با داشتن دو تابع هزینۀ بالا، تابع هدف مسئلۀ انتقال سبک عصبی [6] بهصورت رابطۀ (۹) زیر خواهد بود:
که آلفا و بتا ضرایب اهمیت دو عبارتاند. در فرآیند انتقال سبک، وزنهای شبکۀ اصلی بهروزرسانی نمیشوند؛ بلکه تصویر تولیدی ، متغیر مسئله است که در هر دور بهروزرسانی میشود:
این شیوۀ کلیِ انتقال سبک در زمینههای مختلفی همچون فراتفکیکپذیری [16]، سنتر معنایی تصویر[22][17] و ترجمۀ تصویر به تصویر[23][18] استفاده شده است. در چند سال اخیر پیشرفتهای زیادی درخصوص شبکههای مولد رقابتی [17-21] و روشهای انتقال سبک مبتنی بر این شبکهها ارائه شدهاند [21-25]. هدف این نوشتار، توضیح این شیوهها نیست و به دلیل آنکه از یکی از این شیوهها (مرجع [25]) برای دادهافزایی استفاده شده است، کلیات این شیوه بیان میشود. برخلاف روشهای معمول انتقال سبک مانند [7] که یک شبکۀ کانولوشنی برای یک سبک خاص آموزش میبیند، در [25]، یک شبکه برای انتقال استایل چندین سبک آموزش داده شده است. شیوۀ به کار برده شده در آن، مبتنی بر کارهای قبلی [17, 26] است. فرض اصلی این روش آن بوده است که استایلهای مشابه، خصوصیات مشترکی دارند؛ برای نمونه، فرض کنید هدف، انتقال سبک نقاشیهای با سبک امپرسیونیسم[24] (برداشتگرایی) کلود مونه[25] [1] روی تصویر محتواست یا باید برای هر نقاشی یک شبکۀ جدا آموزش داده شود یا با این فرض که نقاشیهای با استایل یکسان، خروجیهای یکسانی در برخی لایههای شبکۀ کانولوشنی خواهند داشت، از میانگین و انحراف معیار این خروجیها برای اصلاح خروجی لایههای متناظر تصویر ورودی استفاده کرد. خروجی این لایهها ابتدا نرمالسازی و با پارامترهای فراگرفتهشده از نقاشیها، لغو نرمالسازی[26] انجام میشود. در [26] کارایی این شیوه روی نقاشیهای مختلف و منجملۀ نقاشیهای کلود مونه و با نرمالساز نمونهای شرطی[27] نشان داده شده است. هدف در این نرمالسازی، انتقال خروجی تابع فعالیت یک لایه x به نرمالشدۀ آن،z ، وابسته به سبک نقاشی s است که بهصورت تبدیل آفین زیر انجام میشود:
که در آن μ و σ میانگین و انحراف معیار خروجی دسته و پارامترهای آموزش دیدۀ مبتنی بر استایلاند. نرمالسازی میتواند در گروههای مختلفی همچون نورونها، ویژگیها و کانالها انجام شود. گروهبندیهای مختلف وزنها در تحقیقات حوزۀ یادگیری عمیق و منجمله در کاهش تعداد پارامترهای شبکه [27] کاربرد دارد. در [25] مبتنی بر شیوۀ [17] از نرمالسازی در سطح لایهها استفاده شده است. در روش پیشنهادی از این شیوه برای دادهافزایی در مسئلۀ شناسایی آتش استفاده خواهد شد.
۱-۴- دادهافزایی در یادگیری عمیق عموم مدلهای یادگیری عمیق به لحاظ تعداد زیاد پارامترها، نیازمند حجم فراوان دادههای آموزشیاند. یکی از روشهای استفادهشده برای افزایش تعداد نمونههای آموزشی در مواقعی که دادههای آموزشی به اندازۀ کافی دردسترس نیستند، شیوۀ «دادهافزایی»[28] است. انعکاس، اضافهکردن نویز، تغییر رنگ، تغییر اندازه و برش تصاویر آموزشیِ دردسترس ازجمله شیوههای دادهافزایی هستند که در مقالۀ مروری شورتن[29] و خوشگفتار [28] بیان شدهاند. این شیوههای دادهافزایی در بسترهای مرسوم یادگیری عمیق همچون تنسورفلو[30] و پایتورچ[31] دردسترساند. بهتازگی به روشهای دادهافزایی مبتنی بر انتقال سبک توجه شده است که عموماً مبتنی بر انتقال سبک تصادفیاند؛ برای مثال، در کار[32] جکسون[33]، عطاپور و سایرین [29] از سبکهای متعدد تصادفی برای تولید نمونههای جدید استفاده شده است. شیوۀ ایشان مبتنی بر کار قیاسی و همکاران [30] است. در روش مزبور، تصاویر آموزشی، تحت انتقال سبک تصادفی قرار میگیرند و تصاویر جدیدی مبتنی بر دادههای دردسترس تولید میشوند؛ برای مثال، تصویر یک لیوان میتواند تحت انتقال سبک قرار گیرد و نمونههای جدیدی از تصویر لیوان به وجود آید که در مجموعۀ آموزشی نبودهاند. برای چنین مواردی میتوان انتظار داشت استفاده از انتقال سبک، به تولید دادههایی مشابه نمونههای آموزشی منجر میشود و کمبود دادههای آموزشی تا حدودی مرتفع شود. به این ترتیب، امکان مؤثربودن این شیوه، وابسته به نوع مسئله، تصاویر استایل و روش انتقال سبک خواهد بود. در ادامه بهعنوان پیشنهاد این نوشتار، نتیجۀ استفاده از انتقال سبک در شناسایی شعلۀ آتش در تصویر را خواهیم دید. پیش از آن، مرور مختصری بر موضوع شناسایی آتش میشود.
۱-۵- شناسایی آتش شناسایی زودهنگام حریق نقش بسزایی در اطفای بهموقع و کاهش خسارات بعدی دارد. مزیت نظارت تصویری نسبت به سایر سنجندههای حریق، آن است که نیازی نیست دوربین در محل حریق باشد و گرما یا دود را حس کند، کافیست محل آتشسوزی در معرض دید دوربین باشد. موضوع شناسایی آتش ازطریق پردازش تصاویر سابقهای حدوداً بیستساله دارد [31]. راهکارهای قدیمی حوزۀ بینایی ماشین عموماً مناسب شناسایی اشیای صلباند. در سالیان اخیر و با توسعۀ روشهای نوین مانند یادگیری عمیق، تشخیص اشیا یا پدیدههایی مانند درخت و آتش که شکل ثابتی ندارند، سهلالوصولتر شده و تحقیقات زیادی را به خود معطوف کرده است [32-34]. در [33] روشهای متعددی در شناسایی آتش، بررسی و نتیجه گرفته شده است که روشهای مبتنی بر شبکههای عصبی کانولوشنی از روشهای سنتی پردازش تصویر کاراترند. در [32] چندین الگوریتم و مدل یادگیری عمیق برای شناسایی و پیداکردن محل شعلۀ آتش مقایسه شدهاند: روش Faster-RCNN[35] با سه معماری VGG16 [8]، AlexNet [11] و ResNet [10] اجرا شده و الگوریتم اصلاحشدۀ Faster-RCNN با معماری رزنت ۱۰۱، بیشترین کارایی را داشته است. پس از آن، همین الگوریتم، با معماری VGG16 با یک دهم درصد اختلاف در رتبۀ دوم بوده است. بعد از موارد بالا الگوریتم YOLOv3 [36, 37] نسبت به سایر مدلهای بررسیشده کارایی بیشتری داشته است. در [33] چهار معماری Faster-RCNN، R-FCN [38]، SSD [39] و YOLOv3 مقایسه قرار شدهاند. مطابق نتایج این مقاله،روش YOLOv3 با میانگین دقت ۸۴.۵ درصد، بالاترین کارایی را در شناسایی آتش داشته است. بهعلاوه همین روش با سرعت پردازش ۲۸ فریم در ثانیه، سریعترین روش در بین روشهای مقایسهشدۀ مبتنی بر شبکههای عصبی کانولوشنی بوده است. در مرجع [34] برای روش بهینهشدۀ YOLO دقت ۷۶ درصد گزارش شده است. زمان آموزش روی ۱۷۲۰ تصویر و روی CPU، ۱۲ ساعت بوده است. در بخشهای بعدی این نوشتار از YOLOv3 استفاده خواهد شد. 2- دادهافزایی با انتقال سبک عصبی در شناسایی شعلۀ آتشتهیۀ دادههای آموزشی کافی و مناسب برای آموزش یک سیستم شناسایی عموماً وقتگیر و مستلزم هزینه و زمان است. هنگامی که هدف، شناسایی دقیق محل شیئ مدنظر در تصویر باشد، اشیای هدف باید در مجموعه دادگان آموزشی علامتگذاری شوند که وقت بیشتری نسبت به برچسبگذاری تصاویر نیاز دارد. در این بخش بهعنوان شیوۀ پیشنهادی در این نوشتار، تأثیر استفاده از انتقال سبک برای افزایش نمونه تصاویر آموزشی در شناسایی آتش بررسی شده است. افزایش تعداد نمونهها به گونهای است که نیازی به علامتگذاری تصاویر جدید نخواهد بود. در ادامه از مدل YOLOv3 برای شناسایی آتش، استفاده و تأثیر استفاده از انتقال سبک برای دادهافزایی در این شیوه بررسی شده است. به این منظور، ابتدا با مجموعه دادگان این حوزه و نحوة علامتگذاری تصاویر آموزشی آشنا میشویم و سپس مبتنی بر شیوة انتقال سبک عصبی اشارهشده در بخشهای قبل، تعدادی از دادههای آموزشی اخذشده در نور روز، به شب تبدیل میشوند و نتیجۀ این افزایش دادههای آموزشی را در مسئلة شناسایی آتش خواهیم دید. ۲-۱- مجموعه دادگان شناسایی آتش پیشنهاد این نوشتار برای استفاده از انتقال سبک بهمنظور دادهافزایی در شناسایی آتش، تبدیل تصاویر «روز» به تصاویر «شب» است. با این فرض که تصاویر آموزشی ثبتشده در طی روز، بیشتر از نمونههای اخذشده در شباند، با اعمال یک روش انتقال سبک، میتوان کمبود نمونههای اخذشده در شب را برطرف کرد و افزایش کارایی سیستم شناسایی را انتظار داشت. به جای بررسی یک سیستم شناسایی حریق همهمنظوره که در همۀ زمانها و مکانها کار کند، روی موردی تمرکز خواهیم کرد که متناسب با ایدۀ این نوشتار باشد. به این منظور از تصاویری شامل شعلۀ آتش استفاده خواهد شد که در فضای باز، گرفته و عمدتاً شامل حریق خودرو در بزرگراهها یا خیابان میشوند؛ زیرا مایلیم انتقال سبک با تصاویر شب دردسترس روی مجموعه دادگان استفادهشده امکانپذیر باشد. فرضِ آموزش و تست یک سیستم روی مجموعه دادهای خاص، فرضی غیرمنطقی نیست. طراحی یک سیستم شناسایی خاص، کاراتر از یک سیستم شناسایی همهمنظوره است؛ برای مثال، در همین مورد آتشسوزی، با توجه به تفاوتهای فراوان بین محیط خانه و بیرون، نوع مادۀ در حال سوخت، رنگ و حجم شعله، حریق در یک پالایشگاه یا کارخانه یا ایستگاه انتقال گاز، قاعدتاً یک سیستم شناسایی آتش تخصصی بهتر میتواند جوابگو باشد. در این بخش، به مجموعه دادهای نیاز است که تصاویر آن تقریباً یک سبک و سیاق داشته باشند، محل شعله در تصاویر علامتگذاریشده و دردسترس عموم باشد. در بخشهای پیش به چند روش شناسایی آتش اشاره شد. در [33] گفته شد از بین چند مدل بررسیشده، YOLOv3 بیشترین کارایی را داشته است. در این مرجع بهمنظور آموزش سیستم، ۲۹۱۸۰ تصویر از منابع متعدد گردآوری و برچسب زده شدهاند. از میان این تعداد، ۱۳۴۰۰ تصویر شامل آتش/دود بودهاند. مجموعه داده استفادهشده در مقاله فوق دردسترس عموم نبود؛ در مقالۀ مذکور به چندین مجموعه دادۀ دیگر در حوزۀ شناسایی آتش اشاره شده بود که با توجه به فرض پاراگراف قبلی، مناسب این نوشتار نیستند. مجموعه دادههای دانشگاه کیمیانگ[34]، کورسیکا[35]، بیلکنت[36] و دانشگاه اسپلیت[37]، مربوط به آتشسوزی در جنگل است یا شامل برچسب نواحی آتش نبودند. در مرجع [40] از سه گیگابایت تصویر[38] برای آموزش استفاده شده است. چنین مجموعه دادههایی برای طبقهبندی تصاویر به دو گروه حاوی آتش یا غیر آن مناسباند؛ اما برای شناسایی محل آتش به علامتگذاری ناحیۀ آتش نیاز دارند. برخی از مجموعه دادگان فقط شامل چندین فریم از صحنههای تقریباً ثابت حاوی آتشاند. در [41] یک معماری سبک شناسایی آتش برای کار روی رسپبریپای پیشنهاد و پیادهسازی[39] شده است. مجموعه دادگان ارائهشده شامل انواع مختلفی از تصاویر حریق در اختیار عموم قرار داده شدند. برای هر تصویر ناحیۀ آتش بهصورت دستی مشخص شده است. در این نوشتار، از بخشی از این مجموعه داده استفاده شده که از گیتهاب مقاله دردسترس است. مشخصکردن دستی ناحیۀ اشیای مدنظر در هر تصویر با ابزارهای مختلف مانند labelImg[40] انجام میشود. به کادر مشخصکنندۀ ناحیۀ شیئ، جعبۀ محدودکننده[41] گفته میشود. شکل ۲ دو نمونه از تصاویر مجموعه داده فوق به همراه علامتگذاری[42] جعبههای محدودکنندۀ نواحی آتش را نشان میدهد. این کادرها بهعنوان علامات مرجع[43] مشخصکنندۀ محل درست شیئ، بعداً در روال ارزیابی استفاده خواهند شد.
شکل (2): نمونه تصاویری از مجموعه دادگان استفادهشده و شیوۀ علامتگذاری دستی نواحی آتش.
همانگونه که مشاهده میشود در یک تصویر ممکن است چند مورد از شیئ مدنظر وجود داشته باشد. مشخصات نواحی هر تصویر در قالب یک فایل xml ذخیره میشود.
۲-۲- اعمال انتقال سبک روی مجموعه داده از بین ۳۰۵ تصویر انتخابی، ۲۵ تصویر در شب و سایر تصاویر در روز گرفته شدهاند. ۸۵ تصویر روز، انتخاب و با استفاده از انتقال سبک عصبی، به تصویر شب تبدیل شدند. شکل ۳ دو تصویر نمونه را نشان میدهد که تحت انتقال سبک عصبی با دو روش قرار گرفتهاند. سطرهای با شمارۀ ۱ تا ۴ در شکل ۳ بهترتیب تصویر محتوای ورودی، تصویر استایل، نتیجۀ انتقال سبک با روش [7] و نتیجۀ انتقال سبک با روش [25] روی تصاویر ستونهای (الف) و (ب) را نشان میدهند. تصاویر استایل استفادهشده، از مجموعه دادگان برکلی[44] است که در مرجع [18] استفاده شده است. حجم کل این مجموع دادگان ۹ گیگابایت است[45] که بخشی از آنها برای استفاده در این نوشتار در گیتهاب نگارنده[46] قرار داده شده است. برای هر تصویر روز، یک تصویر شب، تصویر استایل آن در نظر گرفته میشود و عمل انتقال سَبْک روی آن بهمنظور تبدیل تصویر روز به تصویر شب انجام میشود. تصویر شب بهصورت تصادفی از مجموعه تصاویر شب انتخاب شده است. انتقال سبک با دو شیوۀ [7, 25] انجام و نتایج در شکل ۳ نشان داده شده است. با توجه به شکل ۳، روش انتقال سبک [25] نتایج بهتری نسبت به روش [7] در این کاربرد تولید کرده است.
برای هر دو روش از مدلهای از پیش آموزش دیدۀ نگارندگان آنها در بستر پایتورچ استفاده شده است. فایلهای مدلهای آموزشدیدۀ این شیوه که در انتقال سبک به کار میروند، حدود ۵۰ مگابایت است؛ در حالی که فایل مدل مولد روش [25] حدود یک و نیم گیگابایت است. با توجه به اینکه روش اخیر روی تبدیل تصاویر روز به شب آموزش دیده، نتایج بهتری به دست داده است؛ بنابراین، در ادامه از این شیوه برای تبدیل تصاویر روز به شب استفاده شده است.
۲-۳- شناسایی آتش در تصویر همانگونه که پیشتر ذکر شد روشهای مبتنی بر شبکههای عصبی کانولوشنی در مقایسه با روشهای مرسوم پردازش تصویر، کارایی بهتری در شناسایی آتش در تصویر دارند [33]. در ادامه برای آموزش و شناسایی آتش در تصاویر از کتابخانه منبع باز ImageAI[xlvii] استفاده خواهد شد. مزیتی که شیوۀ انتقال سبک در تبدیل تصاویر روز به شب در این خصوص دارد، آن است که نواحی از قبل مشخص شده بهعنوان حریق (شکل ۲) قابلیت استفاده را برای تصاویر تولیدی با انتقال سبک دارند (دو سطر آخر شکل ۳). بهعلاوه، این نکته که سایر نواحی تصویر شامل آتش نیستند، نورهای تولیدشده در عمل انتقال سبک، بهعنوان نواحی که آتش نیستند، در فرآیند آموزش در نظر گرفته خواهند شد. برای مثال، با دقت در تصاویر سطر آخر شکل ۳، ملاحظه میشود بهجز نور چراغهای ماشینها و نور چراغ گردان ماشین آتشنشانی در ستون (الف)، نورهای تصنعی دیگری منبعث از تصاویر استایل به این تصاویر اضافه شدهاند که چون جزو نواحی آتش نیستند، در فرآیند آموزش بهعنوان آتش نباید تلقی شوند و مدل آموزشی باید در برابر چنین نورهایی که درواقع آتش کاذباند، مقاومتر شود.
۲-۴- نتایج اجرا و ارزیابی همانگونه که پیشتر ذکر شد انعکاس، دوران، تغییر اندازه و برش ازجمله روشهای معمول دادهافزایی در حوزۀ یادگیری عمیقاند که وابسته به کاربرد مدنظر همه یا برخی از آنها روی تصاویر آموزشی اعمال میشوند؛ برای مثال، اگر کاربرد مدنظر شناسایی عابر پیاده باشد، انعکاس افقی تصویر مناسب است؛ اما انعکاس در راستای محور yها راهگشا نخواهد بود. بهمنظور ارزیابی کارایی سیستم پیشنهادی، چهار روش زیر در شناسایی آتش بررسی خواهند شد:
چارچوب کلی کار، مطابق توضیحات بخشهای قبلی در شکل ۴ نشان داده شده است که بخش اول آن بسته به هر یک از چهار روش یادشده تغییر خواهد کرد. همۀ برنامهها روی سرورهای گوگل کولب با مشخصات ذکرشده در جدول ۱ اجرا شدهاند.
شکل (4): چارچوب کلی روش پیشنهادی
جدول (1): مشخصات دستگاه
یک مدل از قبل آموزش دیدۀ YOLOv3 روی تصاویر طبیعی بهعنوان مدل اولیۀ آموزش انتخاب شد. با توجه به اینکه معماری این مدل متفاوت با مدلهای کراس[xlix] استفادهشده برای آموزش مدل است، ساختار این مدل به قالب قابل خواندن در کراس تغییر یافت. در هر روش، ابتدا مدل روی تصاویر مجموعه دادگان انتخابی آموزش داده میشود. پس از ده اپُک[l] مدل با کمترین خطا روی دادههای اعتبارسنجی[li] بهعنوان مدل نهایی انتخاب میشود. روال کلی، همان فرم نمایش داده شده در شکل ۴ است. تعداد تصاویر اعتبارسنجی، ۶۰ نمونه بوده است. برنامه مربوط به آموزش شبکه از گیتهاب نگارنده دردسترس و اجراشدنی است[lii]. در روش (آ)، آموزش روی ۳۰۵ تصویر آموزشی و بدون هیچ دادهافزایی صورت پذیرفته است (با نام Aug-None). روش (ب)، عیناً مشابه روش (آ) بوده است؛ با این تفاوت که در ۳۰ درصد مواقع، تصویر آموزشی از دادهافزایی از نوع تغییر اندازه و برش تأثیر گرفته است. چون ده اپک برنامه آموزش داده میشود، هر تصویر، هم با اندازۀ اصلی و هم دستکم یک بار با تغییر اندازه و برش در آموزش مشارکت داشته است. این شیوه Aug-Scale نامیده شده است. پارامترهای اصلی برنامه در جدول ۲ آمدهاند.
جدول (2): پارامترهای اجرا
در روش (ج) با نام Aug-D2N[liii]، ۸۵ تصویر از ۳۰۵ تصویر (حدود ۳۰ درصد) تحت انتقال سبک عصبی قرار گرفتند و به مجموعه دادگان آموزشی اضافه شدند. در روش (د) با نام Aug-D2N-Scale، مشابه شیوۀ (ب) اجازۀ تغییر اندازه و برش به تصاویر آموزشی (کل ۳۹۰ تصویر) داده میشود. روند کاهش مقدار تابع هزینۀ[liv] شبکه برای چهار مدل فوق در شکل ۵ نمایش داده شده است. همانگونه که مشاهده میشود تغییرات تابع هزینه در چهار مدل تقریباً مشابه هم بودهاند.
شکل (5): نمودار کاهش مقدار تابع هزینه در حین آموزش شبکه برای چهار مدل بررسیشده.
برای ارزیابی دقیقتر، مدل انتخابی هر روش با معیارهای مرسوم این حوزه مقایسه خواهند شد. محاسبۀ دقت در سیستمهای شناسایی محل شیئ مبتنی بر جعبۀ محدودکنندۀ شیئ است. ابتدا تعریف چند معیار، مرور و سپس «میانگین دقت[lv]» ذکر شدهاند. اشتراک به اجتماع (IoU[lvi]): معیاری است که متناسب با میزان همپوشانی جعبۀ محدودکنندۀ مرجع[lvii] و جعبۀ محدودکنندۀ حاصل از مدل است و بهصورت زیر محاسبه میشود:
اگر bgt مشخصکنندۀ کادر مرجع شیئ و bp مشخصکنندۀ کادر پیشبینی شده باشد، IoU بهصورت زیر بیان میشود:
اگر IoU از حد آستانۀ خاصی بیشتر باشد، مورد شناساییشده بهعنوان تشخیص درست منظور خواهد شد. حد آستانه، عددی عموماً در بازۀ ۰.۰۵ تا ۰.۹۵ است که هر چه بیشتر باشد، در قبول ناحیۀ شناساییشده بهعنوان درست، سختگیرانهتر عمل میکند. وابسته به مقدار این حد آستانه میزان دقت برآوردشده متفاوت خواهد شد؛ بنابراین، میانگین دقت براساس سطح زیر منحنی درستی - نرخ یادآوری[lviii] محاسبه میشود. به این ترتیب که در سطوح مختلف IoU در بازه [0,1] تعداد مثبتهای صادق[lix]، مثبتهای کاذب[lx] و منفیهای کاذب[lxi] و براساس آنها درستی و نرخ یادآوری محاسبه میشوند:
سطح زیر منحنی درستی - نرخ یادآوری، میانگین دقت (AP) است که تعریف عمومی آن بهصورت زیر است:
که منظور از p و r در رابطۀ بالا همان precision و recall یادشدهاند. با محاسبۀ معیارهای درستی و نرخ یادآوری برای چهار شیوۀ مورد بحث، میانگین دقت برای هر دو مدل مبتنی بر روش پیشنهادیِ دادهافزایی با انتقال سبک، بیشتر از دو روش دیگر بوده است (شکل ۶). افزایش دقت روش دادهافزایی تغییر اندازه و برش (Aug-Scale) نسبت به روش بدون دادهافزایی Aug-None، کمتر از ۴ درصد (۰.۰۳۵) بوده است؛ در حالی که افزایش دقت روش پیشنهادیِ Aug-D2N نسبت به روش بدون دادهافزایی Aug-None بیش از ۸ درصد بوده است؛ به این معنی که شیوۀ پیشنهادی بهعنوان یک روش دادهافزایی در مسئلۀ شناسایی آتش مؤثرتر از روش تغییر اندازه و برش است. به این نکته باید دقت داشت که صِرف افزایش دقت شیوۀ پیشنهادی نسبت به روش بدون دادهافزایی، حتی اگر میزان افزایش دقت آن از میزان افزایش دقت روش تغییر اندازه هم کمتر میبود، باز هم شیوۀ پیشنهادی بهعنوان یک روش دادهافزایی پذیرفتنی بود؛ زیرا روشهای دادهافزایی میتوانند مستقل از هم به کار برده شوند. نوع دادهافزایی که روش پیشنهادی میتواند انجام دهد، انجامپذیر با روش تغییر اندازه نیست و برعکس. بهمنظور بررسی تأثیر ترکیب دو روش پیشنهادی و روش تغییر اندازه، روش تغییر اندازه روی ۳۹۰ تصویر حاصل از روش پیشنهادی اعمال شده است (با همان احتمال پیشین). این روش با نام Aug-D2N-Scale در مقایسه با روش مبتنی بر تغییر اندازه حدود ۷ درصد افزایش دقت داشته است که نشاندهندۀ کارایی روش پیشنهادی در ترکیب با روش تغییر اندازه است. در ادامه برخی از خروجیهای دو روش (ب) و (د) یعنی Aug-Scale و Aug-D2N-Scale ملاحظه میشود. با معیار میانگین دقت یادشده، روش دوم حدود ۷ درصد افزایش دقت داشته است.
شکل (6): مقایسۀ دقت نهایی دو مدل در شناسایی ناحیۀ آتش، مبتنی بر معیار میانگین دقت (Average Precision).
شکل ۷ نتیجۀ اجرای دو مدل روی چند تصویر نمونه را نشان میدهد. ستون (الف) نتایج مدل Aug-Scale و ستون (ب) نتایج مدل پیشنهادی است که تعدادی از تصاویر آموزشی روز با روش انتقال سبک عصبی به شب تبدیل شدهاند. همۀ پارامترهای برنامه و نمونههای اعتبارسنجی و آزمون، در هر دو مدل یکی و بدون تغییر بودهاند. در دو سطر اول، روش پیشنهادی عملکرد بهتری داشته است. در دو سطر بعد، روش اول، در دو سطر ۵ و ۶، هر دو روش شعله را شناسایی کردهاند و در دو سطر آخر هر دو ناموفق بودهاند. یک نکته شایان توجه، شناسایی بهتر روش پیشنهادی در سطر پنجم است. بدون دادهافزایی پیشنهادی (ستون اول) چراغهای گردان خودرو به اشتباه، شعلۀ آتش شناسایی شدهاند. در مجموعه تصاویر آزمون، ۱۶ تصویر شب وجود داشته است. روش پیشنهادی توانسته است در ۸ مورد، شعلۀ آتش را شناسایی کند؛ در حالی که بدون روش پیشنهادی، فقط دو نمونه شناسایی درست داشته است. کارایی بهتر روش پیشنهادی در تصاویر شب به دلیل افزایش نمونههای شب با روش انتقال سبک روز به شب است. شکل ۸ چهار نمونه از تصاویر شب را نشان میدهد که روش پیشنهادی موفق بوده است.
زمان اجرا با افزایش ۸۵ تصویر به ۳۰۵ تصویر مجموعه دادگان، حجم دادهها ۲۸ درصد اضافه شد که طبعاً زمان آموزش نیز زیاد خواهد شد. زمان آموزش هر دو مدل (آ) و (ب) روی ۳۰۵ تصویر در ۱۰ اپک، حدود ۳۸ دقیقه و زمان اجرای مدلهای پیشنهادی (ج) و (د) روی ۳۰۵+۸۵=۳۹۰ تصویر (۲۸ درصد افزایش تعداد تصاویر)، حدود ۴۸ دقیقه بوده است که معادل 26 درصد افزایش زمان آموزش است (شکل ۹)؛ اما ساختار و حجم هر دو مدل یکی بوده (۲۴۷ مگابایت) و پس از آموزش، زمان شناسایی یکسان است (۷.۵ ثانیه برای ۶۰ تصویر) و بهصورت معمول، آنچه مهم است زمان اجرای مدل است که هر دو سرعت یکسانی در شناسایی محل حریق دارند (۸ تصویر در ثانیه).
شکل (9): زمان آموزش بر حسب دقیقه
انتقال سبک نامناسب درنتیجۀ اعمال انتقال سبک روی برخی از تصاویر، ناحیۀ شعله در تصویر حاصله تا حدود زیادی رؤیتناپذیر شده بود. شکل ۱۰ دو نمونه از چنین مواردی را نشان میدهد. در روال آموزش اشارهشده در بخشهای قبل، از تمام تصاویر روز به شب شده و منجمله این دو تصویر استفاده شده بود؛ اما در حالت کلی باید یا چنین تصاویر تولیدشدهای بهصورت دستی از مجموعه دادگان حذف شوند یا راهکاری برای حفظ ناحیۀ شعلۀ آتش در هنگام انتقال سبک اندیشیده شود که ازجمله کارهای آتی میتواند باشد.
3- جمعبندی با ظهور شبکههای عصبی کانولوشنی در حوزۀ شناسایی اشیا در تصاویر جهش بزرگی رخ داده است. بسیاری از مدلهای شبکههای عصبی کانولوشنی شامل میلیونها پارامتر بوده که نیازمند حجم زیادی دادۀ آموزشیاند. افزایش تعداد تصاویر آموزشی ازطریق اعمال تبدیلات هندسی روی تصاویر آموزشی ازجمله روشهای مرسوم دادهافزایی در یادگیری عمیق است. بهتازگی روشهای انتقال سبک هم برای افزایش تعداد دادهها به کار گرفته شدهاند. در این مقاله دو روش انتقال سبک عصبی برای تبدیل تصاویر روز به شب به کار گرفته شدند. روشی که نتایج بصری بهتری تولید کرده بود بهعنوان شیوۀ دادهافزایی در شناسایی آتش به کار گرفته شد. نتایج آزمایشات انجامشده نشان دادند در این کاربرد خاص شیوۀ پیشنهادی به افزایش دقت شناسایی منجر میشود. روش انتقال سبک در برابر روشهای معمول دادهافزایی در یادگیری عمیق (همچون برش تصویر، تبدیلات هندسی و تغییر رنگ) نیست؛ بنابراین، بحث مقایسۀ این دو شیوه مطرح نیست. شیوههای مرسوم دادهافزایی روی تصاویر اضافهشده با انتقال سبک هم اعمال میشود؛ با این حال، شیوۀ پیشنهادی با روش دادهافزایی تغییر اندازه و برش مقایسه شد که نتایج بهتری از آن به دست داد. هدف در نوشتار حاضر، ایجاد بهترین مدل برای شناسایی آتش نبوده است؛ به همین دلیل روی مواردی همچون تعداد تصاویر آموزشی، تعداد اپک آموزشی، پارامترهای آموزش مدل، نرخ یادگیری، توابع فعالیت و الگوریتمهای بهینهسازی مطالعۀ خاصی انجام نشده است. برای مقایسۀ کارایی روش دادهافزایی مبتنی بر تغییر سبک روز به شب در شناسایی آتش، تمام تنظیمات و پارامترهای آموزشی مدلهای مختلف بررسیشده مانند هم در نظر گرفته شد و نشان داده شد افزایش نمونهها با روش انتقال سبک عصبی [25] کارایی سیستم شناسایی آتش را ارتقا میدهد. یک مزیت روش پیشنهادی آن است که میتوان از همان جعبههای مشخصکنندۀ نواحی آتش در تصاویر آموزشی روز، برای متناظر شب آنها هم استفاده کرد؛ بدون آنکه نیاز به علامتگذاری مجدد این تصاویر باشد. بهعلاوه با توجه به اینکه تصاویر استایل شب استفادهشده شامل نورهای چراغ و نور لامپها بودند و نورهای مشابه تصنعی در تصاویر روز به شب شده ایجاد میشود، بهصورت ضمنی روال آموزش، چنین نورهایی را از آتش تفکیک خواهد کرد. شیوۀ انتقال سبک بررسیشده در این نوشتار میتواند در دیگر مسائل شناسایی اشیا در تصاویر هم استفاده شود که فاقد دادههای آموزشی کافی از برخی دستهها هستند؛ برای مثال، ممکن است در یک سیستم شناسایی برگ یا گیاه مریض از سالم، تعداد نمونههای مریض کمتر باشند که میتوان با یک روش انتقال سبک، تصاویر سالم را به مریض تبدیل کرد و تعداد نمونههای آموزشی را افزایش داد. کاربردهای مشابه دیگری همچون شناسایی کاشی معیوب از کاشی سالم و شناسایی خودروی آسیبدیده از خودروی سالم هم میتوان برای ایدۀ این نوشتار در نظر گرفت. ازجمله کارهای آتی میتوان به بهبود عملکرد روش انتقال سبک اشاره کرد؛ به نحوی که ناحیۀ شعلۀ آتش در تصاویر روز، کمترین تأثیر را بپذیرند. در حال حاضر ناحیۀ شعله در تصاویر تولیدشده با انتقال سبک، مقداری تصنعیاند. استفاده از فضاهای رنگی دیگر، پیداکردن بهترین پارامترهای شبکه و استفاده از تصاویر آموزشی بیشتر، مواردیاند که بهمنظور حصول به یک سیستم شناسایی آتش بهینه به بررسی بیشتر نیاز دارد که موضوع این نوشتار نیست.
سپاسگزاری از داوران گرامی که با نظرات سازندۀ خود موجبات بهترشدن نوشتار حاضر را فراهم کردند، سپاسگزارم.
[1] تاریخ ارسال مقاله: 21/04/1400 تاریخ پذیرش مقاله: 10/07/1400 نام نویسندۀ مسئول: محمود امینطوسی نشانی نویسندۀ مسئول: ایران – سبزواری- دانشگاه حکیم سبزوار - دانشکده ریاضی و علوم کامپیوتر - گروه علوم کامپیوتر
[1] Neural Style Transfer (NST) [2] Gatys [3] Content [4] Style [5] حق نشر تصویر روباه متعلق به مجید مؤمنیمقدم، عضو هیات علمی گروه زیستشناسی دانشگاه حکیم سبزواری است. [6] Object Detection and Localization [7] Over Fitting [8] https://github.com/mamintoosi/MMM-Artistic-photoes [9] برای آشنایی بیشتر با معماری این شبکه میتوان به منابع متعدد موجود منجمله سایت زیر مراجعه کرد: VGG16 - Convolutional Network for Classification and Detection (neurohive.io) [10] Adversarial Generative Networks (GAN) [11] Ian Goodfellow [12] Jean Pouget-Abadie [13] Mehdi Mirza [Momen]: https://memimo.net [14] Generator [15] Discriminator [16] Generative Adversarial Networks with Python (machinelearningmastery.com) [17] Deep Convolutional Generative Adversarial Networks [18] Reconstruction Error [19] Pretrained Network [20] Macro Structures [21] Micro Structures [22] Semantic Image Synthesis [23] Image to Image Translation [24] Impressionism [25] Claude Monet [26] Denormalization [27] Conditional Instance Normalization [28] Data Augmentation [29] Shorten [30] TensorFlow: https://www.tensorflow.org [31] PyTorch: https://pytorch.org [32] https://github.com/philipjackson/style-augmentation [33] Jakson [34] Computer Vision and Pattern Recognition Laboratory Homepage (kmu.ac.kr) [35] Corsican Fire Database (univ-corse.fr) [36] Computer Vision Based Fire Detection Software (bilkent.edu.tr) [37] Welcome to the Wildfire Observers and Smoke Recognition Homepage (fesb.hr) [38] bubblebeam/Inferno-Realtime-Fire-detection-using-CNNs: FPGA Deployable Fire Detection Model for Real-Time Video Surveillance Systems Using Convolutional Neural Networks (github.com) [39] arpit-jadon/FireNet-LightWeight-Network-for-Fire-Detection (github.com) [40] tzutalin/labelImg: 🖍️ LabelImg is a graphical image annotation tool and label object bounding boxes in images (github.com) [41] Bounding Box [42] Annotating [43] Ground Truth Annotations [45] https://www.kaggle.com/solesensei/solesensei_bdd100k [46] datasets/day2night at main · mamintoosi/datasets (github.com) [xlvii] OlafenwaMoses/ImageAI: A python library built to empower developers to build applications and systems with self-contained Computer Vision capabilities (github.com) [xlviii] Scale & Crop [xlix] Keras: Keras: the Python deep learning API [l] Epoch [li] Validation Set [lii] https://github.com/mamintoosi/ST-for-DA-in-FD [liii] Day 2 Night (D2N) [liv] Loss Function [lv] Average Precision (AP) [lvi] Intersection over Union [lvii] Ground Truth Bounding Boxes [lviii] Precision-Recall [lix] True Positive (TP) [lx] False Positive (FP) [lxi] False Negative (FN)
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
مراجع | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
آمار تعداد مشاهده مقاله: 1,041 تعداد دریافت فایل اصل مقاله: 323 |