تعداد نشریات | 43 |
تعداد شمارهها | 1,652 |
تعداد مقالات | 13,408 |
تعداد مشاهده مقاله | 30,253,423 |
تعداد دریافت فایل اصل مقاله | 12,089,892 |
استراتژی هوشمند و انرژی کارآمد اطفای حریق در شبکههای حسگر بیسیم متحرک | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
هوش محاسباتی در مهندسی برق | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
مقاله 5، دوره 13، شماره 3، مهر 1401، صفحه 37-54 اصل مقاله (1.41 M) | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
نوع مقاله: مقاله پژوهشی فارسی | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
شناسه دیجیتال (DOI): 10.22108/isee.2021.124683.1406 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
نویسندگان | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
فرزاد حسین پناهی؛ فریدون حسین پناهی* | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
گروه مهندسی برق-الکترونیک و مخابرات، دانشکده مهندسی، دانشگاه کردستان، سنندج، ایران | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
چکیده | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
پژوهشگران در سالهای اخیر با افزایش دامنة آتشسوزیها و بههمراه آن تخریب گستردة محیط زیست و مناطق شهری پرتراکم، به بهکارگیری راهکارهای سریع و مؤثر در مقابله با حریق، بهویژه براساس شبکههای حسگر بیسیم توجه ویژهای داشتهاند. درواقع، با تحلیل دادههای آماری مختلف و طراحی یک مدل نوین از حسگرها، تجهیزات و تکنولوژیهای هوشمند در یک شبکة حسگر آتشنشان میتوان گام مؤثری در راستای کنترل آتشسوزیهای مکرر در سطح گسترده و نیز کاهش خسارتهای زیستمحیطی آن برداشت. در مدل پیشنهادی، حسگرهای متحرک یا روبوتهای اطفای حریق بر پایة الگوریتم یادگیری فازی - کیو و به کمک دو سیاست یادگیری کامل و جزئی در شبکة حسگر به محاصرة آتش در عملیات اطفای حریق قادر خواهند بود. در این مدل، محدودیتهای انرژی در حسگرهای متحرک نیز با طراحی مسئلة بهینة انتخاب مُد عملکرد و با فرض قابلیت برداشت انرژیهای محیطی قبل از کنترل حرکت به سمت حریق در نظر گرفته شدهاند که با محاسبة کرانهای بالا و پایین برای تعداد حسگرهای ثابت فعال در تصمیمگیری مشارکتی، میزان مطلوب احتمالات آشکارسازی و اعلام اشتباه حریق نیز تضمینشدنی است. نتایج شبیهسازیهای کامپیوتری، مؤثربودن اعمال چنین راهکاری در انتخاب بهینة حسگرهای متحرک و همچنین تعیین مسیر حرکت در اطفای سریع حریق را نشان میدهند. | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
کلیدواژهها | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
شبکههای حسگر بیسیم؛ استراتژی هوشمند اطفای حریق؛ حسگرهای متحرک؛ آتش؛ بهینهسازی | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
اصل مقاله | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
آتشسوزی، یکی از خطرناکترین پدیدههایی است که با زیانهای شایان توجه جانی و مالی همراه است. همهروزه آتشسوزیهای بسیاری در نقاط مختلف جهان رخ میدهد که موجب از بین رفتن انسانها و به بار آمدن زیانهای فراوان زیستمحیطی میشود. با توجه به اینکه اقدامات شناسایی و اطفای حریق در لحظات اولیة شروع حریق دارای اهمیت زیاد و حیاتی است، امروزه طراحی سیستمهای سریع و کارا بسیار شایان توجه قرار گرفته است. در سالهای اخیر نیز تحقیقات فراوانی بر این مسئله، بهویژه در سطح جنگلها و مناطق شهری پرتراکم متمرکز شده است. کشورهای مختلف با برنامهریزی و سرمایهگذاری در بخش فناوری اطلاعات و ارتباطات و نیز گسترش شبکههای حسگر بیسیم[1] (WSN)، پروژههای مختلفی را برای حفاظت منابع طبیعی در مقابله با آتشسوزی به اجرا درآوردهاند و بدون تردید در آیندة نزدیک، شبکههای حسگر بیسیم و اینترت اشیا[2] بهعنوان فناوریهای کلیدی در توسعة شبکههای نظارت محیطی مطرح خواهند شد [4-1]. در سالهای گذشته، شبکههای حسگر بسیاری با پوشش رادیویی گسترده، بهویژه مبتنی بر فناوری زیگبی[3] و فراپهن باند[4] (UWB) پیشنهاد داده شدهاند [5،6]. مساحت درخور توجهی از کرة زمین را کوهستانها، مناطق جنگلی و شهری پرتراکم تشکیل داده است و معمولاً دسترسی به این مناطق به شدت سختتر از مناطق بیابانی خواهد بود. همچنین، این مناطق گسترده اکثراً جمعیت یا پوشش گیاهی پرتراکم دارند که مستعد آتشسوزیاند. استفاده از شیوههای نوین در اطفای حریق و بررسی هوشمند مناطق مذکور میتواند راهکار بسیار مناسب، سریع و دقیق برای آتشنشانها باشد. واضح است برای اینکه در مناطق با دسترسی سخت از وقوع آتش اطلاع حاصل شود، مراجعة حضوری بسیار سخت و در بیشتر مواقع کند و پرهزینه است؛ بنابراین، کاهش حضور فیزیکی بهویژه در مناطق صعبالعبور و مدیریت بهینة اقدامات اطفای حریق در لحظات اولیة آتشسوزی، محوریترین نکات در بیان ضرورت انجام تحقیقات در این زمینه است. با این توضیحات، امروزه مدلسازی یک سامانة کاربردی هوشمند برای شناسایی و کنترل سریع آتشسوزی، یک انتخاب نیست، بلکه یک ضرورت است.
در راهکارهای ارائهشده برای شناسایی حریق، از اطلاعات حسگرهای ثابت و متحرک [10-7] جمعآوری داده در سطح ناحیة تحت پوشش شبکة حسگر استفاده میشود که در سریعترین زمان ممکن عوامل و نقاط آتشسوزی را تخمین میزنند و به پایگاههای آتشنشانی اطلاع میدهند. به این ترتیب، پیشبینی ابعاد آتشسوزی و درنتیجه روند عملیات اطفای حریق با برنامهریزی دقیقتری امکانپذیر خواهد شد. در مواقعی که آتشسوزی در مکانهای صعبالعبور رخ داده باشد، بهکارگیری حسگرهای متحرک یا پهبادهای آتشنشان با قابلیت حمل مواد ضد آتش ضروری است. با تحلیل و طراحی یک مدل نوین از حسگرها، تجهیزات و تکنولوژهای هوشمند بهویژه برپایة سیستمهای چندعامل[5] (MAS) در یک شبکة حسگری آتشنشان، میتوان گام مؤثری در راستای کنترل آتشسوزیهای مکرر و خسارتهای زیستمحیطی فراوان آن برداشت. سیستمهای چندعامل شامل چندین عامل[6] هوشمند در یک محیطاند که هرکدام رفتار مستقلی دارند و با دیگر عاملها هماهنگاند [10،11]. این سیستمها میتوانند بهعنوان روش جایگزین سیستمهای متمرکز آتشنشان ظاهر شوند که در آنها چندین عامل هوشمند، وقوع آتشسوزی در یک محیط را ازطریق سنسورهای خود درک میکنند و رفتارهای مستقل از خود نشان میدهند [12]. یکی از زمینههایی که بهتازگی سیستمهای چندعاملی را در تحقیقات و مسائل کاربردی مطرح کرده است، مسئلة کنترل و هدایت حسگرها یا روبوتهای متحرک مبتنی بر سیستمهای کنترل سطح پایین[7] است. در مرجع [13] یک الگوریتم مبتنی بر درخت باینری برای طراحی مسیر حرکت روبوتها استفاده شده است. این نوع رویکرد مبتنی بر آگاهی کامل از دینامیک سیستم است و این ساختار با توجه به محدودیتهای زمانی و مکانی در مسیریابی حریق، قابل پیادهسازی نیست. یادگیری تقویتی[8] (RL) یکی از محبوبترین روشهای یادگیری در سیستمهای چندعامل یا MAS است. هدف از یادگیری تقویتی چندعامل[9] (MARL) به حداکثر رساندن مقادیر تجمعی پاداش[10] است. به این ترتیب، عاملها میتوانند با محیط ارتباط برقرار کنند و آن را مطابق با الگوی پاداش تغییر دهند. هر عامل در هر مرحلة یادگیری، یک کنش یا اقدام[11] را انتخاب میکند و محیط را به سمت حالت[12] جدید سوق میدهد [14]. در این فرایند، تابع پاداش[13] همواره کیفیت گذر حالت را ارزیابی میکند [15]. در هر صورت، عملکرد سیستمهای چندعامل همواره تأثیرگرفته از ابعاد مسئله است و با افزایش تعداد حالتها یا عاملها، به محاسبات و حافظة بیشتری نیاز خواهد داشت. در بیشتر رویکردها، به بازنمایی دقیق مقادیر جفت حالت - کنش به فرم جداول جستجو نیاز است که این مسئله بهمنزلۀ یک مانع بزرگ، کاربرد این روشها را به مسائل کوچک یا گسسته تقلیل داده است [16]. واضح است در عملیات اطفای حریق، متغیرهای حالت میتوانند مقادیر با تنوع بیشتر و در یک بازة پیوسته را به خود بگیرند [9]. این مشکل با تقریب توابع ارزش[14] مدیریت میشود [17]. برای مقابله با چنین مشکلی، الگوریتمهای MARL برپایة شبکههای عصبی نیز پیشنهاد شدهاند که براساس مفهوم تعمیمیافتة جدول کیفیت یا [18]، تقریب گسسته برای فضای بزرگ حالت - کنش [19]، کوانتیزاسیون برداری برای حالتها یا کنشهای پیوسته [20]، تکرار تجربه برای MAS [21]، تقریب مبتنی بر یادگیری و شبکة گاوسی نرمالیزه [22] و پیشبینی پارامترها در عاملهای ناهمگن [23] نتایج پذیرفتنی حاصل شده است. در مراجع [24،25] نیز از یک مدل دوگانة شبکة عصبی برای نشاندادن تابع ارزش و کنترل کننده بهره گرفته شده است. با این حال، موفقیت استراتژیهای پیشنهادی بستگی زیادی به کاوش کافی دارد و خود این مسئله نیز تابعی از اندازة شبکة عصبی و دادههای آموزش شبکه است. در تحقیق کنونی ضمن پیشنهاد استراتژی حرکتی مبتنی بر MARL برای حسگرهای متحرک یا روبوتهای آتشنشان و همچنین ارائة استراتژی بهینة انتخاب این روبوتها براساس محدودیت انرژی، مدل واقعیتری از شبکة اطفای حریق در نظر گرفته شده است. درواقع، استراتژی حرکتی یک نسخة اصلاحشده برپایة الگوریتم یادگیری [26،27] است که در آن تقریب فازی - خطی فضای حالت پیوسته اعمال شده است. به این ترتیب ساختارها و الگوریتمهای مطرحشده در زمینة شناسایی و اطفای حریق در مراجع مختلف [4،5،12،30] در شرایطی ارتقا داده شدهاند که یا توپولوژی شبکة حسگری در فرایندهای مربوطه ثابت بوده یا روشهای متمایزی [18-25] با محدودیتهای مذکور در پیش گرفته شده است؛ اما در عمل، پدیدة حریق نسبتاً تصادفی و آنی است که هم پیادهسازی الگوریتمهای بهینهسازی سبُک در عملیات شناسایی و هم تغییر سریع توپولوژی شبکه و چینش گرههای حسگری در عملیات اطفای حریق ضروری است؛ واقعیتی که به شدت بر دامنه و پراکندگی حریق اثر خواهد گذاشت و در پژوهشهای مختلف ازجمله مرجع [30] نادیده گرفته شده است. بنابراین، ارائة یک مدل شبکه با ویژگیهای فوق شامل استراتژیهای شناسایی مبتنی بر حسگرهای ثابت و اطفای حریق مبتنی بر حسگرها یا روبوتهای متحرک، اساس نوآوری در تحقیق کنونی است. درواقع، تأثیر الگوریتمهای مدیریت حسگرها و عاملهای متحرک با کاربردهای شناسایی یا اطفای حریق مطالعه شدهاند؛ اما تا کنون پژوهشی مبنی بر مدلسازی فرایند هوشمند اطفای حریق بر پایة انتخاب و هدایت بهینة روبوتهای آتشنشان با قابلیت برداشت انرژی محیطی مبتنی بر فاکتور سطح انرژی و الگوریتم یادگیری فازی - کیو در یک شبکة حسگری با توپولوژی دینامیک و پویا صورت نگرفته است؛ بنابراین در مدل پیشنهادی، تأثیر فرایند مشارکتی شناسایی حریق با حسگرهای ثابت و عملیات بهینة اطفای حریق با حسگرهای متحرک یا روبوتهای آتشنشان بر پایة الگوریتم یادگیری فازی - کیو و به کمک دو سیاست یادگیری کامل و جزئی در شبکة حسگری با توپولوژی پویا مطالعه خواهند شد. در این تحقیق، محدودیتهای انرژی در حسگرها نیز با طراحی مکانیزیم بهینة انتخاب روبوتهای آتشنشان و با فرض قابلیت برداشت انرژیهای محیطی قبل از کنترل حرکت به سمت حریق، در نظر گرفته خواهند شد. با توضیحات فوق در مجموع، نوآوری اصلی این مقاله در سه بخش تفکیک میشود:
3- مدل شبکه حسگر بیسیم در اینجا یک شبکة حسگر با ساختار سلسلهمراتبی دولایة ناهمگن[16] (HetNet) متشکل از ایستگاههای پایه[17] (BSs)، سرخوشهها[18] (CHs) یا چاهکها[19] جمعآوری و پردازش اولیة دادهها و نیز گرههای حسگر[20] (SNs) ثابت و متحرک توزیعشده در سراسر شبکه بهعنوان مدل پایه مطابق با شکل (1) تعریف میشود. براساس این، حسگرهای شبکه به برقراری ارتباط مستقیم با نزدیکترین ایستگاه پایه نیازی ندارند؛ بلکه در این ساختار، حسگرها به خوشهها یا سلولهایی تفکیک میشوند که در هر خوشه یا کلاستر، یک چاهک یا سرخوشه انتخاب میشود. سرگروهها وظیفة جمعآوری اطلاعات حسگرهای ثابت هر گروه را بر عهده دارند و در حقیقت نقش رلههای ارتباطی بهعنوان واسطههای انتقال اطلاعات بین حسگرها و ایستگاههای پایه را ایفا میکنند. این کار با هدف کاهش ترافیک اطلاعات ارسالی از حسگرها به ایستگاه پایه و درنتیجه، بهبود بازده انرژی شبکه انجام میشود. معیارهای مختلف انتخاب سرخوشه و مدیریت پویای توپولوژی شبکه در تحقیقات بسیاری بحث شدهاند [28]. در مدل ارائهشده، هر حسگر دارای یک ناحیة پوشش یا شعاع حسگری است که به نقاط موجود در آن محدوده احاطة کامل دارد. یکی از اهداف شبکههای حسگری این است که پوشش حداکثری در یک فضای معین تأمین شود. در این مدل، گرههای حسگری براساس کارکردهای متفاوت، شناسایی و اطفای حریق بهترتیب به دو دستة حسگرهای ثابت و متحرک (روبوتهای آتشنشان) تفکیک میشوند؛ به طوری که در یک خوشة مفروض به تعداد حسگر و روبوت وجود دارد. در این مقاله، بهطور کلی برای به حداقل رساندن مصرف انرژی حسگرهای ثابت ویژة شناسایی حریق از دو حالت خواب و بیداری و همچنین با هدف افزایش طول عمر روبوتهای اطفای حریق دو مد عملکرد «حرکت» و «برداشت انرژی» تعریف شده است. گفتنی است در عمل بر طبق سیاست بهینة اطفای حریق، روبوتهای اطفای حریق با مد عملکرد «حرکت»، در یک خوشه و به شکل محلی اقدام به محاصرة آتش خواهند کرد و درنهایت پس از عملیات اطفای حریق پیکرهبندی مجدد شبکة حسگری صورت میگیرد.
شکل (1): مدل پایة شبکة حسگر با ساختار سلسلهمراتبی شامل سرخوشهها یا چاهکها و حسگرهای ثابت و متحرک درون شبکه
4- تعیین استراتژی و مسئلة بهینهسازی در مدل پیشنهادی، حسگرهای متحرک یا روبوتهای آتشنشان بر پایة الگوریتم یادگیری فازی - کیو و به کمک تعریف دو سیاست یادگیری کامل[21] (PEL) یا یادگیری جزئی[22] (PAL) در شبکة حسگری به محاصرة آتش در عملیات اطفای حریق قادر خواهند بود. در سیاست PEL اولویت با یادگیری سریع زاویة حرکت روبوت منتخب ( ) نسبت به شعاع حرکتی آن ( ) در هنگام حرکت به سمت آتش است؛ اما در سیاست PAL فرایند یادگیری دو فاکتور مذکور در طول مسیر و به تدریج صورت میگیرد. در مدل پیشنهادی، محدودیتهای انرژی در روبوتها نیز با طراحی مکانیزیم بهینة انتخاب مُد عملکرد و با فرض قابلیت برداشت انرژی[23] (EH) محیطی قبل از کنترل حرکت به سمت حریق در نظر گرفته خواهند شد. نتایج شبیهسازیهای کامپیوتری، مؤثربودن اعمال چنین راهکاری را در انتخاب بهینة مُد عملکرد روبوتهای آتشنشان و همچنین طراحی مسیر بهینة حرکت در اطفای سریع حریق نشان میدهند. در اینجا اطلاعات یا گزارشهای ارسالی حسگرها به سرخوشهها برای آشکارسازی مطمئن آتش در یک منطقة خاص و با فرض احتمال اعلام اشتباه استفاده میشوند. در این موارد با توجه به شرایط محیطی و تراکم حسگرها معمولاً از تست نظریة باینری[24] بهره گرفته میشود. به این ترتیب هر حسگر تصمیم باینری خود را از میان حالات وقوع حریق یا عدم وقوع حریق و براساس پردازش سیگنالهای محیطی مانند دما، با احتمال آشکارسازی و احتمال اعلام اشتباه ثبت خواهد کرد. در اینجا فرض میشود تصمیمات باینری مربوط به حسگر از پدیدة وقوع حریق در یک خوشة مدنظر، مستقل از هم و بهترتیب با احتمالات آشکارسازی و اعلام اشتباه حریق و ( ) هستند و اتخاذ تصمیم مشارکتی نهایی براساس ترکیب گزارشات دریافتشده در سرخوشه مطابق با روابط (1) و (2) صورت خواهد گرفت:
که در آن شاخص مشارکت حسگر در تصمیمگیری است و به عبارت دیگر مدهای خواب (غیرفعال) یا بیداری (فعال) بهترتیب برابر با مقادیر صفر و یک هستند. با این توضیحات فرض میشود در یک لحظة خاص تعداد حسگرهای فعال با شاخص مشارکت یک در یک خوشه برابر با است؛ بنابراین، براساس روابط (1) و (2) و با فرض یکسانبودن عملکرد همه حسگرهای ثابت تحت پوشش یک خوشه ( و )، کرانهای بالا و پایین برای مقادیر مطلوب برای دستیابی به احتمالات مشارکتی آشکارسازی و اعلام اشتباه حریق معین استخراج میشوند:
واضح است این میزان مشارکت حسگرهای ثابت در یک خوشه براساس مکانیسمهای متداول خواب و بیداری حسگرهای ثابت و غیرمتحرک در یک شبکة حسگری ایستا در تحقیقات انجامشده مانند مرجع [30] تحققپذیر است. به این ترتیب، هر سرخوشه قادر است براساس تجمیع سیگنالهای دریافتی از حسگر بیدار از میان حسگر ثابت نسبت به تعیین مُد عملکرد حسگر متحرک یا روبوت آتشنشان اقدام کند.
4-1- استراتژی بهینة انتخاب مُد عملکرد روبوتها در این بخش، یک مسئلة انتخاب مُد عملکرد روبوت آتشنشان در شبکة حسگر بیسیم مبتنی بر برداشت انرژی مطرح میشود؛ به طوری که بیشینة طول عمر شبکه تضمین شود. درواقع، هر سرخوشه در تلاش است روبوتهای آتشنشان مربوطه را در دو مدل عملکردی حرکت یا برداشت انرژی دستهبندی کند. به این ترتیب، یک مسئلة سبُک بیشینهسازی طول عمر شبکه با محدودیت کیفیت سرویس و طول عمر روبوت بهعنوان یک مسئلة بهینهسازی در نظر گرفته میشود. سپس یک احتمال مُد بهینه براساس چارچوب رایج در مسائل بهینهسازی محدب پیشنهاد میشود. در اینجا فرض شده است روبوتهای آتشنشان دارای قابلیتهای حرکت و برداشت انرژی محیطی بهویژه انرژی خورشیدی [29،30] هستند و در بازة زمانی اتخاذ این استراتژی فقط یکی از این مُدهای عملکرد اشارهشده فعالاند. به عبارت دیگر، در زمان انتخاب روبوتهای آتشنشان، روبوتهایی که سطح انرژی قابل قبول دارند با احتمال بیشتری برای حرکت به سمت مکان آتشسوزی انتخاب میشوند و سایر روبوتهای خوشة مربوطه در مُد برداشت یا شارژ انرژی خواهند بود. واضح است این انتخابها در حالت ایدئال با مسئلة بهینهسازی انجامپذیرند. این امکان با در نظر گرفتن یک حد آستانه برای هر روبوت آتشنشان در انتهای این بخش فراهم خواهد شد و به این ترتیب محدودیتهای عملی نیز در اعمال این استراتژی تا حد زیادی برداشته خواهند شد. با این تفاسیر، مسئلة بهینهسازی اشارهشده بهصورت رابطة (4) نوشته میشود که مبنای استراتژی بهینة انتخاب مُد عملکرد (حرکت یا برداشت انرژی) هر روبوت آتشنشان است:
که تعریف پارامترها و نمادهای اشارهشده، در جدول (1) آمده است. محدودیتهای مسئلة تعریفشده شامل یک حد آستانة کمینه برای انرژی در هر روبوت آتشنشان، مقادیر گسسته برای پارامترهای بهینهسازی و از مجموعه اعداد و درنهایت متریکهای کنترل کمینة کیفیت آشکارسازی جمعی ( ) و بیشینة احتمال اعلام اشتباه حریق جمعی ( ) در یک خوشه است. پارامترهای گسستة تعریفشده، مسئلة بالا را به یک مسئلة برنامهریزی صحیح[25] تبدیل کرده است که در این مسائل معمولاً با نگاشت پارامترهای بهینهسازی و به بازة پیوسته ، میتوان به یک مسئلة بهینهسازی سادهشده[26] بهصورت زیر دست یافت:
که با تعریف عبارت بهعنوان تابع هدف به شکل رابطة (6)، داریم:
جدول (1): تعریف پارامترهای استراتژی بهینة انتخاب مُد عملکرد
اکنون ضمن سادهسازی تابع هدف کلی در مسئلة بهینهسازی و با در نظر گرفتن نکتة و همچنین لحاظکردن اثر آن به شکل محدودیت ، مسئلة بهینهسازی نهایی به شکل رابطة (7) بازنویسی میشود:
در ادامه، از روش مبتنی بر تابع لاگرانژ بهمنظور حل این مسئلة بهینهسازی محدب بهره خواهیم گرفت که درنتیجة اعمال این روش، مطابق با رابطة (8) تابع لاگرانژ معادل به دست میآید.
که در آن ، ، ، ، ، ضرایب لاگرانژ مرتبط با محدودیتهای مسئلهاند. در این تحقیق، فرض میشود مُدهای عملکرد تعریفشده برای هر روبوت آتشنشان بهصورت همزمان فعالسازی نمیشوند (به عبارت دیگر )؛ بنابراین، نوشته میشود:
به این ترتیب، پس از اعمال شرایط KKT و سادهسازی ریاضی مقدار بهینة احتمال حرکت روبوت آتشنشان ( ) بهصورت زیر بیان میشود:
بنابراین، مُد عملکرد روبوت ام در یک خوشة مفروض با احتمال در حالت حرکت به سمت حریق و در غیر این صورت در حالت شارژ یا برداشت انرژی خواهد بود.
4-2- استراتژی هوشمند کنترل حرکت رباتهای آتشنشان عموماً انواع مختلفی از الگوریتمهای تقویتی یا RL وجود دارند که برای اتخاذ استراتژیهای هوشمند در حوزههای مختلف ازجمله شبکههای حسگری بیسیم [22] استفاده میشوند. یکی از محبوبترین الگوریتمها، الگوریتم یادگیری کیو[27] است. درواقع، الگوریتم یادگیری کیو با استفاده از تخمین پیوسته[28]، جدولی از تمامی مقادیر را محاسبه میکند که آن را جدول مینامند. باید توجه داشت نشاندهندة نتایج مورد انتظار است که بهعنوان فاکتور کیفیت با بردار حالت بعد از انجام کنش و دریافت پاداش به دست میآید. براساس این، جدول محاسبهشده طبق فرمول بازگشتی (11) بهروزرسانی میشود:
که در آن:
درواقع، بیشینهکردن فاکتور کیفیت به بالاترین کیفیت دریافتی توسط هر حسگر متحرک آتشنشان به متغیر کنش مرتبط است که ممکن است در حالت بعدی رخ دهد. در این رابطه، پارامتر نیز بهعنوان نرخ یادگیری تعریف شده است. عملکرد الگوریتم یادگیری کیو در حالت پایه با پیگیری سنجیدة تاریخچة فعالسازی حالات، به طرز چشمگیری امکان بهبود دارد. این نکته با پارامتر صلاحیت[29] کنترل میشود و در حالت کلی این روش را روش یادگیری غنیشده مینامند. پارامتر بعد از فعالسازی حالت، برای هر حالت بزرگتر میشود و بعد از آن، بهصورت نمایی کاهش مییابد تا جایی که حالت مربوطه دیگر اتفاق نیفتد. به این ترتیب، الگوریتم یادگیری کیو در مدل تعریفشده، به حسگرهای متحرک یا پهپادهای آتشنشان (شکل (2)) این اجازه را میدهد که از تعامل با محیط، بهصورت لحظهای آموزش ببینند؛ این نوع از فرایند یادگیری توسط سازوکار تشویق و تنبیه صورت میگیرد. با ترکیب راهکارهای کنترل فازی و الگوریتم یادگیری کیو[30] (FQL)، یک روش کارا برای کاربردهای عملی تحققپذیر است (شکل (3)). در حقیقت، تفاوت عمدة بین الگوریتم یادگیری کیو اصیل و الگوریتم یادگیری FQL را میتوان در روش ارائة اطلاعات در مدلها پیدا کرد. الگوریتم یادگیری FQL از روشهای فازی برای ذخیرهسازی اطلاعات جستجوشده استفاده میکند؛ در حالی که الگوریتم یادگیری کیو، آنها را در یک جدول جستجوی ساده (جدول ) و بهصورت قواعدی گسسته نگهداری میکند. در الگوریتم یادگیری FQL، سیستم استنباطی فازی[31] (FIS) با مجموعهای از قواعد یا ضوابط و کنشهای رقابتی برای هر ضابطه شناخته میشود.
شکل (2): مدل آزمایشگاهی شبکة حسگر آتشنشان شامل ایستگاه پایه، سرخوشهها و حسگرهای توزیعشدة ثابت و متحرک
عامل یادگیری (یا همان حسگر متحرک) مجبور است بهترین نتیجه را برای هر ضابطه پیدا کند که این همان کنش با بهترین مقدار بین کنشهای گسستة ممکن برای هر ضابطه است. مقادیر در مقداردهی اولیه، صفر قرار داده میشوند و معمولاً در ابتدای فرایند یادگیری قابل توجه نیستند. درواقع، روبوتهای آتشنشان براساس الگوریتم مبتنی بر یادگیری فازی با گامهای حرکتی متغیر، به تدریج به سمت آتش حرکت میکنند. به این ترتیب، یک استراتژی هوشمند در شناسایی و اطفای حریق مبتنی بر شبکة حسگر بیسیم برای هریک از گرههای متحرک تصور میشود. برای تخمین سیاست بهینه[32] نیاز است مقدار تابع کنش - حالت[33] تقریب زده شود؛ این عبارت، تابعی از مقادیر مورد انتظار در صورت انجام کنشهای در حالت مفروض است که بهطور کلی یک استراتژی بهینه با سیاست را دنبال میکند.
شکل (3): بلوک دیاگرام الگوریتم یادگیری فازی - کیو (FQL)
الف( استراتژی کنترل حرکت براساس الگوریتم FQL در این بخش، یک الگوی کنترل حرکت با هدف محاصره و درنهایت، اطفای سریع آتش برای سیستم MAS متشکل از حسگرهای منتخب یا همان رباتهای آتشنشان و براساس الگوریتم فازی مبتنی بر روش یادگیری FQL طراحی میشود. درواقع، کنترلکنندة طراحیشده در هر حسگر منتخب براساس الگوریتم FQL، سیگنال اطلاعات آتش (در اینجا زاویة حرکتی) را بهعنوان متغیر ورودی و پاداشی مثبت یا منفی متناسب با اثر حرکت خود در جهت تصادفی در شبکة حسگر دریافت میکند. به این ترتیب در یک بازة زمانی مشخص هر حسگر متحرک سعی دارد در طول حرکتهای متوالی و تصادفی و با هدف نزدیکشدن به مکان آتش، مجموع مقادیر پاداش[34] خود را به بالاترین حد خود برساند. بهطور کلی در این تحقیق، یک رویکرد کاربردی برای مسیریابی هوشمندانه براساس استراتژی RL و مبتنی بر اطلاعات محیطی برای هر حسگر متحرک اتخاذ شده است. به عبارت دیگر، اعمال قابلیت یادگیری از تجربیات گذشته در هر حسگر متحرک، شبکة حسگر آتشنشان را به یک شبکة هوشمند مبدل میکند. همانطور که اشاره شد، الگوریتم FQL که بر مبنای روش یادگیری - کیو تعمیم یافته است، الگوی تصمیمگیری را با مدلسازی مبتنی بر فازی ترکیب میکند که در نتیجة آن، حرکت مؤثر حسگر میتواند به شکلی کارآمد مدیریت شود. درواقع، در الگوریتم FQL یک سیستم استنباطی فازی (FIS) به کار گرفته شده است که از نظریة مجموعة فازی برای نگاشت ورودیها به خروجیها استفاده میکند. سیستم FIS استفادهشده در این تحقیق براساس مدل TS[35] مرتبه صفر طراحی شده است؛ زیرا نوع دیگر (مرتبه اول) علاوه بر پیچیدگی بیشتر، هزینههای محاسباتی بالایی میطلبد؛ بنابراین، برای هر ضابطة تعریفشده در سیستم FIS، عامل یادگیری باید بهترین نتیجه را مطابق با مقدار (که در آن عبارت فازی زبانی[36] و کنش گسسته برای امین ضابطه[37] تعریف شده است) پیدا کند. به عبارت دیگر، کنشی با بالاترین مقدار را بین تمامی کنشهای گسستة احتمالی، برای بردار اطلاعات ورودی بیابد. در هر صورت، عامل یادگیری در راهاندازی اولیة الگوریتم با توجه به صفربودن مقادیر ، ممکن است کنشهای پذیرفتنی نداشته باشد (مقادیر در جدول جستجو ذخیره شدهاند). فرض میشود کنش برای هر ضابطه مطابق با سیاست بهرهبرداری - اکتشاف[38] (EEP) صورت گرفته است. با این سیاست، عامل یادگیری، آن کنشی که باور دارد بهترین است را در بیشتر موارد انتخاب میکند؛ اما گاه و بیگاه نیز بهصورت اتفاقی عمل میکند تا شاید پاداشهای لحظهای بالاتری را دریافت کند. در اینجا از استراتژی بهعنوان سیاست EEP برای انتخاب کنش بهره گرفته میشود. همانطور که مشاهده شد، معماری FQL و اثر متقابل آن با محیط در شکل (3) نشان داده شده است. در این شکل، کنش استنباطی (کنش خروجی سیستم تصمیمگیری FIS است که جهت حرکت را برای هر حسگر منتخب مشخص میکند) برای بردار حالت ورودی است. همچنین تابع کیفیت در این الگوریتم نیز براساس خروجی سیستم FIS تخمین زده میشود که از کیفیت (مقدار ) متعلق به کنش گسستة موضعی استنباط شده است و کنش پیوستة سراسری را شکل میدهد. درواقع، تابع مربوط به (بردار حالت ورودی جدید بعد از انجام کنش برای بردار حالت ورودی ) و پاداش دریافتی از محیط، با یکدیگر برای بهروزرسانی مقادیر در جدول استفاده میشوند. در این حالت، برای تشخیص مقادیر لحظهای زاویة حرکت حسگر منتخب ( ) و شعاع حرکتی آن ( )، بردار ورودی به سیستم FIS داده میشود و مطابق با ضوابط تعریفشده برای تعیین کنش یا اقدام ، تابع کیفیت سیستم FIS به عبارت دیگر تابع نیز محاسبه میشود.
ب( تنظیمات بلوک تصمیمگیری برای یک حسگر متحرک، هر متغیر ورودی از بردار حالت دوبعدی در سه زیرمجموعة فازی تقسیمبندی میشود. درواقع، به تعداد 9 ضابطه با توجه به توصیفات زبانی سهگانة کم ( )، متوسط ( ) و زیاد ( ) تعریف میشود. توصیفات زبانی متعلق به مجموعههای فازی مربوط به متغیرهای و است که بهصورت توابع عضویت ( ) نشان داده میشوند.
الگوریتم (1): الگوریتم تکرارشوندة حرکت حسگر متحرک بر پایة FQL
در اینجا، توابع عضویت گوسی استاندارد[40] برای بردار حالت در نظر گرفته میشوند. توابع عضویت گوسی، بهعنوان جایگزینی برای توابع عضویت مثلثی[41] مرسوم، به این منظور ارائه شدهاند که قابلیت اطمینان و عملکرد سیستم را بهبود ببخشند. در هر دورة تصمیمگیری، عامل یا حسگر متحرک، بردار حالت فعلی را در نظر میگیرد و اقدام یا کنشی برای ورود به حالت شبکة جدید انجام میدهد. به این ترتیب، یک سیگنال پاداش (مقادیر ثابت مثبت یا منفی بهترتیب برای بهبود یا عدم بهبود کنش قبلی حسگر) دریافت میشود تا کیفیت این کنش را ارزیابی کند. اطلاعات آموختهشده ذخیره خواهد شد و فرایند یادگیری ادامه مییابد. خلاصهای از این روش تکرارشونده برای یادگیری مسیر در الگوریتم (1) آمده است. در ادامه، جمعبندی فرایند آشکارسازی و عملیات اطفای حریق مبتنی بر شبکة حسگری شامل حسگرهای ثابت و متحرک (روبوتهای آتشنشان) و همچنین نحوة اعمال استراتژیهای پیشنهادی تعیین مُد عملکرد و کنترل حرکت روبوتها در الگوریتم (2) آمدهاند.
الگوریتم (2): فرایند آشکارسازی و اطفای حریق
5- نتایج شبیهسازی کامپیوتری در این بخش، تحلیل نتایج شبیهسازی مونتکارلو برای ارزیابی عملکرد استراتژیهای دوگانة پیشنهادی اطفای حریق مبتنی بر انتخاب مُدهای عملکرد و سپس کنترل حرکت به کمک نرمافزار MATLAB ارائه خواهد شد. همانطور که پیشتر نیز مطرح شد، مدل ارائهشده در بستر یک شبکة حسگری شامل ایستگاههای پایه، سرخوشهها و حسگرهای توزیعشدة ثابت و متحرک مطابق شکل (4) اعمال میشود. در اینجا فرض شده است استراتژی اولیه، یعنی انتخاب مُد عملکرد شامل برداشت انرژی یا حرکت به سمت حریق، در دورههای زمانی مختلف و براساس مسئلة بهینهسازی در رابطة (4) بر عهدة حسگرهای سرخوشه است. هرکدام از حسگرهای منتخب با مُد عملکرد «حرکت»، بهعنوان یک عامل یادگیری و مستقل در نظر گرفته میشوند. به عبارت دیگر، هرکدام از گرههای شبکه در هنگام حرکت به سمت حریق همانند یک عنصر هوشمند مطابق با شکل (4) عمل میکنند و براساس الگوریتم یادگیری FQL به تدریج با اصلاح مسیر حرکت خود، فرایند محاصرة آتش را تکمیل خواهند کرد. حسگرهای متحرک یا روبوتهای اطفای حریق (نقاط سیاه رنگ) بر پایة الگوریتم یادگیری - فازی و به کمک سیاستهای تعریفشدةPEL و PAL در شبکة حسگر، قادر به محاصرة حریق (مثلثهای سیاه رنگ) در عملیات اطفای حریق خواهند بود. در سیاست PEL اولویت بر یادگیری سریع زاویة حرکت حسگر منتخب ( ) نسبت به شعاع حرکتی آن ( ) در هنگام حرکت به سمت آتش است؛ اما در سیاست PAL فرایند یادگیری دو فاکتور مذکور در طول مسیر و به تدریج صورت میگیرد. این امکان با تنظیم مقادیر ضریب افت[42] (DC) یا برای احتمال برای سیاستهای PEL و PAL بهترتیب بهصورت و تعریف میشود. در این مدل محدودیتهای انرژی در روبوتها با طراحی مکانیزم انتخاب گره و در نظر گرفتن قابلیت برداشت انرژی محیطی قبل از مکانیزم حرکت گره اعمال شدهاند. مقادیر پارامترهای مربوط به مدل شبکة حسگر و الگوریتم یادگیری FQL در جدول (2) گردآوری شدهاند. همانطور که اشاره شد، سرعت بالای همگرایی الگوریتم یادگیری FQL و فرایند سبک و غیرپیچیدة آن در مقایسه با سایر سناریوهای متداول دیگر همچون استراتژی مسیر تصادفی[43] و استراتژی انتخاب مسیر مبتنی بر الگوریتم یادگیری کیو[44]، آن را بهعنوان یکی از بهترین کاندیداها برای طرح یک مدل کاربردی بدل کرده است. به این ترتیب، با توجه به محدودیتهای شبکة حسگر بهویژه طول عمر شبکه، ترکیب فاکتور سرعت در این الگوریتم با فاکتور برداشت انرژی، به طراحی مدلی موفق با نرخ قابل قبول نزدیکشدن به آتش منجر شده است (شکلهای (5) و (6)). در اینجا یک تعریف ساده برای ارزیابی میزان اثرگذاری فاکتور سرعت در مدل پیشنهادی در مقایسه با سناریوهای متداول در یک بازة زمانی و توپولوژی یکسان ارائه شده است. درواقع، نرخ کلی نزدیکشدن[45] به آتش بهصورت (که در آن، مقداری ثابت است) فرموله شده است تا هر بهبودی در سرعت محاصرة آتش و درنهایت اطفای حریق برای تمامی حسگرهای متحرک توزیعشدة درون شبکه، بهصورت کمّی نمایش داده شود. در اینجا بهعنوان متوسط فاصله بین حسگرهای متحرک و مکان آتشسوزی در زمان ، فرض شده است. فاکتور سرعت در استراتژی پیشنهادی حرکت به سمت حریق بر پایة الگوریتم FQL با دو نکته استدلال میشود که آن را به شکل یک مدل عملی، قابل پیادهسازی و با پیچیدگی پایین نشان داده است. نکتة اول، سرعت همگرایی الگوریتم FQL و درنتیجه تکمیل زودهنگام فرایند یادگیری در مقایسه با رویکرد مبتنی بر الگوریتم QL است. نکتة دوم نیز با نحوة طی مسیر حسگر متحرک مرتبط است. درواقع، ویژگی پیوستگی مقادیر کنش - حالت در الگوریتم FQL سبب شده است مسیر حرکت به سمت آتش مستقل از مکان حسگرهای همسایه باشد و با اتخاذ مقادیر پیوسته و دلخواه برای جهت و گام حرکت، انتخاب مسیر مستقیم پس از یادگیری سریع اولیه برخلاف سایر رویکردهای نامبرده ممکن شود.
جدول (2): مقادیر پارامترها در شبیهسازی شبکة حسگر
شکل (4): شبیهسازی مدل شبکة حسگر آتشنشان (مثلثهای سیاه: مکانهای فرضی دچار حریق) بر پایة استراتژیهای پیشنهادی انتخاب و حرکت حسگرها (قبل (چپ) و بعد (راست))
همانطور که در شکل (7) نشان داده شده است، مسیر حرکت حسگر یا ربات منتخب (دایرة سبز رنگ) به سمت ناحیة فرضی حریق (ستارة قرمز رنگ) پس از یادگیری سریع اولیه نسبتاً مستقیم بوده است. با این تفاسیر، در مجموع اتلاف زمان هم در فرایند یادگیری و هم در انتخاب مسیر در مقایسه با دو رویکرد دیگر، یعنی تصادفی و مبتنی بر الگوریتم QL، به کمترین میزان خواهد رسید. در ادامه، ضمن تمرکز بر رفتار یک حسگر بهعنوان عامل یادگیری توزیعشده در شبکة حسگر، نقش اتخاذ سیاستهای یادگیری PAL و PEL در استراتژی حرکت ارزیابی میشود و همچنین شاخصههای همگرایی و متوسط پاداش بر پایة الگوریتم پیشنهادی FQL بررسی خواهند شد. همانطور که اشاره شد، در سیاست PEL اولویت بر یادگیری سریع زاویة حرکت حسگر منتخب ( ) نسبت به شعاع حرکتی آن ( ) در هنگام حرکت به سمت آتش است؛ اما در سیاست PAL، فرایند یادگیری دو فاکتور مذکور در طول مسیر و به تدریج صورت میگیرد؛ بنابراین، میزان اثرگذاری مقادیر ضریب افت برای احتمال در سیاستهای PEL و PAL بر سرعت و دقت استراتژی حرکت مطابق با شکل (8) مشاهده میشود. بهطور کلی، گفتنی است در سیاست PEL با اُفت دیرهنگام میزان احتمال ، یادگیری دقیقتر جهت صحیح حرکت با صرف زمان بیشتر برای دورة آموزش[46] در عامل یادگیری و در عوض، انتخاب زودهنگام مسیر مستقیم به سمت آتش ممکن خواهد شد. این مسئله دربارة سیاست دیگر یعنی PAL با افت زودهنگام مقدار احتمال ، بهصورت وارون ظاهر خواهد شد. به عبارت دیگر، فرایند یادگیری در طول مسیر به تدریج کامل شده و درنتیجه، مسافت طیشده با احتمال بیشتری طولانیتر است و همگرایی به مسیر مستقیم تأخیر بیشتری دارد. این تعابیر برای نمودارهای لحظهای و تجمعی تغییرات فاصله از حریق بهترتیب بر طبق شکلهای (9) و (10) استدلال میشوند.
شکل (5): متوسط نرخ نزدیکشدن به آتش ( ) در شبکة حسگر آتشنشان، برای سناریوهای انتخاب مسیر بهصورت RND، الگوریتم QL و الگوریتم پیشنهادی FQL.
همانطور که پیشتر نیز اشاره شد، در سیاست PEL اولویت بر یادگیری سریع زاویة حرکت حسگر منتخب نسبت به شعاع حرکتی آن در هنگام حرکت به سمت آتش است؛ اما در سیاست PAL فرایند یادگیری دو فاکتور مذکور در طول مسیر و به تدریج صورت میگیرد. استدلال مشابه دربارة نمودارهای لحظهای پاداش حسگر متحرک که بهصورت عبارت تعریف شده نیز صادق است. شیب صعودی نمودارها (مطابق با شکل (11)) برحسب تکرار در الگوریتم FQL نیز بیانکنندة همسوشدن تدریجی جهت حرکت حسگر متحرک در مسیر مستقیم به سمت آتش است که دربارة حالتهای با سیاست یادگیری PEL این اتفاق در تعداد تکرار کمتری رخ داده است. در حقیقت، نوسانات شیب نمودار در همان تکرارهای آغازین مشاهده میشوند و با کاملشدن نسبی فرایند یادگیری و شناسایی صحیح جهت حرکت مطابق با سیاست مذکور، شیب مثبت نمودار بهصورت زودهنگام و با اختلاف چشمگیر در مقایسه با سیاست PAL بر طبق نتایج شبیهسازی دیده میشود.
شکل (6): نمودار میلهای اثرگذاری میزان سطح آستانة برداشت انرژی، بر تعداد حسگرهای منتخب برای حرکت بر طبق استراتژی بهینة انتخاب مُد عملکرد
شکل (7): شبیهسازی استراتژی کنترل حرکت به سمت آتش بهصورت تصادفی، مبتنی بر الگوریتم QL و بر پایة الگوریتم پیشنهادی FQL، در یک حسگر متحرک مطابق با استراتژی بهینة انتخاب مُد عملکرد
شکل (8): شبیهسازی استراتژی کنترل حرکت به سمت آتش بر پایة الگوریتم پیشنهادی FQL و سیاستهای یادگیری PAL و PEL
شکل (9): نمودار لحظهای تغییرات فاصله از حریق در استراتژی کنترل حرکت، به سمت آتش بر پایة الگوریتم پیشنهادی FQL این مقدار برای مکانهای مفروض وقوع حریق و ربات منتخب، با اختلاف در حدود 25 تکرار مشاهده میشود. گفتنی است در اینجا فرایند پاداشدهی در یادگیری تقویتی با حضور حسگر متحرک در مکان حریق متوقف شده است. واضح است نقاط با شیب نزولی در نمودار پاداش لحظهای معادل با مقادیر پاداش منفی در حالتهای اتخاذ اشتباه جهت حرکت است. این موارد در حالتهای با سیاست حرکتی PEL فقط در شروع حرکت حسگر رخ داده است و به تدریج جهت حرکت عامل یادگیری تثبیت خواهد شد.
شکل (10): نمودار تجمعی تغییرات فاصله از حریق در استراتژی کنترل حرکت به سمت آتش مبتنی بر الگوریتم پیشنهادی FQL
شکل (11): نمودار لحظهای تغییرات پاداش در استراتژی کنترل حرکت به سمت آتش براساس الگوریتم پیشنهادی FQL
در مقابل، این اتفاق مکرراً در بازة بزرگتری برای حالتهای با سیاست حرکتی PAL درحال وقوع است که این رفتار نیز پیشتر انتظار میرفت. هر دو نمودار تغییرات نُرم مربوط به بردار بیشینة مقادیر جدول در هر کنش (شکل (12)) و نمودار مربع خطای[xlvii] (SE) تغییرات نُرم مربوط به بردار بیشینة مقادیر جدول در هر کنش (شکل (13)) نشاندهندة همگرایی فرایند یادگیری حدوداً در تکرار شمارة 30 برای سیاست PEL و تقریباً در تکرار شمارة 70 به بعد برای بهترین موارد با سیاست حرکتی PAL هستند.
شکل (12): نمودار تغییرات نُرم مربوط به بردار بیشینة مقادیر جدول در هر کنش
شکل (13): نمودار همگرایی تغییرات خطای نُرم مربوط به بردار بیشینة مقادیر جدول
6- نتیجهگیری درواقع، هدف نهایی از مدل پیشنهادی، ارائة یک طرح کاربردی اقدام سریع و هوشمند برای عملیات اطفای حریق مبتنی بر شبکههای حسگر بیسیم است. در مدل پیشنهادی، فرایند مشارکتی شناسایی حریق با حسگرهای ثابت و عملیات بهینة اطفای حریق با حسگرهای متحرک بر پایة الگوریتم یادگیری فازی-کیو و به کمک دو سیاست یادگیری کامل و جزئی در شبکة حسگری با توپولوژی پویا مطالعه شد. درنهایت، تحلیل و طراحی مؤثر استراتژی کنترل حرکت بر طبق نتایج بهبودیافتة شبیهسازی برای سیستم MAS متشکل از حسگرهای متحرک و براساس الگوریتم پیشنهادی FQL صورت گرفت
[1] تاریخ ارسال مقاله: 13/06/1399 تاریخ پذیرش مقاله: 06/04/1400 نام نویسندۀ مسئول: فریدون حسینپناهی نشانی نویسندۀ مسئول: : ایران، سنندج، دانشگاه کردستان، دانشکده مهندسی، گروه مهندسی برق - الکترونیک و مخابرات
[1] Wireless Sensor Network [3] Zigbee Technology [4] Ultra Wide-band [5] Multi-Agent Systems [6] Agent [7] Low Level Control Systems [8] Reinforcement Learning [9] Multi-Agent Reinforcement Learning [10] Cumulative Reward [11] Action [12] State [13] Reward Function [14] Value Functions [15] Network Lifetime Maximization [16] Two-Tier Heterogonous Network [17] Base Stations [18] Cluster Heads [19] Sinks [20] Sensor Nodes [21] Perfect Learning Policy [22] Partial Learning Policy [23] Energy Harvesting [24] Binary Hypothesis Testing [25] Integer Programming [26] Relaxed Problem [27] Q-Learning Algorithm [28] Continuous Estimation [29] Competency Parameter [30] Fuzzy Q-Learning Algorithm [31] Fuzzy Inference System [32] Optimal Policy [33] State-Action [34] Reward Values [35] Takagi-Sugeno [36] Linguistic Fuzzy Term [37] IF-THEN Rule [38] Exploration-Exploitation Policy [39] Truth [40] Standard Gaussian Membership [41] Triangular Membership Functions [42] Decay Coefficient [43] Random Trajectory Strategy [44] QL-based Trajectory Strategy [45] Total Approaching Rate [46] Training Period [xlvii] Square Error | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
مراجع | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
[1] M. Yang and C. Zhang, “Smoke Alarm System,” Wireless, Vol. 9, pp. 50-51, 2006. [2] T. M. Behera, S. K. Mohapatra, U. C. Samal, M. S. Khan, M. Daneshmand and A. H. Gandomi, "I-SEP: An Improved Routing Protocol for Heterogeneous WSN for IoT-Based Environmental Monitoring," in IEEE Internet of Things Journal, Vol. 7, No. 1, pp. 710-717, Jan. 2020. [3] R. Morello, S. C. Mukhopadhyay, Z. Liu, D. Slomovitz and S. R. Samantaray, "Advances on Sensing Technologies for Smart Cities and Power Grids: A Review," in IEEE Sensors Journal, Vol. 17, No. 23, pp. 7596-7610, 1 Dec.1, 2017. [4] S. Anand and Keetha Manjari.R.K, "FPGA implementation of artificial Neural Network for forest fire detection in wireless Sensor Network," 2017 2nd Int. Conf. on Computing and Comm. Tech. (ICCCT), Chennai, 2017, pp. 265-270. [5] T. Islam, H. A. Rahman and M. A. Syrus, "Fire detection system with indoor localization using ZigBee based wireless sensor network," 2015 Int. Conf. on Informatics, Electronics & Vision (ICIEV), Fukuoka, 2015, pp. 1-6. [6] Farzad H. Panahi, Parvin Farhadi & Zhila H. Panahi (2016) Spectral-Efficient Green Wireless Communications via Cognitive UWB Signal Model, Automatika,57:3,793-809. [7] Giglioa, L., Descloitresa, J., Justicec, C.O., Kaufman, Y.J., 2003. An enhanced contextual fire detection algorithm for MODIS. Remote Sensing of Environment 87, 273–282. [8] V. Sherstjuk, M. Zharikova and I. Sokol, "Forest Fire Monitoring System Based on UAV Team, Remote Sensing, and Image Processing," 2018 IEEE Second Int. Conf. on Data Stream Mining & Processing (DSMP), Lviv, 2018, pp. 590-594. [9] S. R. Vijayalakshmi and S. Muruganand, "A survey of Internet of Things in fire detection and fire industries," 2017 International Conference on I-SMAC (IoT in Social, Mobile, Analytics and Cloud) (I-SMAC), Palladam, 2017, pp. 703-707. [10] F. A. Hossain, Y. Zhang and C. Yuan, "A Survey on Forest Fire Monitoring Using Unmanned Aerial Vehicles," 2019 3rd International Symposium on Autonomous Systems (ISAS), Shanghai, China, 2019, pp. 484-489. [11] Stone, P.; Veloso, M. Multiagent systems: A survey from machine learning perspective. Auton. Robots 2000, 8,345–383. [12] N. K. Ure, S. Omidshafiei, B. T. Lopez, A. [13] Agha-Mohammadi, J. P. How and J. Vian, "Online heterogeneous multiagent learning under limited communication with applications to forest fire management," 2015 IEEE/RSJ Int. Conf. on Intelligent Robots and Sys. (IROS), Hamburg, 2015, pp. 5181-5188. [14] Rashid, A.T.; Ali, A.A.; Frasca, M.; Fortuna, L. Path planning with obstacle avoidance based on visibility binary tree algorithm. Robot. Auton. Syst. 2013, 61, 1440–1449. [15] Arel, I.; Liu, C.; Urbanik, T.; Kohls, A.G. Reinforcement learning-based multi-agent system for network traffic signal control. IET Intell. Transp. Syst. 2010, 4, 128–135. [16] Cherkassky, V.; Mulier, F. Learning from data: Concepts, Theory and Methods; Wiley-IEEE Press: Hoboken, USA, 2007. [17] Zhang, W.; Ma, L.; Li, X. Multi-agent reinforcement learning based on local communication. Clust. Comput. 2018, 1–10. [18] Hu, X.; Wang, Y. Consensus of Linear Multi-Agent Sys. Subject to Actuator Saturation. Int. J. Con. Aut. Syst. 2013, 11, 649–656. [19] Luviano, D.; Yu, W. Path planning in unknown environment with kernel smoothing and reinforcement learning for multi-agent systems. In Proceedings of the 12th Int. Conf. on Electrical Engineering, Computing Science and Automatic Control (CCE), Mexico City, Mexico, 28–30 October 2015. [20] Abul, O.; Polat, F.; Alhajj, R. Multi-agent reinforcement learning using function approximation. IEEE Trans. Syst. Man Cybern. Part C Appl. Rev. 2000, 485–497. [21] Fernandez, F.; Parker, L.E. Learning in large cooperative multi-robots systems. Int. J. Robot. Autom. Spec. Issue Comput. Intell. Tech. Coop. Robots 2001, 16, 217–226. [22] Foerster, J.; Nardelli, N.; Farquhar, G.; Afouras, T.; Torr, P.H.; Kohli, P.; Whiteson, S. Stabilising experience replay for deep multi-agent reinforcement learning. arXiv 2017. [23] Tam., H.; Ishi, S. Multi agent reinforcement learning applied to a chase problem in a continuous world. Life Robot. 2001, 202–206. [24] Ishiwaka, Y.; Sato, T.; Kakazu, Y. An approach to pursuit problem on a heterogeneous multiagent system using reinforcement learning. Robot. Auton. Syst. 2003, 43, 245–256. [25] Radac, M.-B.; Precup, R.-E.; Roman, R.-C. Data-driven model reference control of MIMO vertical tank systems with model-free VRFT and Q-Learning. ISA Trans. 2017. [26] Pandian, B.J.; Noel, M.M. Control of a bioreactor using a new partially supervised reinforcement learning algorithm. J. Process Control 2018, 69, 16–29. [27] F. H. Panahi, F. H. Panahi, G. Hattab, T. Ohtsuki and D. Cabric, "Green Heterogeneous Networks via an Intelligent Sleep/Wake-Up Mechanism and D2D Communications," in IEEE Trans. on Green Comm. and Networking, Vol. 2, No. 4, pp. 915-931, Dec. 2018. [28] F. H. Panahi and T. Ohtsuki, “Optimal channel-sensing scheme for cognitive radio systems based on fuzzy q-learning,” IEICE Trans. Commun., Vol. 97, No. 2, pp. 283–294, 2014. [29] Waleed Ejaz, Muhammad Naeem, Adnan Shahid, Alagan Anpalagan and Minho Jo, "Efficient energy management for the internet of things in smart cities", IEEE Communications Magazine, Vol. 55, No. 1, pp. 84-91, 2017. [30] Zhu, Ch., V. CM L., Lei Shu, and E. C-H. Ngai. "Green internet of things for smart world." IEEE Access, Vol. 3, pp. 2151- 2162, 2015. [31] M. M. Amiri and S. M. H. Andargoli, "Life time maximization in the Wireless Sensor Network with energy harvesting," 2017 IEEE 4th Int. Conf. on Knowledge-Based Engineering and Innovation (KBEI), Tehran, 2017, pp. 0412-0417. | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
آمار تعداد مشاهده مقاله: 1,338 تعداد دریافت فایل اصل مقاله: 361 |