| تعداد نشریات | 43 |
| تعداد شمارهها | 1,840 |
| تعداد مقالات | 14,938 |
| تعداد مشاهده مقاله | 41,168,656 |
| تعداد دریافت فایل اصل مقاله | 15,998,659 |
یادگیری ماشین با حساسیت هزینه برای پیشبینی نقصهای تولید: رویکردی نوین مبتنی بر MetaCost | ||
| پژوهش در مدیریت تولید و عملیات | ||
| مقاله 5، دوره 16، شماره 2 - شماره پیاپی 41، تیر 1404، صفحه 73-94 اصل مقاله (3.17 M) | ||
| نوع مقاله: مقاله پژوهشی- فارسی | ||
| شناسه دیجیتال (DOI): 10.22108/pom.2025.144489.1610 | ||
| نویسندگان | ||
| احمد جعفرنژاد* 1؛ آرمان رضاسلطانی2؛ امیرمحمد خانی2 | ||
| 1استاد گروه مدیریت صنعتی، دانشکده مدیریت، دانشگاه تهران، تهران، ایران. | ||
| 2دانشجوی دکتری گروه مدیریت صنعتی، دانشکده مدیریت، دانشگاه تهران، تهران، ایران. | ||
| چکیده | ||
| کنترل کیفیت و کاهش هزینههای تولید، به پیشبینی دقیق عیوب در فرآیندهای صنعتی وابسته است. در این پژوهش، رویکرد یادگیری ماشین حساس به هزینه، با استفاده از الگوریتم MetaCost بررسی شده است. MetaCost یک تکنیک پسپردازش برای تبدیل مدلهای یادگیری ماشین به مدلهای حساس به هزینه است که با در نظر گرفتن ماتریس هزینۀ خطاها، تصمیمگیری مدل را بهینه میکند. هدف اصلی، کاهش خطاهای منفی کاذب در شناسایی روزهای پرنقص تولید است. برای این منظور، از چندین الگوریتم شامل Random Forest، Gradient Boosting، XGBoost، LightGBM، CatBoost، SVM و رگرسیون لجستیک استفاده شد. دادهها از دیتاست «Predicting Manufacturing Defects» برگرفته از پلتفرم Kaggle، شامل اطلاعات مربوط به 3240 روز تولید صنعتی جمعآوری شدند. نتایج نشان داد که الگوریتم جنگل تصادفی با دستیابی به صحت برابر 96.9% و بازخوانی برابر 98.9%، بهترین عملکرد را در میان مدلها داشت. بهویژه توانایی بالای این مدل در شناسایی صحیح روزهای پرنقص، آن را به گزینۀ مناسبی برای کاربردهای واقعی در صنعت تبدیل کرد. دیگر مدلها نیز عملکرد پذیرفتنی داشتند؛ اما در مقایسه با Random Forest، در کاهش نرخ منفی کاذب ضعیفتر ظاهر شدند. این نتایج، کارایی رویکردهای حساس به هزینه را در بهبود پیشبینی نقص تولید، تأیید میکند. | ||
| کلیدواژهها | ||
| یادگیری ماشین؛ حساسیت به هزینه؛ MetaCost؛ پیشبینی نقص؛ تولید صنعتی | ||
| اصل مقاله | ||
|
مقدمه مجموعه دادۀ این مطالعه بر روزهای با نقص زیاد تمرکز دارد؛ زیرا این روزها کمتر رخ میدهند؛ اما شناسایی آنها در فرآیند تولید بسیار مهم است. برای بهبود تعادل دادهها، روزهای کمنقص نیز به مجموعه اضافه شدند؛ اما همچنان مجموعه داده نامتوازن باقی ماند. این نبود توازن به پیشبینی بیش از حد کلاس اکثریت (روزهای با نقص زیاد) توسط مدلهای یادگیری ماشین منجر میشود. براساس شکل 2، کلاس 1 (روزهای با نقص زیاد) 84.04٪ از دادهها را تشکیل میدهد؛ در حالی که کلاس 0 (روزهای کمنقص) تنها 15.96٪ را شامل میشود که نشاندهندۀ توزیع نامتوازن نمونهها در مجموعه داده است. این مدل با استفاده از روش اعتبارسنجی متقاطع، با استفاده از 5 بخش برای اعتبارسنجی تعمیمپذیری مدل و پایداری مدل ازنظر دادههای آزمایشی مختلف اعتبار سنجی میشود (Wong & Yeh, 2020). در این مطالعه، مدل جنگل تصادفی بهدلیل داشتن بالاترین مقدار بازخوانی (98.99%)، بهترین مدل انتخاب شد. بازخوانی بالا نشان میدهد که این مدل قادر است تقریباً تمامی روزهای با نقص زیاد را شناسایی کند که در محیطهای تولیدی، حیاتی است. اگر یک روز پرنقص بهاشتباه بدون نقص تشخیص داده شود (منفی کاذب بالا)، اقدامات اصلاحی انجام نمیشود و این زیان مالی و کاهش کیفیت تولید را بههمراه دارد. با توجه به اینکه هر ردیف از مجموعهداده نمایانگر یک روز تولیدی است، یک پیشبینی نادرست به معنای شناسایینکردن عیوب در یک روز کامل تولید خواهد بود. اگرچه دقت نیز مهم است، در این مطالعه بازخوانی اولویت بالاتری دارد؛ زیرا هزینۀ مثبت کاذب (خطای برچسبگذاری نادرست روزهای کمنقص) به مراتب کمتر از هزینۀ منفی کاذب (شناسایینکردن روزهای پرنقص) است؛ بنابراین، مدلی که بازخوانی بالاتر دارد، بر مدلهایی با دقت بالاتر، ترجیح داده شده است. Random Forest به غیر از داشتن بالاترین مقدار بازخوانی، در دیگر شاخصها نیز در مقایسه با باقی مدلها تعادل خوبی دارد. درنهایت دقت مدل 03/95درصد، امتیاز F1 96/96درصد و صحت کلی 90/96درصد است که نشان میدهد این مدل بهطور کلی، روزهایی را با ایرادهای زیاد پیشبینی میکند. مدلهای دیگری مانند CatBoost و LightGBM نیز عملکرد خوبی داشتند؛ اما در مقایسه با جنگل تصادفی، بازخوانی کمتری داشتند. با این حال، مدلهایی مانند SVM و رگرسیون لجستیک عملکرد ضعیفی داشتند؛ زیرا نمیتوانستند تمام روزهای دارای نقص زیاد را شناسایی کنند و بازخوانی آنها بهاندازۀ کافی بالا نبود که مؤثر باشد. | ||
| مراجع | ||
|
Adler, A. I., & Painsky, A. (2022). Feature Importance in Gradient Boosting Trees with Cross-Validation Feature Selection. Entropy, 24(5), 687. https://doi.org/10.3390/e24050687 Ahsan, M. M., Raman, S., & Siddique, Z. (2023). BSGAN: A Novel Oversampling Technique for Imbalanced Pattern Recognitions. (Cornell University). PsyArXiv. https://doi.org/10.48550/arxiv.2305.09777 Ataei, S., Adibnazari, S., & Ataei, S. T. (2025). Data-driven Detection and Evaluation of Damages in Concrete Structures: Using Deep Learning and Computer Vision. (Cornell University). PsyArXiv. https://doi.org/10.48550/arxiv.2501.11836 Barzizza, E., Biasetton, N., Ceccato, R., & Molena, A. (2024). Machine learning-based decision-making approach for predicting defects detection: a case study. IAES International Journal of Artificial Intelligence (IJ-AI), 13(3), 3052. https://doi.org/10.11591/ijai.v13.i3.pp3052-3060 Chen, Y. (2021). Research on Cost-sensitive Classification Methods for Imbalanced Data. International Conference on Artificial Intelligence, Big Data and Algorithms (CAIBDA), Xi'an, China, 224-228. https://doi.org/10.1109/caibda53561.2021.00054 Frumosu, F. D., Khan, A. R., Schiøler, H., Kulahci, M., Zaki, M., & Westermann-Rasmussen, P. (2020). Cost-sensitive learning classification strategy for predicting product failures. Expert Systems with Applications, 161, 113653. https://doi.org/10.1016/j.eswa.2020.113653 Ghatasheh, N., Faris, H., AlTaharwa, I., Harb, Y., & Harb, A. (2020). Business Analytics in Telemarketing: Cost-Sensitive Analysis of Bank Campaigns Using Artificial Neural Networks. Applied Sciences, 10(7), 2581. https://doi.org/10.3390/app10072581 Hassan, D. (2017). The Impact of False Negative Cost on the Performance of Cost Sensitive Learning Based on Bayes Minimum Risk: A Case Study in Detecting Fraudulent Transactions. International Journal of Intelligent Systems and Applications, 9(2), 18–24. https://doi.org/10.5815/ijisa.2017.02.03 Jafarnejad Chaghoshi, A. , Rezasoltani, A. and Khani, A. M. (2024). Unleashing the Power of Ensemble Learning: Predicting National Ranks in Iran’s University Entrance Examination. Industrial Management Journal, 16(3), 457-481. DOI: 10.22059/imj.2024.381521.1008178 Kamalaruban, P., & Williamson, R. C. (2018). Minimax Lower Bounds for Cost Sensitive Classification. ArXiv (Cornell University). https://doi.org/10.48550/arxiv.1805.07723 Kang, Z., Catal, C., & Tekinerdogan, B. (2020). Machine learning applications in production lines: A systematic literature review. Computers & Industrial Engineering, 149, 106773. https://doi.org/10.1016/j.cie.2020.106773 Kim, Y. J., Baik, B., & Cho, S. (2016). Detecting financial misstatements with fraud intention using multi-class cost-sensitive learning. Expert Systems with Applications, 62, 32–43. https://doi.org/10.1016/j.eswa.2016.06.016 Le, T., Vo, M. T., Vo, B., Lee, M. Y., & Baik, S. W. (2019). A Hybrid Approach Using Oversampling Technique and Cost-Sensitive Learning for Bankruptcy Prediction. Complexity, 2019, 1–12. https://doi.org/10.1155/2019/8460934 Liu, Y., Li, Q., Wang, K., Liu, J., He, R., Yuan, Y., & Zhang, H. (2021). Automatic Multi-Label ECG Classification with Category Imbalance and Cost-Sensitive Thresholding. Biosensors, 11(11), 453. https://doi.org/10.3390/bios11110453 Mählkvist, S., Ejenstam, J., & Kyprianidis, K. (2023). Cost-Sensitive Decision Support for Industrial Batch Processes. Sensors, 23(23), 9464. https://doi.org/10.3390/s23239464 Malhotra, R., & Kamal, S. (2019). An empirical study to investigate oversampling methods for improving software defect prediction using imbalanced data. Neurocomputing, 343, 120–140. https://doi.org/10.1016/j.neucom.2018.04.090 Mansouri, T., Sadeghimoghadam, M., & Ghasemian Sahebi, I. (2021). A New Algorithm for Hidden Markov Models Learning Problem. PsyArXiv. https://doi.org/10.48550/arXiv.2102.07112 Matharaarachchi, S., Domaratzki, M., & Muthukumarana, S. (2024). Enhancing SMOTE for imbalanced data with abnormal minority instances. Machine Learning with Applications, 18, 100597. https://doi.org/10.1016/j.mlwa.2024.100597 Mehregan, M. R. and Khani, A. M. (2024). Improving organizational performance: the role of supply chain 4.0 and financing in reducing supply chain risk. Journal of International Business Administration, 7(3), 39-59. DOI: 10.22034/jiba.2024.60005.2164 Menold, H. S., Wieland, V. L. S., Haney, C. M., D. Uysal, Wessels, F., G.C. Cacciamani, Michel, M. S., Seide, S., & Kowalewski, K. F. (2024). Machine learning enables automated screening for systematic reviews and meta-analysis in urology. World Journal of Urology, 42(1), 396. https://doi.org/10.1007/s00345-024-05078-y Mirzaei, S. , Ashtab, A. and Zavari Rezaei, A. (2023). Comparing the Efficiency of Statistical Models and Machine-Learning Models and Choosing the Optimal Model for Predicting Net Profit and Operating Cash Flows. Journal of Asset Management and Financing, 11(2), 53-74. DOI: 10.22108/amf.2023.136720.1784 Motamedi, M., Shidpour, R. & Ezoji, M. (2024). LSTM-based framework for predicting point defect percentage in semiconductor materials using simulated XRD patterns. Sci Rep 14, 24353. https://doi.org/10.1038/s41598-024-75783-6 Niu, L., Wan, J., Wang, H., & Zhou, K. (2020). Cost-sensitive Dictionary Learning for Software Defect Prediction. Neural Processing Letters, 52(3), 2415–2449. https://doi.org/10.1007/s11063-020-10355-z Rabie El Kharoua. (2024). Predicting Manufacturing Defects Dataset [Data set]. Kaggle. https://doi.org/10.34740/KAGGLE/DSV/8715500 Setty, R., Yuval Elovici, & Schwartz, D. (2024). Cost‐sensitive machine learning to support startup investment decisions. International Journal of Intelligent Systems in Accounting, Finance & Management, 31(1),1-17. https://doi.org/10.1002/isaf.1548 Shi, K., Shi, R., Fu, T., Lu, Z., & Zhang, J. (2024). A Novel Identification Approach Using RFECV–Optuna–XGBoost for Assessing Surrounding Rock Grade of Tunnel Boring Machine Based on Tunneling Parameters. Applied Sciences, 14(6), 2347–2347. https://doi.org/10.3390/app14062347 Soltani, M., Khatami Firouzabadi, S. M. A., Amiri, M. and Hajian Heidary, M. (2023). Proposing an integrated approach for omnichannel demand forecasting using machine learning-time series clustering with dynamic time warping algorithm and artificial neural networks. Research in Production and Operations Management, 14(1), 121-140. DOI: 10.22108/pom.2023.136202.1485 van Vuuren, J. H. (2024). A MACHINE LEARNING FRAMEWORK FOR DATA-DRIVEN DEFECT DETECTION IN MULTISTAGE MANUFACTURING SYSTEMS. South African Journal of Industrial Engineering, 35(2), 154-170. https://doi.org/10.7166/35-2-3008 Verbeke, W., Olaya, D., Berrevoets, J., Verboven, S., & Maldonado, S. (2020). The foundations of cost-sensitive causal classification. ArXiv (Cornell University). https://doi.org/10.48550/arxiv.2007.12582 Wong, T., & Yeh, P. (2020). Reliable Accuracy Estimates from k-Fold Cross Validation. IEEE Transactions on Knowledge and Data Engineering, 32(8), 1586–1594. https://doi.org/10.1109/TKDE.2019.2912815 Zhou, Z.-H., & Liu, X.-Y. (2010). ON MULTI-CLASS COST-SENSITIVE LEARNING. Computational Intelligence, 26(3), 232–257. https://doi.org/10.1111/j.1467-8640.2010.00358.x | ||
|
آمار تعداد مشاهده مقاله: 1,015 تعداد دریافت فایل اصل مقاله: 367 |
||