معیارهای ارزیابی در یادگیری ماشین
بازخوانی، دقت، ماتریس درهمریختگی، امتیاز F1، ROC Curve و مساحت زیر منحنی ROC از جمله معیارهای ارزیابی هستند که به ما ابزارهای مفیدی برای تحلیل و انتخاب بهترین مدلها و تنظیمات را ارائه میدهند. انتخاب معیارهای مناسب به توجه به خصوصیات مسئله و اهداف مورد نظر، اساسی برای دستیابی به عملکرد بهتر مدلهای یادگیری ماشین است. در ادامه مهمترین معیارهای ارزیابی یادگیری ماشین را بیان میکنیم. در آکادمی هوش مصنوعی مهسا به جمع دانشجویان و محققان علاقه مند به هوش مصنوعی بپیوندید.
اهمیت معیارهای ارزیابی یادگیری ماشین
معیارهای ارزیابی در یادگیری ماشین اهمیت بسیاری دارند زیرا ارزیابی دقیق عملکرد مدلها و الگوریتمهای یادگیری ماشین، به ما کمک میکند تا به انتخاب بهترین مدل برای مسئلهی خاصمان بپردازیم و درک بهتری از نقاط قوت و ضعف مدلها داشته باشیم. اهمیت معیارهای ارزیابی عبارتند از:
- انتخاب بهترین مدل: مدلهای یادگیری ماشین مختلفی برای هر مسئله وجود دارند، اما نه همیشه یک مدل بهتر از دیگری است. معیارهای ارزیابی به ما کمک میکنند تا مدلی را که بهترین عملکرد را دارد، انتخاب کنیم.
- پیشبینی دقیق: ارزیابی دقیق عملکرد مدلها ما را قادر میسازد تا مدلهایی را ایجاد کنیم که به طور دقیقتری پیشبینیها انجام میدهند. این امر به تجنب اشتباهات گزاف و تصمیمگیری بهتر در موارد حساس کمک میکند.
- تشخیص نقاط ضعف: معیارهای ارزیابی به ما نقاط ضعف مدل را نشان میدهند. این نقاط ضعف میتوانند به ما کمک کنند تا بهبودهای لازم در مدل ایجاد کنیم و عملکرد آن را بهبود بخشیم.
- انتخاب متغیرها: در بسیاری از مسائل، متغیرهای ورودی ممکن است بسیاری باشند. معیارهای ارزیابی ما را قادر میسازند تا متغیرهای مهم و تأثیرگذار را تشخیص دهیم و متغیرهای غیرضروری را حذف کنیم.
- تطابق با نیازهای کاربر: در مسائل واقعی، ممکن است تعداد نمونههای مثبت و منفی تفاوت داشته باشد و هزینه اشتباهات نوع 1 و 2 متفاوت باشد. معیارهای ارزیابی به ما کمک میکنند تا مدلها را طوری تنظیم کنیم که با توجه به نیازهای خاص مسئله عمل کنند.
به طور کلی، معیارهای ارزیابی در یادگیری ماشین ما را در بهبود کیفیت و کارایی مدلهای یادگیری ماشین یاری میکنند و به ما کمک میکنند تا تصمیمات بهتری در مسائل واقعی انتخاب کنیم. یادگیری ماشین کاربردهای فراوانی دارد. شما میتوانید با ماشین لرنینگ در مهندسی مکانیک کارها را راحتتر پیش ببرید. همچنین ماشین لرنینگ در عمران به ساخت و ساز ساختمانها کمک شایانی میکند.
ماتریس اختلاط از معیارهای ارزیابی یادگیری ماشین
ماتریس اختلاط (Confusion Matrix) یکی معیارهای ارزیابی در یادگیری ماشین است. این معیار برای ارزیابی عملکرد یک الگوریتم یادگیری استفاده میشود. این ماتریس به شما کمک میکند تا تعداد دقیق از دادههای واقعی که به درستی تشخیص داده شدهاند. همچنین تعداد دادههای نادرست یا اشتباه تشخیص داده شده را مشاهده کنید.
ماتریس اختلاط شامل چهار مقدار اصلی است:
- True Positive (TP): تعداد مواردی که به درستی تشخیص دادهایم که مثبت هستند.
- True Negative (TN): تعداد مواردی که به درستی تشخیص دادهایم که منفی هستند.
- False Positive (FP): تعداد مواردی که اشتباهاً تشخیص دادهایم که مثبت هستند (خطای نوع 1)
- False Negative (FN): تعداد مواردی که اشتباهاً تشخیص دادهایم که منفی هستند (خطای نوع 2)
با استفاده از این چهار مقدار، میتوانید معیارهای مختلفی مانند دقت، صحت، حساسیت، و دقت منفی را محاسبه کنید تا به طور جامعتری عملکرد الگوریتم یادگیری را ارزیابی کنید.
دقت جزو معیارهای ارزیابی یادگیری ماشین
دقت که از معیارهای ارزیابی یادگیری ماشین است، نشان میدهد که چقدر الگوریتم یادگیری به درستی تشخیص دادهها را انجام میدهد. این معیار به صورت تعداد دادههایی که به درستی تشخیص داده شدهاند تقسیم بر کل دادهها محاسبه میشود.
فرمول دقت:
به طور مثال، اگر یک مدل با 100 داده آزمایشی، 80 داده را به درستی تشخیص داده و 20 داده را اشتباه گرفته باشد، دقت آن برابر با 80 درصد خواهد بود. معیار دقت میتواند در مواردی که کلاسها تعداد نمونههای متفاوتی دارند (تراز دادهها)، تصویر کلی نادرستی را ارائه دهد. به عبارت دیگر، اگر یک کلاس نمونههای بسیار بیشتری نسبت به کلاس دیگر داشته باشد، مدل ممکن است به دلیل بیشتر بودن نمونهها در کلاس بزرگتر، به طور اتفاقی در آن کلاس بهتر عمل کند و دقت به نظر بالا بیاید، در حالی که عملکرد واقعی مدل نادرست باشد.
صحت از معیارهای ارزیابی یادگیری ماشین
یکی از معیارهای ارزیابی یادگیری ماشین به نام صحت، ماشین نشان میدهد که از تمام نمونههایی که مدل به عنوان مثبت تشخیص داده، چه تعداد واقعا مثبت هستند. به عبارت دیگر، این معیار نشان میدهد که مدل به چه اندازه دقیق و قطعی به نمونههای مثبت تشخیص میدهد.
فرمول صحت:
به طور مثال، فرض کنید یک مدل به عنوان مثبت تشخیص و 5 نمونه را مثبت تشخیص داده باشد. از این 5 نمونه، تنها 3 نمونه واقعا مثبت بوده و دیگر 2 نمونه اشتباهی تشخیص داده شدهاند. در این صورت، صحت مدل برابر با 60 درصد خواهد بود. معیار صحت به خوبی نشان میدهد که مدل در شناسایی مثبتها چقدر دقیق و اعتمادپذیر عمل میکند. این معیار بسیار مفید است و به ویژه وقتی که دقت تشخیص مثبتها اهمیت بالایی دارد و اشتباهات نوع 1 (False Positive) میتوانند پیامدهای جدی داشته باشند. از جمله می توان به تشخیص بیماریها یا تشخیص تقلب اشاره کرد.
بازخوانی از معیارهای ارزیابی یادگیری ماشین
یکی دیگر از معیارهای ازیابی با نام بازخوانی یا حساسیت یا تشخیص واقعی مثبت، نشان میدهد که از کل نمونههای مثبت موجود، چه تعدادی توسط مدل به درستی تشخیص داده میشوند. به عبارت دیگر، این معیار نشان میدهد که مدل به چه اندازه قادر به شناسایی تمام نمونههای مثبت در دادههاست.
فرمول بازخوانی:
به طور مثال، اگر یک مدل از کل 10 نمونه مثبت، 8 نمونه را به درستی تشخیص و 2 نمونه را از دست داده باشد، بازخوانی مدل برابر با 80 درصد خواهد بود. بازخوانی به خوبی نشان میدهد که مدل چقدر حساس به شناسایی نمونههای مثبت است. این معیار مهم است زمانی که از نظر اقتصادی یا بهداشتی اشتباهات نوع 2 (False Negative) عواقب جبران ناپذیری دارند، مثل در موارد تشخیص بیماریها که تشخیص دیرهنگام ممکن است منجر به مشکلات جدی شود.
معیار ROC
یکی دیگر از معیارهای ارزیابی یادگیری ماشین، ROC است. معیار ارزیابی Receiver Operating Characteristic (ROC) یک روش گرافیکی برای ارزیابی عملکرد مدلهای یادگیری ماشین در مسائل تشخیص دودویی (binary classification) است. این معیار به تجزیهوتحلیل عملکرد مدل با توجه به میزان صحیح مثبتها (True Positive Rate) و میزان نادرست مثبتها (False Positive Rate) میپردازد.
در ROC Curve، محور افقی نشاندهنده میزان نادرست مثبتها (False Positive Rate) و محور عمودی نشاندهنده میزان صحیح مثبتها (True Positive Rate) است. این منحنی به ما نشان میدهد که چگونه مدل با تغییر در آستانههای تصمیمگیری میزان دقت و تشخیص مثبتها را تغییر میدهد.
معیار دیگری که از ROC Curve به دست میآید، مساحت زیر منحنی ROC یا AUC-ROC (Area Under the ROC Curve) است. AUC-ROC یک معیار جامع است که نشان میدهد که مدل چقدر دقیق تشخیص دادههای مثبت را انجام میدهد و در عین حال نادرست مثبتها را کنترل میکند. مقدار AUC-ROC بین 0 تا 1 است، که مقدار بالاتر بهترین عملکرد مدل را نشان میدهد. در کل، ROC Curve و AUC-ROC به ما کمک میکنند تا عملکرد مدلهای تشخیص دودویی را به طور جامعتر ارزیابی کرده و تصمیمگیریهای بهتری را در مورد انتخاب مدل انجام دهیم.
معیار MCC
ضریب همبستگی متیوز یکی دیگر از معیارهای ارزیابی یادگیری ماشین است. ضریب همبستگی متیوز یا Matthews Correlation Coefficient (MCC) یک معیار ارزیابی است که در مسائل تشخیص دودویی (binary classification) به کار میرود. این معیار از ترکیبی از میزان صحیح مثبتها، میزان صحیح منفیها، میزان نادرست مثبتها و میزان نادرست منفیها برای ارزیابی عملکرد مدل استفاده میکند.
فرمول محاسبه MCC:
در اینجا:
- TP نمایانگر تعداد موارد واقعی مثبت که به درستی تشخیص داده میشوند (True Positives) است.
- TN نمایانگر تعداد موارد واقعی منفی که به درستی تشخیص داده میشوند (True Negatives) است.
- FP نمایانگر تعداد موارد واقعی منفی که به طور نادرست به عنوان مثبت تشخیص داده میشوند (False Positives) است.
- FN نمایانگر تعداد موارد واقعی مثبت که به طور نادرست به عنوان منفی تشخیص داده میشوند (False Negatives) است.
مقدار MCC در بازه [-1,1] قرار دارد، که مقدار بالاتر بهترین عملکرد مدل را نشان میدهد. اگر مدل تصمیمگیری تصادفی باشد، مقدار MCC نزدیک به 0 خواهد بود، و اگر مدل عملکرد عالی داشته باشد، مقدار MCC به 1 نزدیک خواهد بود. معیار MCC به خصوص زمانی مفید است که تراز دادهها نامتوازن باشد و تشخیص مثبتها و منفیها مهم باشد. این معیار برای ارزیابی مدلهای تشخیص تقلب، تشخیص بیماریها و موارد مشابه بسیار مفید است.
معیار F1Score
F1 Score یکی از مهمترین معیارهای ارزیابی یادگیری ماشین است. امتیاز F1 یک معیار ارزیابی جامع است که ترکیبی از دقت (Precision) و بازخوانی (Recall) میباشد. این معیار به صورت توازنی بین دقت و بازخوانی، عملکرد الگوریتم یادگیری را ارزیابی میکند. معمولاً در مواردی که تراز دادهها متفاوت یا هزینه اشتباهات نوع 1 و 2 متفاوت است، از امتیاز F1 به عنوان یک معیار مناسب برای ارزیابی استفاده میشود.
فرمول محاسبه امتیاز F1:
مقادیر دقت و بازخوانی باید در بازه [1، 0] باشند. امتیاز F1 نیز در بازه [1، 0] قرار دارد، که مقادیر بالاتر نشاندهنده عملکرد بهتر الگوریتم یادگیری است. امتیاز F1 به ویژه زمانی که تعادل بین دقت و بازخوانی مهم است، مفید است. به عنوان مثال، در تشخیص تقلب در تراکنشهای مالی، ممکن است هزینه اشتباهات نوع 1 و 2 متفاوت باشد. در این موارد، بهرهبرداری از امتیاز F1 به عنوان معیار اصلی ارزیابی میتواند مناسب باشد.
معیارهای کارایی رگرسیون در ماشین لرنینگ
در مسائل رگرسیون در یادگیری ماشین، معیارهای کارایی مختلفی برای ارزیابی عملکرد مدلها وجود دارند. چندین معیار مهم عبارتند از:
- خطاهای مطلق متوسط (MAE – Mean Absolute Error): این معیار میانگین اختلافهای مطلق بین پیشبینیهای مدل و مقادیر واقعی دادههاست. معیار مقیاسنداری است و به عبارت دیگر، واحدهای مشخصی ندارد.
- خطاهای میانگین مربعاتی (MSE – Mean Squared Error): این معیار میانگین مربعات اختلاف بین پیشبینیهای مدل و مقادیر واقعی دادهها را نشان میدهد. MSE معیار مقیاسداری است و واحد آن برابر با واحد دیتا به توان دو است.
- ریشه میانگین مربعات خطا (RMSE – Root Mean Squared Error): این معیار از MSE بهره میبرد و جذر مقدار MSE را محاسبه میکند. RMSE نیز واحد دیتا دارد و به عنوان یک معیار پراستفاده در مسائل رگرسیون استفاده میشود.
- ضریب تعیین (R-squared): این معیار نشان میدهد که مدل چه میزان تغییرات مقادیر وابسته را توضیح میدهد. مقدار بین 0 تا 1 قرار دارد و 1 نشاندهنده تطابق کامل مدل با دادهها است.
- MAPE (Mean Absolute Percentage Error): این معیار درصد میانگین خطاهای مطلق بین پیشبینیهای مدل و مقادیر واقعی دادهها را نشان میدهد. این معیار به ویژه در مواردی مفید است که مقیاسهای مختلفی در دادهها وجود دارد.
معیارهای دیگری نیز وجود دارند که ممکن است بهترینها با توجه به مسئله و متغیرهای موجود انتخاب شوند. انتخاب معیارهای مناسب برای ارزیابی مدل به توجه به ماهیت دادهها و هدف نهایی تحلیل بستگی دارد.
تفاوت دقت و صحت
معیارهای ارزیابی در یادگیری ماشین به نامهای دقت (Precision) و صحت (Accuracy) دو معیار ارزیابی مهم هستند. اما هر کدام به جنبههای مختلفی از عملکرد مدل تمرکز دارند. تفاوت اصلی میان این دو معیار به شرح زیر است:
- دقت (Precision): این معیار نشان میدهد که از تمام مواردی که مدل به عنوان مثبت تشخیص داده، چه تعداد واقعا مثبت هستند. به عبارت دیگر، دقت نشاندهنده دقت و اعتمادپذیری مدل در شناسایی مثبتهاست. دقت مهم است زمانی که اشتباهات نوع 1 (False Positive) پیامدهای جبرانناپذیری دارند.
- صحت (Accuracy): این معیار نشان میدهد که از کل دادهها، چه تعداد به درستی تشخیص داده شدهاند. به عبارت دیگر، صحت نشانمی دهد که تعداد کل موارد توسط مدل درست تشخیص داده شده اند. صحت در نظر نمی گیرد که مثبتها یا منفیها به چه میزان به درستی تشخیص داده شدهاند.
به عبارت دیگر، تفاوت اصلی در این است که دقت تمرکز دقیقتر بر عملکرد مدل در تشخیص مثبتها دارد، در حالی که صحت تمرکز دارد بر کلیت عملکرد مدل در تشخیص تمام دادهها. انتخاب معیار مناسب به توجه به مسئله خاص و نیازهای کاربری بسیار مهم است. اگر تمایل دارید با هوش مصنوعی به زبان ساده آشنا شوید، مهارت های جدید یاد بگیرید، به آکادمی هوش مصنوعی مهسا بپیوندید.
دیدگاهتان را بنویسید