چندین دهه است که سازمانهای مالی برای تشخیص تقلب به سیستمهای نظارتی مبتنیبر قواعد اتکا میکنند. اما این سیستمها اغلب خیلی ساختاریافته و انعطافناپذیرند و هر تلاشی برای اصلاح آنها ممکن است به فروپاشی کل پایگاه کد منجر شود. این شکنندگی توانایی مبارزه موثر با تقلب را از بانکها سلب میکند، چراکه مجرمان مدام از شیوههای جدیدتری برای فرار از سیستم تشخیص تقلب استفاده میکنند.
بسیاری از شرکتهای مالی در واکنش به این چالشها، ابزارهای قدیمیشان را کنار گذاشتهاند و به راهحلهای یادگیری ماشین عصر جدید روی آوردهاند. با این حال مسئله این است که برای افراد دارای پیشینه علوم داده، مشخص نیست کدام الگوریتمهای یادگیری ماشین برای شناسایی تراکنشهای غیرقانونی مناسب هستند. درنتیجه انتخاب برای این افراد دشوار است. مقاله «Machine Learning In Fraud Detection: An In-Depth Analysis» که 28 نوامبر 2022 منتشر شده، به تشریح چند انتخاب پرطرفدار میپردازد تا به افراد در این فرایند تصمیمگیری کمک کند.
این مقاله ابتدا به تکنیکهای یادگیری ماشین نظارتشده شامل جنگل تصادفی، الگوریتم کی-نزدیکترین همسایه، رگرسیون لجستیک و ماشینبردار پشتیبانی میپردازد که هر کدام نقاط قوت و ضعف منحصربهفرد خودشان را دارند و اثربخشیشان به ویژگیهای دادهها و ماهیت مسئله تشخیص تقلب مورد نظر وابسته است.
این مقاله در ادامه تکنیکهای بدون نظارت شامل خوشهبندی کی-میانگین و نقشههای خودسازماندهنده را بررسی میکند. کی-میانگین که یکی از قدیمیترین و شناختهشدهترین تکنیکهای بدون نظارت است، دادههای بدون برچسب را به خوشههای مختلف تقسیمبندی میکند. روش نقشههای خودسازماندهنده شیوه یادگیری ماشین بدون نظارتی است که برای خوشهبندی دادههایی با ابعاد زیاد و کاهش آنها به سطوحی با یک یا دو بعد استفاده میشود.
منبع: