صفحه اصلی » پرونده موضوعی » راهکارهای تشخیص تقلب
آیا نیاز بشر به ثروت، نیازی طبیعی است؟ مکاتب بسیاری سعی در پاسخ به این سوال داشتهاند و هر یک دلایل گوناگونی از جمله میل به قدرت، وجود سیستمهای سرمایهداری، تامین نیازهای اولیه اساسی و… را علت ثروتطلبی بشر دانستهاند. هر چند لازمه پاسخ به این سوال، نیازمند بررسی و مکاشفه دقیق است اما آنچه به صورت حقیقتی غیر قابل انکار بین تمامی متفکران پذیرفته شده نیاز روزافزون بشر برای بهدستآوردن هر چه بیشتر منابع مالی است.
بدیهی است که با ایجاد هر سیستم مالی، بسیاری از افراد با کشف خلا امنیتی سیستم، سعی در کسب منابع مالی با کمترین زحمت را دارند. در زمینه مبارزه با تقلب، دو نگاه کلی وجود دارد: اجتناب از تقلب و شناسایی آن[1] و طراحی سیستمهایی با امنیت بالا و برای مثال طراحی رمز دوم یا OTP که جزو طبقه اول این دستهبندی است. گاهی سیستم امنیتی بسیار دقیق طراحی شده است؛ در این موارد متقلبین سعی میکنند با فریب افراد به مقاصد خود نائل شوند. از اینجا به بعد، سیستمهای شناسایی تقلب برای جلوگیری از جابهجایی پول، کاربرد پیدا میکنند. یک موسسه تحقیقاتی در زمینه مالی1 میزان کلاه برداری از طریق دزدی مشخصات در سال 2020 را حدود 56 میلیون دلار تخمین زده است.[2]
لازم به ذکر است که سیستمهای کشف تقلب باید به طور مداوم، در طول زمان تکامل یابند، زیرا زمانی که دستهای از تقلبها کشف میشوند، استراتژیهای قدیمی کنار گذاشته و با استراتژیهای جدید تقلب جایگزین میشوند.
سیستمهای کشف تقلب از الگوریتمهای یادگیری ماشین، تحلیلهای سری زمانی، تحلیلهای آماری و ریاضیاتی و تحلیل گراف برای کشف تقلب استفاده میکنند. تقلب را میتوان نوعی ناهنجاری در دادهها به حساب آورد؛ بنابراین میتوان از این به بعد به جای اصطلاح کشف تقلب، شناسایی نمونههای ناهنجار را به کار برد. ناهنجاریها در دادهها سه نوع مختلف دارند که لازم است در کشف هر تقلب دقت کنیم کدام یک از انواع ناهنجاری در حال رخدادن است؛ در این صورت احتمال شناسایی خطا پایین میآید. این ناهنجاریها عبارتند از:
دستهای از روشها تنها امتیاز یا احتمال ناهنجاری را به هر داده منتسب میکنند، در حالی که دستهای دیگر، یکی از دو برچسب هنجار یا ناهنجار را.
به طور کلی الگوریتمهای یادگیری ماشین به سه دسته تقسیمبندی میشوند:
1- روشهای مبتنی بر نزدیکترین همسایه: در این روشها که شامل الگوریتمهایی نظیر Local Outlier Factor، Connectivity-Based Outlier Factor ، Influenced Outliers، Local Outlier Probability،Local Correlation Integral هستند، داده ناهنجار بر اساس محاسبه فاصله، چگالی کلی و محلی شناسایی میشوند.[7]
2- روشهای خوشهبندی: در روشهای نزدیکترین همسایه ابتدا بر اساس فاصله، مجموعهها شناسایی و با استفاده از چگالی هر مجموعه دادههای ناهنجار شناسایی میشوند. اما در روشهای خوشهبندی ابتدا خوشهها شناسایی و سپس درون هر خوشه، چگالی محلی محاسبه میشود. در مرحله بعد، با استفاده از چگالی محلی، دادههای ناهنجار شناسایی میشوند. از جمله این روشها میتوان به الگوریتمهای Histogram-based Outlier Score و Cluster-Based Local Outlier Factor اشاره کرد.
3- علاوه بر موارد مذکور، روش تجزیهوتحلیل گروه همتا6 نیز در دسته الگوریتمهای بدون ناظر قرار میگیرد. در این روش، نیاز نیست رفتار معمول هر یک از افراد به صورت جداگانه شناسایی شود، بلکه رفتار جمعی گروهی از همتایان که در گذشته شبیه به یکدیگر رفتار کردهاند به عنوان مرجع در نظر گرفته میشود. انحراف شدید از رفتار جمعی گروه همتایان میتواند نشاندهنده ناهنجاری، یا به عبارت دیگر بروز تقلب باشد.
روش های مبتنی برگراف: این روشها نیز بر اساس وجود یا عدم وجود برچسب برای دادهها، در سه دسته الگوریتمهای بدون ناظر، نیمه نظارتی و با ناظر جای میگیرند. با این حال به دلیل اهمیت این دسته از روشها به بررسی آنها به صورت جداگانه میپردازیم. این دسته از الگوریتمها که از شبکههای ارتباطی برای شناسایی رفتارهای ناهنجار استفاده میکنند، پرکاربردترین روشها برای تشخیص ناهنجاری هستند. روشهای مبتنی بر گراف روی گرافهای ثابت یا پویا میتوانند راس، یال، زیرگراف یا واقعه ناهنجاری را شناسایی کنند.
منظور از راس ناهنجار، راسهایی هستند که در مقایسه با بقیه راسها، دارای ویژگی ناهنجاری هستنند. معمولا به هر راس، بر اساس ویژگیهای آن، امتیازی برابر با میزان ناهنجاری آن راس داده میشود. برای مثال بر اساس نرخ یالهای ورودی به خروجی. مانند راسها، یالهای ناهنجار نیز با استفاده از ویژگیهای غیرمعمول یالها، برای مثال امتیازی بالاتر از یک آستانه، یافت میشوند. به بیانی دیگر، بعد از امتیاز دهی به یال ها با استفاده از پارامتر های مختلف همچون فاصله یا هزینه و غیره، یال هایی که امتیازی بالاتر از حد معمول به دست آورند می توانند به عنوان یال های ناهنجار شناسایی شوند. بعد از شناسایی یالهای ناهنجار میتوان راسهای محتمل برای ناهنجاری را نیز یافت. برای یافتن زیرگرافهای ناهنجار، ابتدا زیرگرافها با الگوریتمهای تشخیص انجمن7، شناسایی شده، سپس به هر یک امتیازی برای میزان ناهنجاری اختصاص داده میشود. دسته آخر این مجموعه که تنها در گرافهای پویا قابل اجراست، تشخیص بازه زمانی است که در آن تغییر چشمگیری در شبکه ایجاد شده است.
بسیاری از روشهای مبتنی بر گراف، همان روشهای یادگیری ماشین هستند که روی گراف پیادهسازی شدهاند. بر اساس دردسترسبودن برچسب دادهها، ماهیت شبکه و نوع ناهنجاری، روشهای مختلفی به کار برده میشود. برای مثال میتوان از روشهای ساختاری که بر اساس ویژگیهای توپولوژی، شبکه راسها و یالهای ناهنجار را شناسایی میکنند یا روشهای آماری که بر اساس تئوری احتمالات، توزیع احتمالات و… مدلی برای رفتار به هنجار میسازد و سپس هر انحرافی از این رفتار را به عنوان رفتار ناهنجار شناسایی میکنند، نام برد[8].
منابع:
.[1]Bolton RJ, Hand DJ. Unsupervised profiling methods for fraud detection. Credit scoring and credit control VII. 2001 Sep 5:235-55.
.[2] https://www.javelinstrategy.com/content/Javelin-2021-Identity-Fraud-Study
.[3] Anandakrishnan A, Kumar S, Statnikov A, Faruquie T, Xu D. Anomaly detection in finance: editors’ introduction. InKDD 2017 Workshop on Anomaly Detection in Finance 2018 Jan 7 (pp. 1-7). PMLR.
.[4] Ross Quinlan J. C4. 5: programs for machine learning. Mach. Learn. 1993 Jan;16(3):235-40.
.[5] Schölkopf B, Smola AJ, Bach F. Learning with kernels: support vector machines, regularization, optimization, and beyond. MIT press; 2002
.[6] Hawkins S, He H, Williams G, Baxter R. Outlier detection using replicator neural networks. InInternational Conference on Data Warehousing and Knowledge Discovery 2002 Sep 4 (pp. 170-180). Springer, Berlin, Heidelberg.
.[7] Goldstein M, Uchida S. A comparative evaluation of unsupervised anomaly detection algorithms for multivariate data. PloS one. 2016 Apr 19;11(4):e0152173.
.[8] Pourhabibi T, Ong KL, Kam BH, Boo YL. Fraud detection: A systematic literature review of graph-based anomaly detection approaches. Decision Support Systems. 2020 Jun 1;133:113303.