Search
Close this search box.
عنوان مقاله:

Outlier Detection Using Replicator Neural Networks

نیلوفر حق جو، کارشناس راهکارهای کشف تقلب داتین در مقاله‌ای تحت عنوان «راهکارهای تشخیص تقلب» که در شماره اول فصلنامه فناوری‌های مالی منتشر شده از مقاله «Outlier Detection Using Replicator Neural Networks» استفاده کرده است.

مقاله «Outlier Detection Using Replicator Neural Networks» که در سپتامبر 2002 به همایش بین‌المللی انبارداری داده و کشف دانش (International Conference on Data Warehousing and Knowledge Discovery) ارائه شده به چالش شناسایی داده‌های پرت در پایگاه‌های داده بزرگ چند متغیره می‌پردازد. تشخیص داده‌های پرت در استخراج داده برای کارهایی مثل پاکسازی داده‌ها و تشخیص تقلب حیاتی است. شیوه‌های مرسوم مثل رویکردهای آماری و شیوه‌های مبتنی‌بر فاصله، محدودیت‌هایی مثل نیاز به فرض‌های توزیعی یا انتخاب سنجه‌های فاصله دارند.

نویسندگان در این مقاله رویکرد بدیعی را برای اندازه‌گیری پرت‌بودن رکوردهای داده با استفاده از شبکه‌های عصبی همسان‌ساز (Replicator Neural Networks) یا RNN پیشنهاد می‌دهند. این‌ها شبکه‌های پرسپترون چند لایه‌ای هستند که در آنها متغیرهای ورودی هم نقش ورودی و هم خروجی را ایفا می‌کنند. این معماری منحصربه‌فرد به شبکه این امکان را می‌دهد که مدلی فشرده از داده‌ها تشکیل دهد. بعد از آموزش شبکه عصبی همسان‌ساز میزان پرت‌بودن نقاط داده با خطای بازسازی آنها اندازه‌گیری می‌شود.

در این مقاله، اثربخشی شبکه‌های عصبی همسان‌ساز در تشخیص داده‌های پرت از طریق آزمایش روی دو مجموعه داده دردسترس عموم ثابت می‌شود. روش RNN در آزمایش مربوط به مجموعه داده تشخیص نفوذ به شبکه، با موفقیت، نفوذها را داده پرت تشخیص می‌دهد. این روش در آزمایش مجموعه داده سرطان پستان ویسکانسین نیز با موفقیت، موارد بدخیم را داده پرت شناسایی می‌کند و 77 درصد همه موارد بدخیم در 40 مورد ابتدای فهرست داده‌های پرت وجود دارند.

این مطالعه در پایان نتیجه‌گیری می‌کند که رویکرد RNN روش قدرتمند و موثری برای تشخیص داده‌های پرت است. رویکرد پیشنهادی با بهره‌گیری از قابلیت‌های فشرده‌سازی و بازسازی داده‌ها در شبکه‌های عصبی همسان‌ساز روش بدیعی را برای اندازه‌گیری پرت‌بودن بدون نیاز به فرض‌های توزیعی دقیق یا سنجه‌های فاصله از پیش ‌تعریف‌شده ارائه می‌دهد. نتایج آزمایش‌ها نیز اثربخشی این شیوه در شناسایی داده‌های پرت در مجموعه داده‌های متفاوت را ثابت می‌کنند.

منبع:

link.springer.com

نوشته شده توسط:
سایمون هاوکینز، روهان بکستر

سایمون هاوکینز نویسنده مقاله دیگری هم در این زمینه با عنوان «بهینه‌سازی سنجه فاصله در الگوریتم نزدیک‌ترین همسایه در یک مسئله واقعی دسته‌بندی بیمار» (Optimising the Distance Metric in the Nearest Neighbour Algorithm on a Real-World Patient Classification Problem) است.

روهان بکستر که به مقوله‌های استخراج داده و یادگیری ماشین علاقه‌مند است و اکنون در اداره مالیات استرالیا کار می‌کند، مقاله‌هایی مثل «مطالعه‌ای مقایسه‌ای درباره استفاده از RNN برای تشخیص داده‌های پرت در استخراج داده‌ها» (A comparative study of RNN for outlier detection in data mining) و «یادگیری بدون نظارت با استفاده از MML» (Unsupervised learning using MML) را به نگارش درآورده است.