مقاله «Outlier Detection Using Replicator Neural Networks» که در سپتامبر 2002 به همایش بینالمللی انبارداری داده و کشف دانش (International Conference on Data Warehousing and Knowledge Discovery) ارائه شده به چالش شناسایی دادههای پرت در پایگاههای داده بزرگ چند متغیره میپردازد. تشخیص دادههای پرت در استخراج داده برای کارهایی مثل پاکسازی دادهها و تشخیص تقلب حیاتی است. شیوههای مرسوم مثل رویکردهای آماری و شیوههای مبتنیبر فاصله، محدودیتهایی مثل نیاز به فرضهای توزیعی یا انتخاب سنجههای فاصله دارند.
نویسندگان در این مقاله رویکرد بدیعی را برای اندازهگیری پرتبودن رکوردهای داده با استفاده از شبکههای عصبی همسانساز (Replicator Neural Networks) یا RNN پیشنهاد میدهند. اینها شبکههای پرسپترون چند لایهای هستند که در آنها متغیرهای ورودی هم نقش ورودی و هم خروجی را ایفا میکنند. این معماری منحصربهفرد به شبکه این امکان را میدهد که مدلی فشرده از دادهها تشکیل دهد. بعد از آموزش شبکه عصبی همسانساز میزان پرتبودن نقاط داده با خطای بازسازی آنها اندازهگیری میشود.
در این مقاله، اثربخشی شبکههای عصبی همسانساز در تشخیص دادههای پرت از طریق آزمایش روی دو مجموعه داده دردسترس عموم ثابت میشود. روش RNN در آزمایش مربوط به مجموعه داده تشخیص نفوذ به شبکه، با موفقیت، نفوذها را داده پرت تشخیص میدهد. این روش در آزمایش مجموعه داده سرطان پستان ویسکانسین نیز با موفقیت، موارد بدخیم را داده پرت شناسایی میکند و 77 درصد همه موارد بدخیم در 40 مورد ابتدای فهرست دادههای پرت وجود دارند.
این مطالعه در پایان نتیجهگیری میکند که رویکرد RNN روش قدرتمند و موثری برای تشخیص دادههای پرت است. رویکرد پیشنهادی با بهرهگیری از قابلیتهای فشردهسازی و بازسازی دادهها در شبکههای عصبی همسانساز روش بدیعی را برای اندازهگیری پرتبودن بدون نیاز به فرضهای توزیعی دقیق یا سنجههای فاصله از پیش تعریفشده ارائه میدهد. نتایج آزمایشها نیز اثربخشی این شیوه در شناسایی دادههای پرت در مجموعه دادههای متفاوت را ثابت میکنند.
منبع: