مقاله «A Comparative Evaluation of Unsupervised Anomaly Detection Algorithms for Multivariate Data» نوشته مارکوس گلدشتاین و سیچی اوچیدا است. این مطالعه میخواهد به مسئله کمبود مطالعات مقایسهای و مجموعه دادههای دردسترس عموم درزمینه تشخیص ناهنجاری بدون نظارت رسیدگی کند. با توجه به اینکه این مقاله ارزیابی جامعی ارائه میکند و کد منبع و مجموعه دادهها را دردسترس عموم قرار میدهد، درزمینه انتخاب الگوریتم برای کاربردهای واقعی، منبع ارزشمندی برای پژوهشگران و فعالان به شمار میآید.
تشخیص ناهنجاری در حوزههای گوناگون از جمله تشخیص نفوذ به شبکه، تشخیص تقلب و تشخیص پزشکی، مقولهای حیاتی است. با وجود توسعه الگوریتمهای بیشمار، کمبود ارزیابی مقایسهای جامع و مجموعه دادههای مشترک، سد راه پیشرفت در این حوزه شده است. این مطالعه الگوریتمها را به تکنیکهای مبتنیبر نزدیکترین همسایه، مبتنیبر خوشهبندی، آماری و زیرفضا طبقهبندی میکند و آنها را با توجه به عملکرد، تلاش رایانشی مورد نیاز، تنظیمات پارامترها و تواناییشان در شناسایی ناهنجاریهای جهانی دربرابر محلی ارزیابی میکند.
این ارزیابی نشان میدهد که الگوریتمهای مختلف در مجموعه دادههای متفاوت، عملکردهای بسیار متفاوتی دارند که اهمیت انتخاب الگوریتم برمبنای ویژگیهای مجموعه داده و حیطه کاربرد را برجسته میسازد. علاوهبر این، عملکرد الگوریتمها در تشخیص را با بهرهوری رایانشی آنها مقایسه میکند و بدین ترتیب بینشهایی را درباره کاربرد عملی الگوریتمها ارائه میدهد.
مجموعه دادههای مورد استفاده در این مطالعه طیف گستردهای از اندازهها، ابعاد و درصدهای ناهنجاری را دربرمیگیرند. این مقاله توصیفی مفصل از مجموعه دادهها، از جمله گامهای پیشپردازشی که برداشته شده، ارائه میدهد تا اطمینان حاصل کند که قابلیت مقایسه الگوریتمها وجود خواهد داشت. مجموعه دادههای این مطالعه از جمله شامل تصاویر پزشکی، ارقام دستنویس، نامهها، دادههای گفتار و رصدهای ماهوارهای میشوند.
منبع: