کتاب «C4.5: Programs for Machine Learning» نوشته جان راس کوئینلن که در اکتبر ۱۹۹۵ از سوی انتشارات Morgan Kaufmann منتشر شده، کتابی برجسته و تاثیرگذار درزمینه یادگیری ماشین است که بیشتر بهواسطه تشریح مفصل الگوریتم C4.5 شناخته میشود. الگوریتم C4.5 برای ایجاد درخت تصمیم از مجموعهای از دادههای آموزشی در مسائل دستهبندی طراحی شده است. این کتاب همچنین منبع جامعی درزمینه یادگیری درخت تصمیم به شمار میآید.
این کتاب با ارائه مفاهیم بنیادین یادگیری درخت تصمیم شروع میکند، از جمله اینکه به استفاده از آنتروپی اطلاعات و مفهوم بهره اطلاعاتی برای انتخاب ویژگیهایی میپردازد که دادههای آموزشی را به بهترین شکل به زیرمجموعهها تقسیم میکنند. بعد به ویژگیهای الگوریتم C4.5 میپردازد که شامل بهبودهای آن نسبت به نسخه پیشین، ID3، مثل مدیریت ویژگیهای پیوسته و مجزا، مقادیر ویژگیهای جامانده و توانایی استخراج قواعد از درختها برای خوانش و جامعیت بهتر میشود.
کوئینلن توضیح میدهد که C4.5 چطور با تقسیم دامنه مقادیر به بازههای مجزا و استفاده از شیوهای که بهره اطلاعاتی را به حداکثر میرساند، با ویژگیهای پیوسته برخورد میکند. یکی از ویژگیها کلیدی C4.5 شیوه هرس آن است که با حذف شاخههایی که اثر کمی روی دقت دستهبندی میگذارند، درخت را سادهسازی میکند. این فرایند به جلوگیری از بیشبرازش کمک میکند که باعث میشود درخت برای آموزش دادهها بیشازحد خاص شود و قابل تعمیم به موارد جدید نباشد.
این کتاب همچنین درباره تبدیل درختهای تصمیم به قواعد «اگر آنگاه» بحث میکند که گاهی میتواند نمودی فشردهتر و جامعتر از درخت ارائه دهد. C4.5 همچنین شامل سازوکارهایی برای هرس بعدی این قواعد بهمنظور بهبود عملکرد و سادگی آنها میشود. درمجموع «C4.5: Programs for Machine Learning» نه تنها دستورالعملی فنی برای C4.5 است بلکه واکاوی بینشافزایی از اصول و شیوههای استفاده از درخت تصمیم است. این کتاب همچنان مرجعی کلیدی برای درک سیر تکامل الگوریتمهای یادگیری ماشین و کاربردشان در استخراج داده، تشخیص الگو و هوش مصنوعی است.
منبع: