داده کاوی یا Data Mining چیست؟
داده کاوی (Data Mining) فرایندی است که طی آن الگوهای مفید و غیربدیهی موجود در دیتاستهای بزرگ از طریق روشهای خودکار یا نیمه خودکار اکتشاف میشود.
با توجه به اینکه روشهای سنتی و دستی در آنالیز و تحلیل حجم عظیمی از دادهها دارای کارایی مناسبی نیستند ضروری است از ابزارهایی استفاده شود که قادر است در مقیاس بالایی از دادهها عملکردی مناسب، قابل اتکا و سریع داشته باشند. داده کاوی این ابزارها را فراهم میآورد.
ابزارهای داده کاوی
دادهکاوی شامل ابزارهای مختلفی است که از مهمترین آنها میتوان به موارد زیر اشاره نمود:
- تشخیص دادههای پرت (Outlier یا Anomaly): شناسایی دادههای اندکی که نسبت به سایر دادهها غیرعادی به نظر میرسند.
- تشخیص قواعد وابستگی (Association Rules): شناسایی روابط و وابستگیهای میان آیتمها.
- خوشه بندی (Clustering): شناسایی و گروه بندی رکوردهای دادهای که به یکدیگر شباهت بیشتری دارند.
- دسته بندی (Classification): شناسایی دستهای که دادهی جدید به آن تعلق دارد.
- خلاصه سازی دادهها: مصورسازی، گزارش گیری
- …
لازم به ذکر است دادهکاوی بخش تحلیلی یک فرایند گستردهتر به نام کشف دانش در پایگاه داده (Knowledge Discovery in Databases یا KDD) به شمار میرود.
نرم افزارهای مختلفی برای داده کاوی عرضه شده است که از مهم ترین آنها میتوان به Weka, Orange, R و RapidMiner اشاره نمود.
پیوندهای پیشنهادی تک دیک
