داده کاوی که با اصلاح “دانش استخراج اطلاعات از درون بانکهای اطلاعاتی” نیز توصیف میشود، فرآیندی است که به واکاوی و تحلیل حجم بسیار زیادی از دادهها و استخراج اطلاعات اشاره دارد. داده کاوی میتواند به سرعت به پرسشهای کسبوکارها پاسخ داده و به میزان قابل ملاحظهای در زمان صرفهجویی کند. از کاربردهای این علم میتوان در ارتباط با تقسیمبندی بازار، شناسایی ویژگیهای یکسان مشتریانی که محصولی را از برند خاصی خریداری کردهاند، شناسایی تقلب، شناسایی الگوهای به کار گرفته شده در معاملات آنلاین و مالی که به منظور شناسایی فریبکاریهای آنلاین و … اشاره کرد. اما برای آنکه بتوانید به استخراج چنین اطلاعاتی بپردازید به ابزارهای مخصوص این کار نیاز دارید. در این مقاله با ده ابزار دادهکاوی آشنایی خواهید شد که ضمن قدرتمند بودن به یک ویژگی شاخص آراسته شدهاند. آنها متنباز هستند.
Weka 3
Wekaابزاری است که به زبان جاوا نوشته شده و به شکل رایگان و متنباز روی پلتفرمهای لینوکس، Mac OS X و ویندوز در اختیار شما قرار دارد. این ابزار شامل مجموعهای از الگوریتمهای یادگیری ماشین برای داده کاوی است. Weka مشتمل بر ابزارهایی است که در زمینه پردازش اطلاعات، طبقهبندی، رگرسیون، خوشهبندی، بررسی قواعد پیوستگی و تجسمسازی دادهها مورد استفاده قرار میگیرد. راهکارهای مختلفی برای بهکارگیری این ابزار وجود دارد که از آن جمله میتوان به Weka Knowledge Explorer، Experimenter، Knowledge Flow و CL اشاره کرد. Explorer یک رابط گرافیکی کاربرپسند است که بصری سازی دو بعدی از دادههای استخراج شده را ارائه میکند. CL بیشتر زمانی به کار گرفته میشود که شما با مجموعهای بزرگ از دادهها سروکار داشته باشید. دقت کنید که Explorer کل مجموعه دادهها را در حافظه اصلی بارگذاری میکند که همین موضوع بر عملکرد تاثیرگذار خواهد بود.
Rapid Miner
Rapid Miner به دو شکل رایگان و تجاری در اختیار متخصصان دادهکاوی قرار دارد. ابزار فوق یک سرویس کاربردی دادهکاوی و یک زیرساخت تحلیلگر و پیشبینی کننده است. گارتنر موسسه پژوهشی معروف این ابزار و Knife را در حوزه دادهکاوی پیشنهاد میکند. Rapid Miner به سازمانها کمک میکند تا تحلیل دقیقی بر فرآیندهای تجاری خود داشته باشند. ابزاری که با ارائه یک رابط کاربرپسند و به پشتوانه کتابخانه غنی فرآیند تحلیل دادهها را با اتکا بر الگوریتمهای یادگیری ماشین به بهترین شکل ممکن انجام میدهد. این ابزار مشابه نمونه قبلی ضمن آنکه قادر است یکسری کارهای عادی در این زمینه را انجام دهد، به ویژگیهای از پیش ساخته شدهای همچون الگوها، جریانهای کاری تکراری، یک محیط بصریسازی حرفهای و ادغام شدن با پایتون که به ساخت نمونهسازی سریع کمک میکند تجهیز شده است.
Orange
کاربران پایتون به شکل گستردهای با علم دادهها سروکار داشته و آشنا هستند. این گروه به خوبی میدانند Orangeچیست و چگونه میتوان از این ابزار در زمینه تحلیل دادهها و دادهکاوی استفاده کرد. این ابزار یک کتابخانه پایتون است که قدرت خود را از اسکریپتهای پایتون گرفته و مجموعهای غنی از الگوریتمهای استخراج، واکاوی و الگوریتمهای یادگیری ماشینی را برای انجام فرآیندهای پیش پردازش دادهها، طبقهبندی، مدلسازی، رگرسیون، خوشهبندی و سایر کارهای دیگر ارائه میکند. این ابزار در کنار یک محیط برنامهنویسی بصری اجازه میدهد بخشی از فرآیند وارد کردن دادهها را با اتکا بر تکنیک کشیدن و رها کردن مدیریت کنید.
Knime
Knimeیک زیرساخت تحلیلگر پیشرو متنباز در زمینه تحلیل، ادغام و گزارشدهی است که به شکل رایگان و تجاری ارائه شده است. این ابزار به زبان جاوا نوشته شده و بر پایه Exlipse پیادهسازی شده است. Knime اجازه میدهد به ابزارهایی همچون Weka یا زبان آر متصل شوید. بررسی انجام شده از سوی گارتنر نشان میدهد مشتریان به واسطه انعطافپذیر بودن، ادغام روان و متنباز بودن از این ابزار راضی بودهاند. این ابزار همچنین به شما اجازه میدهد از طریق بهکارگیری افزونههایی به قابلیتهای بیشتری همچون متنکاوی و عکسکاوی دسترسی پیدا کنید.
DataMelt
DataMeltیا همان DMelt ابزاری است که قابلیتهایی به مراتب فراتر از دادهکاوی ارائه میکند. DataMelt یک زیرساخت محاسباتی که به منظور انجام محاسبات عددی، ارائه آمارها، بصریسازی و البته دادهکاوی مورد استفاده قرار میگیرد. در ارتباط با دادهکاوی این ابزار به خوبی قادر است فرآیند بصریسازی تعاملی و انجام محاسبات تحلیلی را انجام داده و از الگوهای دو بعدی/ سه بعدی و هیستوگرام برای نمایش بهتر نتایج استفاده کند. این ابزار به ویژه برای دانشجویان، مهندسان و دانشمندان علم دادهها گزینه ایدهآلی بوده و به جای ابزارهایی شبیه به jHepWork و SCavis میتوان از آن استفاده کرد.
Apache Mahout
Apache Mahout در اصل یک کتابخانه از الگوریتمهای یادگیری ماشین است که در زمینه خوشهبندی، طبقهبندی و پیدا کردن الگوهای تکراری در دادهها مورد استفاده قرار میگیرد. کتابخانه یاد شده این پتانسیل را دارد تا به ابزارهایی که در زمینه کار با بزرگ دادهها همچون هادوپ مورد استفاده قرار میگیرند متصل شود. توسعهدهندگان توییتر به شکل گسترده از این ابزار استفاده میکنند.
ELKI
ELKIیک نرمافزار متنباز نوشته شده به زبان جاوا است که سه اصل گسترشپذیری، ماژولار بودن و کارایی بالا به شکل جدی در آن مورد توجه قرار گرفتهاند. این نرمافزار تمرکزش روی خوشهبندی و شناسایی دادههای فاقد ارزش است. برای این منظور ELKI از الگوریتمهای مختلفی برای شناسایی دادههای بی اهمیت استفاده میکند.
MOA
اگر به دنبال آن هستید تا حجم گستردهای از استریمهای دادهای بلادرنگ را مورد تحلیل قرار دهید پیشنهاد ما به شما MOAسرنام Massive Online Analysis است. ابزاری که در زمینه کار با دادههای سنگین و گسترده سرعت بالایی دارد. یک الگوریتم واکاوی ایدهآل و خوب در حالت کلی باید محاسبات را با سرعت بالایی انجام داده، مجموعه دادهها را در حافظه ذخیرهسازی نکرده و مهمتر از آن فرآیند محاسباتی را در کوتاهترین زمان ممکن انجام دهند. MOA در ارتباط با مواردی که به آنها اشاره شد ایدهآل است.
KEEL
KEELسرنام Knowledge Extraction for Evolutionary Learning یک ابزار متنباز مبتنی بر جاوا است که به شما اجازه میدهد روی دادههایی با فرمتهای فایلی مختلف مدیریت دقیقی اعمال کرده (وارد و خارج کردن دادهها، ویرایش و تجسمسازی) و دادهها را از طریق بهکارگیری پیشپردازشهایی تحلیل کنید.
Rattle
Rattle بر مبنای زبان آر توسعه پیدا کرده و از زبان برنامهنویسی آماری آر برای انجام محاسبات استفاده میکند. این نرمافزار روی سامانههای عامل مختلفی قابل اجرا بوده و به منظور خوشهبندی، مدلسازی و تجسمسازی دادهها مورد استفاده قرار میگیرد. این ابزار امروزه در سازمانهای تجاری، شرکتهای تجاری و همچنین برای اهداف آموزشی مورد استفاده قرار میگیرد.