متن کاوی یا text mining یکی از روش های آنالیز داده های متنی است که می توان به کمک آن و از طریق تشخیص و نمایش الگوها اطلاعات مفیدی را از داده های متنی ساخت نیافته بدست آورد. به عبارت دیگر می توان گفت متن کاوی روشی برای استخراج دانش از متن های مختلف است.
منظور از داده، تنها داده های ساختار یافته و عدد نیست (مثل مقادیر در یک دیتاست اکسل)، بلکه کلمات، عبارات و جملات، تصاویر، صوت و ویدیو نیز داده محسوب می شوند. یعنی در زیر مجموعه تخصص علوم داده علاوه بر داده کاوی، متن کاوی (Text mining)، تصویر کاوی (Image mining) و پردازش صوت (Audio Processing) نیز در بر گرفته می شود.
برای درک بهتر نحوه عملکرد متن کاوی یا وب کاوی می توانید وبسایت Google news را در نظر بگیرید که اخبار دست اول را به طور مرتب و روزانه از منابع مختلف جمع آوری می کند و بعد از دسته بندی دقیق، آنها را به کاربر نمایش می دهد. گوگل در این سرویس به کمک متن کاوی می تواند به راحتی تفاوت خبرهای ورزشی و سیاسی و اجتماعی را تشخیص دهد و حتی میزان اهمیت آنها را مشخص کند !
در واقع در این سرویس دسته بندی اخبار پس از پردازش و آنالیز دقیق متون اخبار مختلف توسط الگوریتم های مبتنی بر متن مشخص می شود و سپس به کمک الگوریتم های آنالیز متن و آنالیز گراف میزان اهمیت هر یک از این خبرها مشخص می شود !
بنابراین متن کاوی همان داده کاوی بر روی دیتای متن و نوشته است. از منابع دیتای متن می توان به فایل notepad، PDF، Word، متون مقالات، گزارشات وب سایتهای مختلف، کامنتهای مردم در شبکههای اجتماعی (توییتر، اینستاگرام و …)، خوشه بندی متون اسناد و مدارک (Document Clustering)، طبقه بندی متون (Document Classification)، خلاصه سازی متون (Text Summarization) و تحلیل احساسات مشتریان و کاربران (Sentiment Analysis)، نمونه کاربردهای سازمانی text mining محسوب میشوند.
در این دوره چه مباحثی آموزش داده شده است؟
نرم افزار رپیدماینر (RapidMiner) به دلیل سادگی و لذتبخش بودن فرآیند داده کاوی با آن بدون نیاز به دانش برنامه نویسی، یکی از محبوبترین و پرطرفدارترین نرمافزارهای داده کاوی محسوب میشود. ما در این دوره آموزشی به صورت گام به گام و پروژه محور، text mining با رپیدمانیر را به شما عزیزان آموزش خواهیم داد. همچنین دانشجویان دوره میتوانند از دیتاست ها و فایل های پروژه که به صورت آماده در اختیارشان قرار داده خواهد شد، استفاده کنند.
توجه : نسخه حرفه ای و کرک شده نرم افزار rapidminer نیز برای دانلود و نصب در اختیارتان قرار داده شده است. پس از دانلود و نصب نرم افزار، ذر پوشه crack، فایل readme را مطالعه کنید.
سرفصل های دوره آموزش متن کاوی و وب کاوی با رپیدماینر
- معرفی دوره
- منابع دیتاستهای متن
- مفاهیم پیش پردازش متن
- دانلود و نصب فایلهای متن کاوی و وب کاوی در رپیدماینر
- شناسایی و طبقه بندی پیامکهای اسپم
- ساخت سیستم طبقه بندی متون اخبار براساس نوع زبان
- تحلیل اطلاعات دانشگاههای ایران (سراسری، آزاد و پیام نور) در سطح وب (وب کاوی)
- ارزیابی شباهت محتوای سایتهای شرکتهای پتروشیمی (وب کاوی)
- تحلیل نظرات/ پیشنهادات مشتریان هتلهای مختلف (Text association mining)
- خوشه بندی هتلها براساس نظرات / پیشنهاد مشتریان
- خوشه بندی اسناد و مدارک (در اینجا رزومههای کاری)
- انتخاب بهترین رزومه فرصت شغلی ” متخصص علوم داده” با استفاده از متن کاوی
آیا این دوره آموزشی پیش نیاز دارد؟
بله دانشجویان عزیز قبل از گذراندن این دوره باید دوره آموزش داده کاوی با رپیدماینر را که لینک آن در انتهای توضیحات می باشد گذرانده باشند.
حاصل دوره
- دستیابی به توانایی پردازش دادههای فایل PDF و Word
- دستیابی به تخصص متن کاوی و وب کاوی در تحلیل دیتا
- پیشرفت شغلی در حوزه علوم داده
- انجام پایان نامه با محوریت “متن کاوی” یا “وب کاوی”
توجه : با هدف یادگیری کامل و تسلط به مباحث دوره، در صورت داشتن هر گونه سؤال، راهنمایی و نیاز به توضیحات بیشتر در خصوص فرآیندها و عملگرهای آموزش، دانشجویان محترم می توانند با ارسال تیکت از طریق بخش حساب کاربری و تیکت پشتیبانی با بنده در ارتباط باشند.