آموزش متن کاوی با پایتون
نویسنده : علی بجنوردی | زمان انتشار : 23 اسفند 1400 ساعت 19:51
جهت انجام پروژه های دانشجویی و یا تمرینهای برنامه نویسی رشته کامپیوتر میتوانید به آی دی تلگرام زیر پیام دهید
@AlirezaSepand
متن کاوی با پایتون Python یکی از روش های رایج برای استخراج داده ها از متون مختلف می باشد. متن کاوی به معنای استخراج داده ها از دل متن هاست که می توان به کمک آن ها اطلاعات مفید و کاربردی را در مورد آنها برای مقاصد مختلف بدست آورد.
امروزه علوم داده به یکی از جذاب ترین و پرطرفدارین تخصص ها و مشاغل در ایران و دنیا تبدیل شده است. اما برای تبدیل شدن به یک متخصص علوم داده، تسلط بر مفاهیم و تکنیک های داده کاوی های معمول و شناخته شده (یا همان کاوش دیتای ساختار یافته (Structured Data)) کافی نیست و تسلط به تحلیل داده های بدون ساختار (Unstructured Data) امری ضروری محسوب میشود که منظور از داده های بدون ساختار، همان داده های متن (Text) و تصویر می باشد.
طبق آمار، بیش از 80% دیتای تولید شده در دنیا در دسته بدون ساختار قرار میگیرند و این میزان به صورت نمادی در حال افزایش است. جالب است بدانید که 40% از مدیران کسب و کارها در کشورهای پیشرفته از داشتن حجم بسیار زیاد دیتای متن آنالیز نشده شکایت دارند اما با پیشرفت تکنولوژی و توسعه هوش مصنوعی، بسترهای تجزیه و تحلیل دیتای متن و تصویر نیز شکل گرفتند و از دل متون سنگین و نامنظم به کمک یادگیری ماشین (Machine learning)، می توان الگوهای پنهان را کشف کرد و به مدیران در تصمیم گیری، طراحی راهبرد و پیاده سازی آن، کمک فراوانی کرد.
با کمک متن کاوی با پایتون و پردازش زبان طبیعی میتوان :
- از انواع منابع متن (کتاب، روزنامه، فایل pdf، فایل word، صفحات وب و …) اطلاعات کلیدی و مهم استخراج کرد.
- نظرات، کامنت ها و گفته های مردم را تحلیل کرد.
- گزارشات و اسناد را طبقه بندی نمود.
- گزارشات و اسناد را خوشه بندی نمود.
- از دل منبع اطلاعات متنی، ابر واژگان ساخت.
- یک سیستم ترجمه (برای تمام زبانهای دنیا) ساخت.
- صوت را به متن تبدیل کرد.
- متن را به یک فایل صوتی (با فرمت .mp3) تبدیل کرد.
- متن را به ویژگی تبدیل کرد (برا خوشه بندی و طبقه بندی متن مورد استفاده قرار میگیرد.)
- و …
در این دوره چه مباحثی آموزش داده شده است؟
ما در این دوره به طور جامع به آموزش متن کاوی با پایتون Python خواهیم پرداخت. با اطمینان میتوان گفت که در اکثر فرصت های شغلی علوم داده (Data science) در تمام دنیا، تسلط به داده کاوی و متن کاوی با پایتون امری ضروری می باشد و امتیاز بسیار زیادی در جذب و استخدام افراد دارد.
سرفصل های دوره آموزش متن کاوی با پایتون
فصل 1- معرفی و مرور مبانی داده کاوی با پایتون
- معرفی دوره
- دانلود و نصب Jupyter notebook + نصب ابزار متن کاوی
- مبانی برنامه نویسی پایتون با تمرکز بر داده کاوی
- کار با کتابخانه Numpy
- کار با کتابخانه Pandas
فصل 2- استخراج متن از منابع مختلف
- استخراج متن از کتاب
- استراج متن از فایل word
- استخراج متن از فایل PDF
- استخراج متن از صفحه وب
- استخراج شناسه ایمیل از متن
- جایگزین کردن شناسههای ایمیل در متن
- مدیریت دیتای رشته در متن
- استخراج متن ازفایل Json
فصل 3- پیش پردازش متن
- تبدیل متن به Lowercase (کوچک کردن حروف واژه)
- Tokenization (جداسازی واژگان و جملات در متن)
- حذف Punctuation (نقطه گذاری)
- حذف Stop word ها (واژگان پر تکرار و بیاهمیت)
- استاندارد سازی متن (Text standardization)
- Stemming (حذف صرف فعل)
- Lemmatizing (تبدیل جمع به مفرد)
- تصحیح غلط نوشتاری
- محاسبه فراوانی لغات
- ساخت ابر واژگان
فصل 4- تبدیل متن به ویژگی
- تبدیل متن به ویژگی با استفاده کد گذاری (Encoding)
- تبدیل متن به ویژگی با استفاده بردار شمارش (Count Vectorizing)
- تبدیل متن به ویژگی با استفاده از N-Grams
- ویژگیهای مبتنی بر بایگرام یک فایل متن
- مهندسی ویژگی با TF-IDF
فصل 5- پردازش زبان طبیعی پیشرفته
- استخراج عبارت اسمی از متن
- شباهت سنجی میان متنها (Text similarity)
- برچسب گذاری نقش گرامری واژه (اسم، فعل، صفت و …) با POS Tagging
- استخراج اسامی خاص از متن (دانشگاه، استان، شخص و …)
- تحلیل احساسات + مثال (Sentiment Analysis)
- تشخیص معنی واژه در جملات مختلف
- ساخت سیستم ترجمه
- تبدیل صوت به متن
- تبدل متن به صوت (یک فایل MP3)
فصل 6- پروژههای کسب و کار
- طبقه بندی متن پیامکها و شناسایی علل اسپم بودن آنها
- ساخت سیستم طبقه بندی شکایات مصرف کنندگان
- پروژه تحلیل احساسات مشتریان یک شرکت بزرگ
- خلاصه سازی متن یک صفحه وب
- خلاصه سازی متن یک کتاب
- پروژه خوشه بندی متن اسناد (Document Clustering)
حاصل دوره
- در صورت تسلط به داده کاوی با پایتون و یادگیری مفاهیم این دوره، میتوایند به عنوان یک متخصص علوم داده در شرکت های مشغول به کار شوید.
- داده های کیفی را با کمک یادگیری ماشین تحلیل کنید.
- از کاربردهای پردازش زبان طبیعی در تسهیل پروژههای خود استفاده کنید.
- تسلط به متن کاوی و پردازش زبان طبیعی با پایتون در مهاجرت تحصیلی و کاری شما می تواند بسیار مؤثر باشد.
توجه : با هدف یادگیری کامل و تسلط به مباحث دوره، در صورت داشتن هر گونه سؤال، راهنمایی و نیاز به توضیحات بیشتر در خصوص فرآیندها و عملگرهای آموزش، دانشجویان محترم می توانند با ارسال تیکت از طریق بخش حساب کاربری و تیکت پشتیبانی با بنده در ارتباط باشند.
منبع: danup.ir