مستر کد
mrcode.wikibix.ir

آموزش متن کاوی با پایتون

نویسنده : علی بجنوردی | زمان انتشار : 23 اسفند 1400 ساعت 19:51

جهت انجام پروژه های دانشجویی و یا تمرین‌های برنامه نویسی رشته کامپیوتر میتوانید به آی دی تلگرام زیر پیام دهید

@AlirezaSepand



متن کاوی با پایتون Python یکی از روش های رایج برای استخراج داده ها از متون مختلف می باشد. متن کاوی به معنای استخراج داده ها از دل متن هاست که می توان به کمک آن ها اطلاعات مفید و کاربردی را در مورد آنها برای مقاصد مختلف بدست آورد.

امروزه علوم داده به یکی از جذاب ترین و پرطرفدارین تخصص ها و مشاغل در ایران و دنیا تبدیل شده است. اما برای تبدیل شدن به یک متخصص علوم داده، تسلط بر مفاهیم و تکنیک های داده کاوی های معمول و شناخته شده (یا همان کاوش دیتای ساختار یافته (Structured Data)) کافی نیست و تسلط به تحلیل داده های بدون ساختار (Unstructured Data) امری ضروری محسوب می‌شود که منظور از داده های بدون ساختار، همان داده های متن (Text) و تصویر می باشد.

طبق آمار، بیش از 80% دیتای تولید شده در دنیا در دسته بدون ساختار قرار می‌گیرند و این میزان به صورت نمادی در حال افزایش است. جالب است بدانید که 40% از مدیران کسب و کارها در کشورهای پیشرفته از داشتن حجم بسیار زیاد دیتای متن آنالیز نشده شکایت دارند اما با پیشرفت تکنولوژی و توسعه هوش مصنوعی، بسترهای تجزیه و تحلیل دیتای متن و تصویر نیز شکل گرفتند و از دل متون‌ سنگین و نامنظم به کمک یادگیری ماشین (Machine learning)، می توان الگوهای پنهان را کشف کرد و به مدیران در تصمیم گیری، طراحی راهبرد و پیاده سازی آن، کمک فراوانی کرد.

با کمک متن کاوی با پایتون و پردازش زبان طبیعی می‌توان :

  • از انواع منابع متن (کتاب، روزنامه، فایل pdf، فایل word، صفحات وب و …) اطلاعات کلیدی و مهم استخراج کرد.
  • نظرات، کامنت ها و گفته های مردم را تحلیل کرد.
  • گزارشات و اسناد را طبقه بندی نمود.
  • گزارشات و اسناد را خوشه بندی نمود.
  • از دل منبع اطلاعات متنی، ابر واژگان ساخت.
  • یک سیستم ترجمه (برای تمام زبان‌های دنیا) ساخت.
  • صوت را به متن تبدیل کرد.
  • متن را به یک فایل صوتی (با فرمت .mp3) تبدیل کرد.
  • متن را به ویژگی تبدیل کرد (برا خوشه بندی و طبقه بندی متن مورد استفاده قرار می‌گیرد.)
  • و …

در این دوره چه مباحثی آموزش داده شده است؟

ما در این دوره به طور جامع به آموزش متن کاوی با پایتون Python خواهیم پرداخت. با اطمینان می‌‌توان گفت که در اکثر فرصت های شغلی‌ علوم داده (Data science) در تمام دنیا، تسلط به داده کاوی و متن کاوی با پایتون امری ضروری می باشد و امتیاز بسیار زیادی در جذب و استخدام افراد دارد.

سرفصل های دوره آموزش متن کاوی با پایتون

فصل 1- معرفی و مرور مبانی داده کاوی با پایتون

  • معرفی دوره
  • دانلود و نصب Jupyter notebook + نصب ابزار متن کاوی
  • مبانی برنامه نویسی پایتون با تمرکز بر داده کاوی
  • کار با کتابخانه Numpy
  • کار با کتابخانه Pandas

فصل 2- استخراج متن از منابع مختلف

  • استخراج متن از کتاب
  • استراج متن از فایل word
  • استخراج متن از فایل PDF
  • استخراج متن از صفحه وب
  • استخراج شناسه ایمیل از متن
  • جایگزین کردن شناسه‌های ایمیل در متن
  • مدیریت دیتای رشته در متن
  • استخراج متن ازفایل Json

فصل 3- پیش پردازش متن

  • تبدیل متن به Lowercase (کوچک کردن حروف واژه)
  • Tokenization (جداسازی واژگان و جملات در متن)
  • حذف Punctuation (نقطه گذاری)
  • حذف Stop word ها (واژگان پر تکرار و بی‌اهمیت)
  • استاندارد سازی متن (Text standardization)
  • Stemming (حذف صرف فعل)
  • Lemmatizing (تبدیل جمع به مفرد)
  • تصحیح غلط نوشتاری
  • محاسبه فراوانی لغات
  • ساخت ابر واژگان

فصل 4- تبدیل متن به ویژگی

  • تبدیل متن به ویژگی با استفاده کد گذاری (Encoding)
  • تبدیل متن به ویژگی با استفاده بردار شمارش (Count Vectorizing)
  • تبدیل متن به ویژگی با استفاده از N-Grams
  • ویژگی‌های مبتنی بر بایگرام یک فایل متن
  • مهندسی ویژگی با TF-IDF

فصل 5- پردازش زبان طبیعی پیشرفته

  • استخراج عبارت اسمی از متن
  • شباهت سنجی میان متن‌ها (Text similarity)
  • برچسب گذاری نقش گرامری واژه (اسم، فعل، صفت و …) با POS Tagging
  • استخراج اسامی خاص از متن (دانشگاه، استان، شخص و …)
  • تحلیل احساسات + مثال (Sentiment Analysis)
  • تشخیص معنی واژه در جملات مختلف
  • ساخت سیستم ترجمه
  • تبدیل صوت به متن
  • تبدل متن به صوت (یک فایل MP3)

فصل 6- پروژه‌های کسب و کار

  • طبقه بندی متن پیامک‌ها و شناسایی  علل اسپم بودن آن‌ها
  • ساخت سیستم طبقه بندی شکایات مصرف کنندگان
  • پروژه تحلیل احساسات مشتریان یک شرکت بزرگ
  • خلاصه سازی متن یک صفحه وب
  • خلاصه سازی متن یک کتاب
  • پروژه خوشه بندی متن اسناد (Document Clustering)

حاصل دوره

  • در صورت تسلط به داده کاوی با پایتون و یادگیری مفاهیم این دوره، میتو‌ایند به عنوان یک متخصص علوم داده در شرکت های مشغول به کار شوید.
  • داده های کیفی را با کمک یادگیری ماشین تحلیل کنید.
  • از کاربردهای پردازش زبان طبیعی در تسهیل پروژه‌های خود استفاده کنید.
  • تسلط به متن کاوی و پردازش زبان طبیعی با پایتون در مهاجرت تحصیلی و کاری شما می تواند بسیار مؤثر باشد.

توجه : با هدف یادگیری کامل و تسلط به مباحث دوره، در صورت داشتن هر گونه سؤال، راهنمایی و نیاز به توضیحات بیشتر در خصوص فرآیندها و عملگرهای آموزش، دانشجویان محترم می توانند با ارسال تیکت از طریق بخش حساب کاربری و تیکت پشتیبانی با بنده در ارتباط باشند.


منبع: danup.ir