فصل سوم روش پیشنهادی

پیش گفتار
هدف اصلی این نوشتار ارائه مدلی جامع برای اسناد می‌باشد. قصد داریم مجموعه‌ای از خصیصه‌ها را ارائه دهیم و با بهره گرفتن از آنها به مدلی از اسناد دست یابیم. با داشتن مدل مناسب از اسناد دیگر نیازی به استفاده کردن از روش‌های پیچیده انتخاب خصیصه نخواهد بود.
(( اینجا فقط تکه ای از متن درج شده است. برای خرید متن کامل فایل پایان نامه با فرمت ورد می توانید به سایت nefo.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. ))

در این فصل به توضیح و تشریح روش ارائه شده خواهیم پرداخت. با مطالعه و بررسی مقالات و تحقیقات ارائه شده به این نتیجه دست یافتیم که بهتر است برای تحلیل احساس در متن، از مجموعه خصیصه‌هایی استفاده کنیم که قادر باشند بیشترین اطلاعات لازم برای تحلیل احساس را در اختیار الگوریتم طبقه‌بندی اسناد قرار دهند، به این ترتیب می‌توان دقت طبقه‌بندی اسناد را افزایش داد.
هدف این رساله ارائه روشی برای تحلیل احساسات و عقاید موجود در متن می‌باشد. به گونه‌ای که این تحلیلگر اسناد موجود در مجموعه داده‌ها را در دو طبقه، اسناد حاوی نظرات مثبت و اسناد حاوی نظرات منفی دسته بندی ‌کند. اولین مشکلی که برای تحلیل احساس وجود دارد ارائه مدلی کامل و مفید برای اسناد متنی می‌باشد. برای حل این مشکل مجموعه خصیصه‌های متفاوتی مورد بررسی قرار گرفته‌اند و از این میان تلاش شده مناسب‌ترین خصیصه‌ها را انتخاب کنیم.
مشکل دوم در تحلیل احساسات و عقاید تعداد زیاد خصیصه‌ها می‌باشد. این مسئله باعث بروز مشکلاتی دیگری مانند خصیصه‌های افزونه و خصیصه‌های غیر مرتبط می‌شود. لذا باید برای انتخاب کردن خصیصه‌های سودمند از میان هزاران خصیصه راهی اندیشیده شود. روشی که اینجا ارائه شده است فیلتر کردن خصیصه‌ها در چند مرحله است. در ابتدا با بهره گرفتن از Wordnet و Sentiwordnet خصیصه‌ها را فیلتر می‌کنیم، به این ترتیب تعداد خصیصه‌ها کاهش می‌یابد. در مرحله بعد از الگوریتم انتخاب خصیصه ساده و با حداقل پیچیدگی زمانی استفاده می‌کنیم.
یکی از ویژگی‌های ذاتی خصیصه‌های N-gram پراکندگی آنها است. پراکندگی باعث افزایش تعداد خصیصه‌ها همچنین کاهش اثرگذاری خصیصه‌های bigram و trigram می‌شود.

منابع مورد نیاز
برای پیاده سازی روش پیشنهادی به منابع داده‌ای و نرم افزاری نیاز خواهیم داشت. در این رساله برای آزمودن پایداری روش پیشنهادی از چهار مجموعه داده[۲۰] استفاده شده است.
مجموعه داده بازبینی فیلم‌ها یکی از معروفترین مجموعه داده‌ها است که در سال ۲۰۰۲ توسط pang و همکارانش ارائه شده است [۴]. این مجموعه حاوی ۲۰۰۰ سند بازبینی استخراج شده از سایت IMDB است. این اسناد در دو گروه نظرات مثبت و نظرات منفی دسته بندی شده‌اند. ۱۰۰۰سند حاوی نظرات مثبت درباره فیلم‌ها می‌باشد و ۱۰۰۰ سند نیز حاوی نظرات منفی کاربران می‌باشند، لذا می‌توان برای طبقه‌بندی اسناد، مبتنی بر ناظر از آنها استفاده کرد.
مجموعه داده‌هایی از بازبینی‌های کاربران در سایت آمازون جمع آوری شده است[۱۳]. این مجموعه داده حاوی نظرات کاربران درباره کالاهای متفاوت آمازون است. از این داده‌ها، سه مجموعه داده بازبینی کالاهای الکترونیکی،dvd و کتاب را برای تست و ارزیابی عملکرد روش پیشنهادی انتخاب کرده‌ایم. این مجموعه داده‌ها هر کدام شامل ۲۰۰۰ سند بازبینی می‌باشد. این اسناد مانند مجموعه داده بازبینی فیلم‌ها در دو گروه اسناد مثبت و منفی دسته بندی شده‌اند.
در خلال پیاده‌سازی نیاز خواهیم داشت نقش ادات سخن[۲۱] هر کلمه را در جمله داشته باشیم لذا برای دست یافتن به این هدف از کتابخانه جاوا دانشگاه استنفورد[۲۲] که توسط تیم پردازش زبان طبیعی این دانشگاه تهیه شده است استفاده کردیم.
برای یافتن معادل‌های معنایی کلمات[۲۳] به Wordnet[24] و کتابخانه ای جاوا JWNL[25] نیاز خواهیم داشت. در این رساله از Sentiwordnet[26] نیز استفادده می‌کنیم. Sentiwordnet نسخه ای از wordnet است، که در آن علاوه بر اطلاعات Wordnet، به هر کلمه یک وزن مثبت و یک وزن منفی داده می‌شود. مجموع وزن مثبت و وزن منفی یک کلمه را پلاریته کلمه گویند(شکل ۳-۱) [۹].
برای طبقه‌بندی اسناد از نرم افزار weka 3.6 استفاده می‌کنیم.
شکل ۳-۱ Sentiwordnet برای هر کلمه یک وزن مثبت و منفی تخصیص می‌دهد. مجموع این وزن را پلاریته کلمه گویند.
در ادامه روش‌های پیشنهادی و مراحل هر کدام از آنها را بیان خواهیم کرد. روش پیشنهادی اول دارای مشکلاتی است که با حل کردن آنها به روش‌های دوم و سوم دست می‌یابیم که دقت عملکرد بهتری نسبت به روش اول را دارند. در پایان نیز روش پیشنهادی اول را به مجموعه داده زبان فارسی اعمال می کنیم.
روش پیشنهادی اول
در روش پیشنهادی اول قصد داریم مجموعه مفیدی از خصیصه را ارائه دهیم. کارهای و تحقیقات قبلی که به منظور تحلیل احساس در متن به انجام رسیده‌اند نشان داده‌اند که بکار گرفتن ترکیبی از خصیصه‌ها همواره با بهبود دقت طبقه‌بندی همراه خواهد بود. مدلسازی اسناد با بهره گرفتن از ترکیب خصیصه ها باعث افزایش قابل توجه تعداد خصیصه‌ها خواهد شد این خود مشکلی بر سر راه ترکیب خصیصه‌ها است. در این رساله پیشنهاد شده است با بهره گرفتن از فیلترینگ چند مرحله از این مشکل رها شویم.
شکل ۳-۲ نمای کلی روش پیشنهادی اول را نشان می‌دهد.
در ابتدا مجموعه‌ای از اسناد را درون یک پایگاه داده داریم. اسناد خوانده شده و پیش پردازش‌هایی بر روی آنها انجام می‌شود. پیش پردازش، متن را برای مراحل بعدی آماده خواهد کرد. پس از آن برچسب گذاری ادات سخن با بکارگیری کتابخانه جاوا استنفورد انجام می‌شود. حال نقش هر کلمه مشخص شده است و می‌توان پلاریته آن را از Setniwordnet استخراج کرد. مرحله بعد خصیصه‌های مورد نیاز را استخراج می‌کنیم. فیلترهای اولیه را بر روی بردار خصیصه‌ها اعمال می‌کنیم، و در پایان فایل ساختار یافته از بردار خصیصه‌ها را با بهره گرفتن از WEKA طبقه‌بندی می‌کنیم.
شکل ۳-۲ شمای کلی روش پیشنهادی اول
پیش پردازش اسناد
هر سند حاوی متون بازبینی، نظرات، احساسات و عقاید کاربران است. همه متن این اسناد در تحلیل احساس مفید واقع نخواهد شد. همچنین قالب و فرمت متن باید به گونه‌ای تغییر یابد تا علاوه براینکه بتواند مدل مناسبی از اسناد را ارائه دهد، به قالب ساده و مناسب برای پردازش در مراحل بعدی تبدیل شود. شکل ۳-۳ شمای کلی پیش پردازش را نشان می‌دهد.
شکل ۳-۳ شمای پیش پردازش اسناد
ورودی این مرحله، مجموعه‌ای از اسناد متنی، حاوی نظرات، احساسات و عقاید کاربران است. در مرحله اول از فرایند پیش پردازش کلمات Stopword‌ حذف می‌شوند. Stopword‌ کلمات و عباراتی هستند که هیچ کمکی به فرایند طبقه‌بندی اسناد، در جهت تحلیل احساس موجود در متون نمی‌کنند. در جدول زیر مجموعه‌ای از Stopword‌ مورد استفاده در این رساله را تدارک دیده‌ایم. مجموعه ثابت و یکسانی برای Stopword ها وجود ندارد بلکه برای حوزه‌های متفاوت در پردازش زبان طبیعی از Stopword های متفاوتی استفاده شده است. مجموعه Stopword های مورد استفاده در این تحقیق را در جدول ۳-۱ می‌بینیم. در این مرحله از فرایند پیش پردازش ابتدا هر سند خوانده شده و پس از حذف Stopword‌ ها سایر کلمات باقی مانده به مرحله بعدی هدایت می‌شوند.
در مرحله دوم از فرایند پیش‌پردازش مدیریت کلمات منفی ساز انجام می‌شود. کلمات منفی سازی که در این تحقیق مورد توجه قرار گرفته‌اند، عبارت‌اند از not، never و no.
جدول ۳-۱ لیست Stopwords

موضوعات: بدون موضوع  لینک ثابت


فرم در حال بارگذاری ...