خوشه بندی SVM
آماده سازی متن
استفاده از کلمات توقف
ریشه یابی و بازیابی اطلاعات
مدیریت و بازیابی دانش تکنیک‌های مصور سازی گراف و چارت

شکل (۳-۲): فرایند متن‌کاوی به عنوان فرایند تعاملی و تکرارشونده.
در شکل ۳-۲ روش تکرارشونده برای کشف دانش باارزش که از فرمت‌های داده‌های متنی، اقتباس شده‌اند نمایش داده شده است که در تحلیل داده‌های حاصل از پژوهش جاری کاربرد دارد. اطلاعات موجود در فرم‌ها از داده‌های متنی به عنوان ورودی جهت آماده‌سازی متن و روش‌های پردازش متن مورد استفاده قرار می‌گیرد. هر دو مرحله آماده‌سازی متن و مراحل پردازش متن باید به صورت تعاملی برای پیدا نمودن الگوهای مفید و قابل فهم در داده‌هایی که قرار است در مرحله پایانی یعنی تجزیه و تحلیل متن به صورت مصور نمایش داده شود پیاده‌سازی گردند. در نهایت نتایج به دست آمده در قالب نمودار یا جداولی نمایش داده می‌شوند. تکنیک‌های داده‌کاوی نسبت به متن‌کاوی کارآمدی پائین تری دارند چراکه داده در فرمت‌های بدون ساختار نسبت به پایگاه داده‌های ساختاریافته در دسترس تر است. روش‌های متن‌کاوی دارای مزایایی است که باعث مدیریت بهتر منابع دانش و فعالیت‌های مدیریت دانش و تجزیه‌وتحلیل پژوهش‌های کیفی می‌گردد. متن‌کاوی جهت کشف دانش مفید برای کمک به پردازش اطلاعات و بهبود بهره‌وری نتایج حاصل از پژوهش‌های کیفی مورد استفاده قرار می‌گیرد. نتیجه متن‌کاوی افزایش ارزش افزوده یک پژوهش در راستای تسهیل فرایند تصمیم‌گیری، بهبود تحلیل‌ها و کاهش هزینه، نسبت به سایر تکنیک‌های پردازش متن است. در اصل برای به‌دست آوردن مزایای رقابتی‌تر و بهره‌برداری از اطلاعات چندگانه، روش‌های کشف دانش در نظر گرفته می‌شود. در نتیجه باید توجه بیشتری به تکنیک‌های متن‌کاوی در راه‌ حل ‌های تحلیل کیفی گردد. تجزیه و تحلیل متن و طبقه‌بندی آن می‌تواند کمک بسزایی در شناسایی مسائل کلیدی نماید که در نهایت می‌تواند نقش مؤثری در آینده فرایند تصمیم‌گیری در بسیاری از زمینه‌های تحلیل کیفی می‌گردد. مدیریت بهتر منابع اطلاعاتی، کاهش زمان تحلیل‌ها، بهبود سطح رضایت محقق و یا کیفیت نتایج دلایل اصلی برای بازبینی داده‌های ذخیره شده در سیستم پایگاه داده فعلی است. بازنگری پژوهش با بهره گرفتن از تجزیه و تحلیل متن و تکنیک‌های طبقه‌بندی متون می‌تواند جهت تصمیم‌گیری بهتر محقق برای رسیدن به نیازهای پژوهش مقرون به‌صرفه‌تر و کارآمدتر باشد. فرضیه‌های ساخته شده در این کار پژوهشی، MKTPKS برای طبقه‌بندی اسناد به دو کلاس مختلف جهت بهبود دقت طبقه‌بندی در مقایسه با مدل مبتنی بر طبقه‌بندی Term مورد استفاده قرار می‌گیرد. اهداف پژوهش حاضر را می‌توان به شرح ذیل برشمرد: اول این که برای اعمال تکنیک‌های داده‌کاوی متنی برای به دست آوردن اولین سطح دانش و تولید MKTPKS به نمایندگی از دانش مفید که از طریق تکنیک‌های خوشه‌بندی کشف شده است نیاز است. دوم این که به منظور مطالعه تأثیرات مدل‌های نمایندگی متنی متفاوت برای رده‌بندی داده‌ها و روش‌های بهبود برای به دست آوردن طبقه‌بندی بهتر از نتایج این پژوهش استفاده می‌گردد. [۶۳]

( اینجا فقط تکه ای از متن پایان نامه درج شده است. برای خرید متن کامل فایل پایان نامه با فرمت ورد می توانید به سایت feko.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. )

کشف الگو
تحلیل و پردازش داده‌ها
تکنیک‌های داده کاوی
داده متنی خام
متدهای متن کاوی
اطلاعات تحکیم شده
راه حل‌های کسب و کار تاثیرات هزینه
و تحلیل ریسک
پایگاه دانش
شکل (۳-۳) داده‌کاوی متنی برای کشف دانش در پایین‌دست و راه‌ حل ‌های مدیریت

۳-۷-۱- روش تحقیق و معماری پیشنهادی

در این بخش یک سیستم پیشنهاد شده است که به تجزیه و تحلیل پایگاه داده متنی و طبقه‌بندی مطالب می‌پردازد به صورتی که مطالب را به کلاس متفاوت طبقه‌بندی می کند. در این تحقیق پیشنهاد سه سطح سیستم شامل ویژگی‌های مختلف جهت متن‌کاوی ارائه گردیده است. سطوح سیستم پیشنهادی شامل مواردی از قبیل پردازش دانش و ذخیره‌سازی در سطح اول، واحد پالایش در سطح دوم و کاربرد و طبقه‌بندی دانش در سطح سوم است. جریان اطلاعات و دانش از بخش‌های مختلف سیستم به تولید خلاصه متن از MKTPKS و پس از آن طبقه‌بندی اسناد موجود بر اساس MKTPKS است.[۱۴۸] شرح مفصلی از دنباله‌ای از فعالیت‌ها در ذیل آمده است:

۳-۷-۲- پردازش اطلاعات و داده

اولین گام در بررسی و تحلیل فرمت داده‌های متنی بدین‌سان است که اطلاعات متنی به‌صورت مستندات متنی (متون حاصل از مصاحبه‌ها و مرور ادبیات) در دسترس باشند. معمولاً این مستندات توسط افراد خبره (کارشناسان) در سازمان و فرد محقق مورد بررسی قرار گرفته و تصمیمات ملزوم توسط این افراد اتخاذ می‌گردد که مفید یا غیرمفید است. این نوع بررسی گران است چراکه زمان و تلاش کارشناسان حوزه‌های مختلف را نیاز دارد. برای آغاز فرایند طبقه‌بندی خودکار متن داده‌های ورودی باید در یک فرمت مناسب برای استفاده از تکنیک‌های داده‌کاوی متنی مختلف آماده شوند، که شامل حذف کلمات توقف و توابع ریشه‌یابی لغات ساده است. برای رسیدن به هدف (ایجاد داده‌های کاربردی) جهت اعمال تکنیک‌های مختلف داده‌کاوی باید مراحل ذیل را طی نمود. گام اول حذف اطلاعات غیر ضروری موجود در فرم‌های توقف کلمه است. مانند: افعال، حروف ربط، اتصالات قطع، ضمایر و غیره. کلماتی که حذف می‌شوند در تفسیر معنای متن دارای تأثیر کمتر هستند. ریشه‌یابی به عنوان روند آمیختن کلمات به ساقه اصلی، پایه یا ریشه آن‌ها تعریف گردیده است. به طور مثال: ریشه رسیدن، می‌رسد، رساندن کلمه رسید است. این روش به گرفتن اطلاعات کل فضای حمل (دامنه فضای اطلاعات متنی) و هم چنین کاهش ابعاد داده و در نهایت به طبقه‌بندی داده‌ها کمک می کند. گام بعدی برای نمایش داده‌های متنی به فرم ماتریس این است که در آن هر بردار ردیف شامل شرایط و هر بردار ستون شامل کد شناسایی مربوط به سند شناسه (ID) باشد. برای کاهش اثرات فقدان اطلاعات کلیدی در این مرحله از نمایش داده‌های متنی از رویکرد BOW استفاده می‌نماییم که این متد از فضای کل اطلاعات برای تحلیل استفاده می کند. این روش مستقل از ساختار متن است و هر کلمه به عنوان یک نهاد مستقل حاوی برخی اطلاعات در نظر گرفته می‌شود.[۱۴۹]

۳-۷-۲-۱- سطح اول: واحد پردازش و ذخیره‌سازی دانش

این بخش به تجزیه و تحلیل داده‌های متنی کمک می‌کند تا با بهره گرفتن از الگوریتم‌های داده‌کاوی مختلف داده‌هایی به دست بیاوریم که نماینده سودمندی از کلمات و عبارات تعریف شده در متن باشند. متدهای نمایش داده‌های مختلف که در این سطح استفاده می‌شوند اول بسامد کلمه (TF) و دوم بسامد معکوس اسناد (IDF). انتخاب نماینده از داده‌ها باید از طریق آزمایش‌های گسترده و هم چنین با در نظر گرفتن کل فضای اطلاعات باشد، که کل موارد از طریق ماتریس صورت می‌پذیرد. با این وجود در حال حاضر تمرکز در پژوهش جاری با بهره گرفتن از تکنیک‌های خوشه‌بندی جهت افراز بندی داده‌ها به زیرمجموعه‌های مفید از اطلاعات در هر خوشه است.[۱۵۰]

۳-۷-۲-۱-۱- خوشه‌بندی

خوشه‌بندی پردازشی است که برای گروه‌بندی اطلاعات و داده‌ها به گروه‌های دارای خواص مشابه با بهره گرفتن از معیارهای فیزیکی یا کمی صورت می‌پذیرد. این معیار کیفی می‌تواند بر اساس مرکز ثقل خوشه، عمل خوشه‌بندی را انجام دهد. [۶۴] تکنیک دیگر در یافتن شبیه‌ترین اعضا از طریق Terms(مجموعه عبارات ساده) و روش K-Means است تا اولین سطح دانش را از بین ارتباطات طبیعی کشف نماید. یکی از مهم‌ترین معیارهای خوشه‌بندی محاسبه فاصله اقلیدسی است که از این رابطه در روش خوشه‌بندی K-Means نیز می‌توان استفاده نمود.[۱۵۱] فرمول ۳-۱:
D(x,y)=
تشکیل پایگاه داده رابطه ای
مستندات متنی
با فرمت آزاد
واحد متن کاوی
(پردازش اطلاعات و داده)
واحد پردازش و ذخیره سازی دانش (سطح ۱)
واحد پالایش دانش (سطح ۲)
خوشه بندی
K-MEANS
MKTPKS تشکیل
واحد رده بندی متن و کاربرد دانش (سطح ۳)
مستندات اطلاعات بد
مستندات اطلاعات خوب
شکل (۳-۴) سیستم رده‌بندی متن و مدیریت دانش مبتنی MKTPKS

۳-۷-۲-۱-۲- تشکیل پایگاه داده رابطه‌ای

خروجی کاربرد خوشه‌بندی K-Means باید به صورت فرمت‌های قابل استفاده در جداول رابطه‌ای مختلف ذخیره‌سازی گردد. این جداول شامل ستون‌هایی به همراه شناسه خوشه‌بندی هستند، خوشه‌بندی و برچسب‌گذاری خوشه‌ها بیشتر در پردازش‌های هرس اطلاعات کلیدی یا کشف دانش مورد استفاده قرار می‌گیرد، این عملکرد به ذخیره‌سازی و مدیریت اطلاعات برای بیشتر تحلیل‌ها کمک می کند.

۳-۷-۲-۲- سطح دوم: واحد پالایش دانش

ورودی این واحد در قالب جداول رابطه‌ای که در آن اسناد به عنوان معاملات یا تراکنش‌های انجام شده شرایط به عنوان اقلام در نظر گرفته می‌شوند. فرایند با پالایش اطلاعات و دانش کلیدی به همراه تولید NKTPKS و از طریق کاربرد قوانین انجمنی APRIORI جهت کاوش انجام گردیده است. در ساخت MKTPKS یک بخش اساسی و ضروری استفاده از تحلیل داده‌ها برای رده‌بندی مستندات متنی است. ساخت MKTPKS بر یافتن قوانین انجمنی ارجحیت دارد به دلیل آن که شناسایی بیش از حد قوانین موجب ازدیاد جمعیت در پایگاه دانش می‌گردد. علاوه بر این MKTPKS می‌تواند به کشف روابط باارزش‌تر در شرایط تعریف شده در متن کمک نماید. این اعمال به یافتن ارتباطات در میان مفاهیم مختلف تعریف شده در مستندات متنی کمک می کند. نگاشت MKTPKS های کشف شده به مجموعه‌های ویژه از مستندات به شناسایی مجموعه مستندات حاوی اطلاعات خوب و بد کمک می کند.[۱۵۲]

۳-۷-۲-۳- سطح سوم: واحد رده‌بندی متن و کاربرد دانش

موضوعات: بدون موضوع  لینک ثابت


فرم در حال بارگذاری ...