طرح های پژوهشی انجام شده درباره توسعه ی تکنیک های وب کاوی به منظور شخصی … – منابع مورد نیاز برای مقاله و پایان نامه : دانلود پژوهش های پیشین

مدل کردن کاربر

اجرای سیستم شخصی‌سازی

یعنی در واقع ابتدا کاربر شناخته می‌شود و نیازها و حیطه کاری او تشخیص داده می‌شود و سپس سیستم بر اساس شناختی که از کاربر دارد,کاربر رامدل کرده و در نهایت بر اساس مدل موجود به اجرای شخصی‌سازی یعنی مرتب‌کردن نتایج جستجو بر اساس شناخت اولیه می‌پردازد[۶].
۳-۴-۱ شناخت کاربر
برای مرحله شناخت، یک موتور خوشه‌بندی سلسله مراتبی، به نام اسنکت بررسی می‌شود که قادر به سازمان دهی مشخص نتایج جستجوی به‌دست‌آمده از۱۶ موتور جستجوی کالا در یک سلسله مراتب با پوشه‌های برچسب‌گذاری شده می‌باشد[۲۱].

۳-۴-۱-۱ روش‌های کمک به کاربران در جستجو در وب
۳-۴-۱-۱-۱ خوشه‌بندی کد آماده- وب^[۶۳]
یک رویکرد نوآورانه برای کمک به کاربران در جستجو در وب است. این روش شامل خوشه‌بندی کدهای آماده بازگردانده شده توسط یک ابرجستجوگر^[۶۴] به یک سلسله مراتب از پوشه‌هایی می‌شود که با جملات با طول متغیر برچسب‌گذاری شده‌اند. این برچسب‌ها باید موضوع صفحات وب متناظر موجود در پوشه‌های مربوطه را در بر داشته باشند. این سلسله مراتب برچسب‌گذاری شده، نمایشی مکمل را برای لیست رتبه‌بندی شده-مسطح از نتایج بازگردانده شده توسط موتورهای جستجوی کنونی ارائه می‌دهد. کاربران می‌توانند آن را با مرور در سلسله مراتب پوشه‌های برچسب‌گذاری شده، به واسطه نیازهای جستجوی خود استفاده نمایند[۴۳,۱۶].
خوشه‌بندی کد آماده- وب یک نوع چالش در خوشه‌بندی کلاسیک است، زیرا سلسله مراتب پوشه‌های برچسب‌گذاری شده، نشان دهنده یک راه هوشمند است که “زمینه‌های” مختلف و به طور بالقوه نامحدود از کدهای آماده توسط موتورهای جستجوی مورد پرس‌و‌جو بازگردانده می شوند. این مورد دو الزام را نیاز دارد.

سلسله مراتب پوشه باید به طور مشخص از کدهای آماده تشکیل شده باشد، در حالی که خوشه‌بندی متعارف به این علت ماندگار است که “ساختار پوشه تنها یک بار تولید می‌شود و نگهداری پوشه را می توان در فواصل نسبتا نادر انجام داد.

این پوشه باید با جملات معنی دار مشخص از کدهای آماده برچسب‌گذاری شود. هر مجموعه ثابت از برچسب‌های رده که به اندازه کافی برای ضبط زمینه‌های کدهای آماده انعطاف پذیر نیست؛ علاوه بر این، با توجه به دلایل محاسباتی، موتور خوشه‌بندی باید تنها کدهای آماده (کوتاه و در نتیجه ضعیف) را پردازش نماید و نه صفحات وب نشات گرفته (طولانی و در نتیجه آموزنده) متناظر آن‌هارا[۴۸].

سیستم های صنعتی مختلف، خوشه‌بندی کد آماده- وب در ابرجستجوگرهای خود پیاده سازی می نمایند: Vivisimo، Mooter، Copernic، iBoogie، Kartoo، Groxis، Meta crawler با Dogpile و Clusty. اثر بخشی آن‌ها با “جایزه بهترین ابرجستجوگر” منسوب به Vivisimo از سال ۲۰۰۱ تا ۲۰۰۳ توسط SearchEngineWatch.com شناخته شده‌است. در ژانویه ۲۰۰۵، پورتال Aol ، Vivisimo را در بالای نتایج جستجوی ارائه شده توسط گوگل قرار داد. همچنین به نظر می‌رسد گوگل و مایکروسافت به آن علاقه‌مند هستند ، چرا که “فناوری خوشه‌بندی، یک رتبه‌بندی صفحه^[۶۵]برای آینده است[۲۱].
۳-۴-۱-۱-۲ شخصی‌سازی فهرست رتبه‌بندی شده- مسطح^[۶۶] از نتایج پرس‌و‌جو
روش دیگر برای کمک به کاربران در جستجو در وب، شخصی‌سازی فهرست رتبه‌بندی شده- مسطح از نتایج پرس‌و‌جو است. رتبه‌بندی شخصی شده، یک گسترش جذاب از رتبه‌بندی مبتنی بر لینک های کلاسیک است که با ترکیب اطلاعات پیوند وب-گراف با برخی از اطلاعات زمینه مشخص شده، به جای پرس‌و‌جو، بر روی کاربران تمرکز می‌کند. سه الزام از شخصی‌سازی خوب باید: انطباق کامل با رفتارها/نیازهای متنوع کاربر، حفاظت حفظ حریم خصوصی، و مقیاس پذیری به تعداد پروفایل ها باشد. نمونه هایی از خدمات شخصی شده صنعتی، گوگل است که پروفایل های مبتنی بر رده بندی نگهداری شده توسط کاربران را روی یک مجموعه کوچک از رده ها جمع آوری می‌کند، Yahoo و Eurekster، که نیاز به ورود دارند و پروفایل هایی مبتنی بر فعالیت های کاربران می سازند. این روش‌ها، یک راه حل جزئی را ارائه می‌دهند، زیرا آن‌ها پروفایل ها روی یک مجموعه کوچک از گزینه ها (گوگل) را میسر می سازند و یا نیاز به به روز نگهداشتن پروفایل ها دارند که یک منبع مهم و خصوصی است. در نوشته‌هایی علمی، مشکل رتبه‌بندی شخصی شده با پیشنهاد فنونی با مقیاس خوب نسبت به رویکردهای کلاسیک بررسی شده‌است. با این حال، این راه حل ها در نهایت، برای هر صفحه وب، تعداد مقادیر رتبه‌بندی که به تعداد پروفایل های کاربر مربوط می‌شود، باید محاسبه شوند[۲۱].
۳-۴-۱-۲ راه حل های مشکل خوشه‌بندی کد آماده وب
نوشته‌هایی علمی راه حل های مختلف را برای مشکل خوشه بندی کدهای آماده-وب ارائه می‌دهد. در ساده ترین حالت، برچسب پوشه “کیسه ای از کلمات^[۶۷]” است و خوشه بندی پوشه، مسطح است. در حالت کلی تر، برچسب پوشه یک جمله با طول متغیر است و خوشه‌بندی پوشه، سلسله مراتبی است[۲۱].
۳-۴-۱-۲-۱خوشه بندی مسطح
۳-۴-۱-۲-۱-۱ کلمات تنها و خوشه بندی مسطح

WebCat یکی از اولین نرم افزارهای خوشه بندی-وب بود. این نرم افزار را می توان متعلق به این طبقه در نظر گرفت حتی با اینکه در یک موتور جستجوی وب آزمایش نشده بود.

از K میانگین متقابل برای تولید خوشه بندی مسطح استفاده می‌کند.

Retriever ، از خوشه‌بندی فازی واسطه ای قوی استفاده می نماید. این سیستم مجموعه ای از کدهای آماده بازیابی شده را با تمام صفحات لینک داخلی و خارجی به منظور بهبود دقت گسترش می‌دهد. موتورهای جستجو، دسترسی ارزان به گراف وب را ارائه می دهد که در نتیجه بازیابی کارآمد پیوند را صورت می دهد. روش‌های استاندارد مانند نزدیکترین همسایه و K-means، در این گروه هستند چرا که آن‌ها معمولا عبارات تک را به عنوان ویژگی به کار می‌گیرند. در میان این نرم افزارها، تنها Webcat به صورت آنلاین در دسترس است[۳۱,۵۷,۲۳,۲۲].

۳-۴-۱-۲-۱-۲ جملات و خوشه بندی مسطح

Grouper اولین نرم افزار در دسترس عموم برای رسیدگی به مشکل خوشه‌بندی کد آماده- وب بود. این نرم افزار از جملات با طول متغیر برای برچسب گذاری پوشه‌ها استفاده می نمود، اما این جملات به عنوان بخش‌های به هم پیوسته از کدهای آماده با بهره گرفتن از ساختار داده‌های درخت Suffix گرفته‌شد[۶۲].

Lingo ازSVD روی یک ماتریس با عبارت-سند برای پیدا کردن برچسب‌های معنادار طولانی استفاده می نماید. مشکل این روش این است که SVD زمانی که برای تعداد زیادی از کدهای آماده کاربردی اعمال می شود وقت گیر است. به تازگی، مایکروسافت یک سیستم را پیشنهاد نمود که جملات (پیوسته) با طول متغیر از طریق رگرسیون ها در پنج اقدامات متفاوت استخراج می کند. با این حال که خوشه بندی مسطح است، رگرسیون نیاز به یک مرحله آموزش دارد (که انطباق روی وب خارجی کلی سخت است) و این سیستم برای آزمون در دسترس نیست. شایعاتی در مورد تجاری سازی این محصول وجود دارد. در میان نرم افزار های این کلاس، این مورد به صورت آنلاین تنها در Carrot2 در دسترس است که یک پیاده سازی منبع باز از Grouper است. Grouper اصلی دیگر در دسترس نیست[۴۵].

۳-۴-۱-۲-۲ خوشه‌بندی سلسله مراتبی
۳-۴-۱-۲-۲-۱ کلمات تنها و خوشه‌بندی سلسله مراتبی

FIHC از تجزیه و تحلیل بر اساس مسئله مجموعه آیتم های مکرر به منظور ساخت سلسله مراتب پوشه استفاده می نماید

Credoاز مفهوم شبکه در کلمات تک استفاده می نماید و تنها این سیستم در این کلاس به صورت آنلاین دردسترس است[۲۱].

۳-۴-۱-۲-۲-۲ جملات و خوشه‌بندی سلسله مراتبی
جالب ترین مورد، شامل سیستم هایی است که برای تقلید از Vivisimo تلاش می نماید.

Lexical Affinities Clusteringاولین سیستم برای پیشنهاد این رویکرد بود. این سیستم، دقت را در فراخوان با بهره گرفتن از یک نمایندگی کدهای آماده ساخته شده از جفت واژه ها (نه لزوما مجاور) پیوند شده با پیوستگی لغوی، یعنی ارتباط با ظاهر معمول آن بهبود می‌بخشد[۴۰,۶۲]

Etzioni فرمت ساده ای از Grouper را برای خوشه‌بندی سلسله مراتبی بر اساس اندازه هم پوشانی پوشه‌ها پیشنهاد داد[۶۳].

SHOC از آرایه Suffix برای استخراج جملات(به هم پیوسته) استفاده می نماید و پوشه‌ها را در یک سلسله مراتب از طریق یک روش SVD سازمان دهی می کند[۵۹].

Highlight یک تجزیه و تحلیل لغوی و یک چارچوب احتمالی برای ساخت و ساز سلسله مراتب را اتخاذ می کند، اما نویسندگان هیچ ارزیابی ارائه نمی‌دهند[۳۷].

Ciirarchies جملات کدهای آماده را با بهره گرفتن از یک مدل زبانی از پیش محاسبه شده‌استخراج می نماید و سلسله مراتب را از طریق یک الگوریتم بازگشتی می سازد. نویسندگان اذعان دارند که سلسله مراتب های آن‌ها اغلب غیر فشرده هستند دارای عمق بزرگ هستند و حاوی برخی از کلمات حامل مطلب می شوند که تکرار می‌شود[۳۵].

IBM یک سیستم را پیشنهاد نمود که سلسله مراتب پوشه را بر اساس حداقل کردن تابع هدف شبیه به موردی می سازد که دراسنکت استفاده می شود. با این حال برچسب‌های آن‌ها غالبا از کلمات تک تشکیل شده‌است، در موارد دیگر (چند) آن‌ها جملات به هم پیوسته می‌باشند. نویسندگان این سیستم را برای آزمون در دسترس نمی گذارند. با کمال تعجب کافی، تنها سیستم های موجود از این کلاس برای آزمایش، Highlight و Ciirarchies هستند[۳۵].

اسنکت متعلق به این کلاس آخر است، بسیار مهندسی شده‌است و به صورت آنلاین در دسترس است و به طور گسترده ای مورد آزمایش قرار گرفته‌است و هدف آن فائق آمدن بر محدودیت‌های سیستم های فوق با بهره گرفتن از جملات فاصله دار به عنوان برچسب‌ها که این کار با اتخاذ برخی از پایه های دانش خاص برای رتبه‌بندی و انتخاب برچسب‌های پوشه معنی دار و با ایجاد یک سلسله مراتب از پوشه‌های احتمالا متداخل صورت می‌گیرد[۲۱].

اسنکت در برابر نرم افزارهایی از کلاس چهارم موجود در لاین مقایسه شده‌است: Ciirarchies, Highlight. همچنین Carrot به دلایل تاریخی مورد آزمایش قرارگرفته‌است. این مورد تنها اجرای موجود از Grouper را ارائه می‌دهد. نتایج اخیر آزمون آزمایش نشده‌است زیرا آن‌ها دسترسی به نرم افزار خود را فراهم نمی‌کنند، و نمی توان آزمایشات را تکرار کرد چرا که مجموعه داده‌های اصلی از دست رفته و پرس‌و‌جو از همان موتورهای جستجو، کدهای آماده های مختلف را ارائه می‌دهد به عنوان موتورهای صنعتی، Mooter و Vivisimo مقایسه شده‌است چرا که آن‌ها قوی ترین موتورهای کدهای آماده-وب در رده های خود می‌باشندطبقه‌بندی راه حل های موجود در جدول ۳-۱ آورده شده‌است [۳۵].

موضوعات: بدون موضوع لینک ثابت

فرم در حال بارگذاری ...

فید نظر برای این مطلب