در حالی که در مدل محدود به جستجو بین آن‌ها رابطه زیر برقرار می‌باشد(r2ثابت است):
برای مثال اگر دو صفحه p1 و p2 به ترتیب دارای محبوبیت ۹/۰ و ۱/۰ باشند صفحه p1، ۹ برابر بیشتر از صفحه p2 در مدل موج سوار تصادفی بازدید می‌شود:

( اینجا فقط تکه ای از متن فایل پایان نامه درج شده است. برای خرید متن کامل پایان نامه با فرمت ورد می توانید به سایت feko.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. )

در حالی که در مدل محدود به جستجو، p1 ، ۱۴۰ برابر بیشتر از p2 بازدید خواهد شد:
یکی از دلایلی که باعث ایجاد مشکلاتی مانند «غنی‌تر شدن اغنیاء» می‌شود، بازدید کاربران از صفحه اول شامل ۱۰ (یا ۲۰ ) نتیجه می‌باشد، که باعث می‌شود تا صفحات دیگر شامل اسناد باکیفیت در معرض دید قرار نگیرند. به عبارت دیگر ما دو نوع صفحه در لیست رتبه‌بندی برای هر پرس‌و‌جو داریم: صفحات با محبوبیت بالا و صفحات جدید با کیفیت بالا. در صورتی‌که بتوانیم صفحات محبوب را استخراج[۶۳]، و صفحات جدید باکیفیت را کشف[۶۴]، و آن‌ها را به درستی ترکیب کنیم به نتیجه خوبی خواهیم رسید.
با بهره گرفتن از روشی به نام ارتقاء رتبه[۶۵] به صفحات جدید، مجال قرار گرفتن در صدر لیست رتبه‌بندی (۱۰ نتیجه اول) را می‌دهد. به عبارت دیگر عدالت بین همه برقرار می‌شود. لذا وقتی یک صفحه باکیفیت در معرض دید قرار گیرد جایگاه آن محکم و در غیر این صورت (کیفیت پایین) جایگاه خود را از دست می‌دهد. بنابراین یک ترازش ۶ میان صفحات فعلی محبوب و صفحات جدید وجود دارد. آقای پاندی نشان داده که این روش%۶۰ در پیدا کردن صفحات باکیفیت نسبت به روش عادی بهبود پیدا کرده است]۳۲[.همچنین عنوان شده است که روابط زیر بین کیفیت، سطح آگاهی و محبوبیت صفحه p برقرار می‌باشد: A(p,t) سطح آگاهی کاربران از صفحه p در زمان t (درصدی از کاربران که صفحه P را حداقل یک‌بار بازدید کرده باشند) است.
بدین معنی که، نهایتاً در روش رتبه‌بندی معمولی صفحاتِ باکیفیت، محبوبیت خود را پیدا می‌کنند (ولی در زمان بی نهایت) و هدف، کم کردن این زمان می‌باشد. برای ارزیابی، دو پارامتر[۶۶] TBPیا زمان لازم برای محبوب شدن یک صفحه و [۶۷]QPC یا میانگین کیفیت صفحات کلیک شده، استفاده شده است. هدف کم کردن TBP و زیاد کردن QPC می‌باشد.
۲-۴ رتبه‌بندی ترکیبی
روش‌هایی که از هر دوی پیوند و محتوا برای رتبه‌بندی استفاده می‌کنند، به دو دسته کلی تقسیم می‌شوند:
روش‌هایی که با کمک محتوا، فرایند آنالیز محتوا را بهبود می‌دهند: مانند هیتس و TSPR
روش‌های انتشار وابستگی که با کمک ساختار وب، ساختار انتشار اطلاعات محتوا را بهبود می‌دهند.
یک روش رتبه‌بندی با بهره گرفتن از ترکیب پیوند و محتوا که از یک مدل انتشار وابستگی بین صفحات استفاده می‌کند مطرح می‌شود [۳۳]. در این مدل، امتیازی به نام ابَر وابستگی، برای هر سند P تعریف شده است که به سه پارامتر شباهت بین پرس‌و‌جو و سند S(p) جمع وزن دار اَبَر وابستگی صفحاتی که به p اشاره کرده و همچنین p به آن‌ها اشاره می‌کند، بستگی دارد. ترکیب خطی این سه پارامتر به صورت زیر محاسبه می‌شود:
در معادله فوق، WIو WO به ترتیب وزن پیوندهای ورودی و خروجی صفحه p می‌باشند. با بهره گرفتن از این مدل سه حالت مختلف ارائه می‌شود:
الف) پیوند ورودی وزن دار(Weighted-In-Link)
این مدل شبیه مدل موج سوار تصادفی استفاده شده در پیجرنک است. با این تفاوت که وابسته به پرس‌و‌جو است. احتمال اینکه کاربر در هنگام پویش وب به صفحهp برسد، برابر با امتیاز ابر وابستگی نمی‌باشد. در این مدل، کاربر صفحات خروجی را با توجه به درجه‌ی شباهتشان با پرس‌و‌جو، انتخاب می‌کند.
ب) پیوند خروجی وزن دار(Weighted-In-Link)
در این مدل کاربر با احتمال محتوای یک صفحه را می‌خواند و با احتمالپیوندهای خروجی صفحه را پیمایش می‌کند.
ج) پیوند خروجی یکنواخت (Uniform-Out-Link)
این مدل که حالت خاص مدل (ب) است، در هر صفحه کاربر محتوای یک صفحه را می‌خواند و با احتمال همه‌ی پیوندهای خروجی را پیمایش می‌کند.
مدل‌های بالا دارای دو خاصیت زیر هستند:
فرمول‌های آن‌ها بازگشتی بوده.
آنقدر تکرار می‌شوند تا به مقدار ثابت همگرا شوند.
رتبه‌بندی وابسته به پرس‌و‌جو است. یعنی در ابتدا گراف حاصل از اسناد مرتبط با پرس‌و‌جو تشکیل شده و سپس الگوریتم‌های فوق اجرا می‌شود. بنابراین الگوریتم فوق به صورت بر خط اجرا خواهد شد.
آزمایشات انجام شده نشان می‌دهد که ترکیب پیوند و محتوا مفید بوده و نسبت به حالت پایه که فقط مبتنی بر محتوا است حدود %۱در شاخص دقت بهتر عمل می‌کند. به علاوه پیوند ورودی- وزن دار دارای عملکرد بهتری نسبت به بقیه می‌باشد. لازم به ذکر است که آزمایشات روی TREC – ۲۰۰۲ و TREC ۲۰۰۳ انجام شده است و نشان داده شده که مدل فوق به مجموعه داده‌ها نیز وابسته است. اصلی‌ترین مشکل این الگوریتم بر خط بودن می‌باشد که باعث می‌شود سرعت سیستم در پاسخ کاربر کم شود.
یک چارچوب کلی برای ترکیب اطلاعات متن و پیوند، که از یک دید احتمالی برای توزیع امتیازات استفاده می‌کند، به نام انتشار وابستگی احتمالی ارائه ‌شده است]۳۴.[ مجموعه‌ی همسایه‌های موجود (مانند صفحات ورودی و خروجی) برای انتشار امتیازهای احتمالی در نظر گرفته شده و با تغییر پارامترها به روش‌های مبتنی بر اتصال مثل پیجرنک و هیتس تبدیل می‌شود. بر خلاف روش قبلی، امتیاز صفحات قبل از انتشار به یک مقدار احتمالی تبدیل شده و بعد منتشر می‌شوند. همچنین در این مقاله گفته شده که طبق آزمایش‌های انجام شده در مقایسه با روش‌های مبتنی بر محتوا و همچنین روش‌هایی که فقط از انتشار امتیاز خام (روش قبلی) استفاده می‌کنند، افزایش قابل توجهی بدست آمده است. یک چارچوب کلی برای روش‌های انتشار وابستگی بیان شده و روش‌هایی که وجود دارند با هم مقایسه شده است]۳۴[. جدول زیر انواع الگوریتم‌های ترکیبی به همراه مخفف‌های آن‌ها را نشان می‌دهد.
جدول ۲- ۲ : انواع مدل‌های ترکیبی موجود [۳۵]
در آن، نتایج زیر در مقایسه با روش BM25 بدست آمده است:
SS بهترین جواب را دارد و دو روش ST و HT-WI شبیه به هم هستند.
مدل‌های مبتنی بر سایت مؤثرتر و پایدارتر از مدل‌های مبتنی بر پیوند هستند.
روش‌های مبتنی بر امتیاز، حتماً باید به صورت بر خط محاسبه شوند. چون به پرس‌و‌جو وابسته هستند و محاسبه برون خط آن‌ها بسیار مشکل است.
پیچیدگی زمانی ST در حالت برون خط قابل قبول است و در موتورهای جستجوی امروزی قابل پیاده سازی است. در حالی که مدل HT دارای پیچیدگی زمانی زیادی است و عملاً قابل پیاده سازی نیست.
چون مدل ST مبتنی بر سایت است قابل پیاده‌سازی به صورت موازی خواهد بود (هر سایت به صورت جداگانه).
محاسبه ST به صورت بازگشتی و غیر بازگشتی دارای نتیجه یکسانی است. همچنین جهت انتشار، فقط از برگ‌ها به سمت ریشه است.
۲-۵ رتبه‌بندی مبتنی بر یادگیری
همان‌طور که گفته شد، یکی از مسائل اصلی مطرح در بازیابی اطلاعات، چگونگی رتبه‌بندی اطلاعات است. این مساله در محیط وب، به واسطه حجم بسیار زیاد اطلاعات از یک سو و نیز گرایش کاربران به بازدید از ابتدای لیست نتایج از سوی دیگر، اهمیت بیشتری پیدا می‌کند. برای حل این مسئله در طی سالیان اخیر توجه زیادی به استفاده از روش‌های مبتنی بر یادگیری معطوف شده است]۳۶[. شکل (۲-۳ ( مدل مورد استفاده در اغلب این روش‌ها را نشان می‌دهد. بر این اساس، فرایند یادگیری شامل دو مرحله آموزش و آزمون می‌باشد. با فرض داشتن مجموعه پرس‌و‌جوهای Q={q1 ,q2 , q3, …. .., qQ }و مجموعه اسناد D={d1 ,d2 , d ۳, …… ,dD} مخزن یادگیری، متشکل از جفت‌های اسناد و پرس‌وجوهای (,)Q است که به هر جفت یک عدد نسبت داده می‌شود یا به عبارتی هر جفت با یک عدد برچسب می‌خورد (labeled) که نمایانگر میزان ارتباط بین پرس‌وجوی و سند است.
شکل ۲-۳۴ : شمای کلی رتبه‌بندی مبتنی بر یادگیری]۳۶[
طبقه بندی روش‌های رتبه‌بندی مبتنی بر یادگیری
به طور کلی، روش‌های مطرح شده در حوزه رتبه‌بندی که بر اساس یادگیری عمل می‌کنند، به سه دسته اصلی، تقسیم بندی می‌شوند:
روش‌های نقطه‌ای
روش‌های جفتی
روش‌های لیستی
در روش‌های نقطه‌ای، به هر جفت (سند-پرس‌و‌جو)، یک عدد نشان دهنده میزان ارتباط بین آن‌ها، نسبت داده می‌شود. هدف از یادگیری، بدست آوردن مدلی است که بتواند حتی‌المقدور به این جفت‌ها، مقادیری را نسبت دهد که به میزان ارتباط واقعی آن‌ها، نزدیک باشد.
در روش‌های جفتی، با دریافت جفت اشیا (ویژگی‌های اسناد و نیز رتبه نسبی آن‌ها)، تلاش می‌شود به هر شیء، رتبه‌ای حتی‌المقدور به رتبه واقعی‌اش نسبت داده شود و بدین ترتیب، نهایتاً اشیاء در دو دسته کلی «به صورت صحیح رتبه‌بندی شده» و «به صورت نادرست رتبه‌بندی شده»، طبقه‌بندی می‌شوند. اغلب روش‌های موجود رتبه‌بندی مبتنی بر یادگیری از این نوع هستند. نهایتاً روش‌های مبتنی بر لیست، از لیست اشیاء مرتب شده به عنوان مجموعه داده یادگیری برای پیش‌بینی ترتیب اشیاء استفاده می‌کنند.
۲-۶ رتبه‌بندی مبتنی بر رفتار کاربر
با توجه به مشکلات روش‌های مبتنی بر متن و پیوند، روش‌های مبتنی بر رفتار و قضاوت کاربر برای برقراری عدالت و دموکراسی در وب مورد توجه قرار گرفت. به عبارت دیگر جهتِ رشد وب از نظر کمی و کیفی، تعیین صفحات اصلح توسط خود کاربران انجام می‌پذیرد. ولیکن تشخیص و استخراج قضاوت کاربران از اهمیت خاصی برخوردار می‌باشد.
لذا از چالش‌های موجود موتورهای جستجو تشخیص رفتار و علائق یک کاربر است. به عبارت دیگر با دانستن علائق کاربر می‌توان بر مشکل ابهام پرس‌وجوی او فائق آمده و رتبه‌بندی را بهتر انجام داد. دو روش برای جمع‌ آوری داده‌های رفتار کاربران وجود دارد: روش بازخورد مستقیم و بازخورد ضمنی در روش بازخورد مستقیم از کاربر درخواست می‌شود تا درباره نتیجه ارائه شده قضاوت کند که روش دشواری می‌باشد. در روش غیر مستقیم از رفتار کاربر در حین جستجو که در لاگ موتورهای جستجو و پراکسی‌ها ثبت شده است، استفاده می‌شود. در نتیجه آن را می‌توان با صرف کمترین هزینه جمع‌ آوری کرد.

موضوعات: بدون موضوع  لینک ثابت


فرم در حال بارگذاری ...