مدل احتمال پرس‌وجو

مدل احتمال پرس‌وجو چیست؟

مدل احتمال پرس‌وجو یک چارچوب مدل زبانی در بازیابی اطلاعات است. در این رویکرد، برای هر سند از مجموعه اسناد یک مدل زبانی جداگانه ساخته می‌شود. سپس می‌توان اسناد را بر اساس احتمال مرتبط بودن با پرس‌وجوی کاربر مرتب کرد.

ایده اصلی ساده است: اگر واژه‌های پرس‌وجو با احتمال بیشتری از زبانِ یک سند تولید شده باشند، آن سند احتمالاً پاسخ مناسب‌تری است. به بیان دیگر، این مدل احتمال مشاهدهٔ پرس‌وجو را از دید هر سند می‌سنجد.

چگونگی محاسبه احتمال

با استفاده از قاعده بیز، احتمال اینکه سند d با توجه به پرس‌وجوی q مرتبط باشد را می‌توان به شکل زیر نوشت:

P(d|q) = P(q|d) × P(d) / P(q)

از آنجا که P(q) برای همه اسناد مقدار ثابتی دارد، در رتبه‌بندی نادیده گرفته می‌شود. همچنین معمولاً فرض می‌شود احتمال پیشین همه اسناد یکسان است؛ بنابراین P(d) نیز حذف می‌شود.

در نتیجه، رتبه هر سند بر اساس احتمال مشاهدهٔ پرس‌وجو به‌عنوان نمونه‌ای تصادفی از مدل زبانی همان سند تعیین می‌شود.

مدل زبانی تک‌واژه‌ای چندجمله‌ای

برای پیاده‌سازی این ایده، معمولاً از مدل زبانی تک‌واژه‌ای چندجمله‌ای استفاده می‌شود. در این مدل، فرض می‌کنیم واژه‌های پرس‌وجو مستقل از یکدیگر تولید شده‌اند و احتمال کل پرس‌وجو از حاصل‌ضرب احتمال تک‌تک واژه‌ها به دست می‌آید.

فرمول کلی به این صورت است:

P(q|d) = C(q) × ∏ P(t|d)^c(t,q)

C(q) = |q|! / ∏ c(t,q)!

در این رابطه، C(q) ضریب چندجمله‌ای مربوط به پرس‌وجو است و c(t,q) نشان می‌دهد واژه t چند بار در پرس‌وجوی q تکرار شده است.

همچنین |q| طول پرس‌وجو، یعنی مجموع بسامد واژه‌ها در واژگان پرس‌وجو است.

ساده‌سازی محاسبات در عمل

در پیاده‌سازی‌های عملی، ضریب چندجمله‌ای معمولاً از محاسبه حذف می‌شود. دلیل این کار آن است که این ضریب برای یک کیسه واژگان مشخص ثابت است و بر ترتیب نهایی اسناد تأثیری نمی‌گذارد.

مدل زبانی واقعی هر سند از توزیع پنهان واژه‌ها در آن سند به دست می‌آید، اما در عمل این توزیع نامعلوم است. به همین دلیل، آن را با احتمال مشاهده هر واژه در سند تقریب می‌زنیم.

به عبارت ساده‌تر، P(t|d) یعنی احتمال اینکه واژه t توسط مدل زبانی سند d تولید شود. برای رتبه‌بندی، این احتمال برای همه واژه‌های پرس‌وجو در هم ضرب می‌شود و امتیازی در بازه [0,1] برای هر سند ساخته می‌شود.

این فرایند برای همه اسناد مجموعه تکرار می‌شود تا فهرست نهایی نتایج از مرتبط‌ترین تا کم‌ارتباط‌ترین سند آماده شود.

نکته کلیدی

هر سند مدل زبانی خودش را دارد.
پرس‌وجوی کاربر مانند نمونه‌ای از زبان آن سند در نظر گرفته می‌شود.
احتمال تولید واژه‌های پرس‌وجو، معیار اصلی رتبه‌بندی است.
ساده‌سازی‌های عملی، ترتیب نسبی اسناد را تغییر نمی‌دهند.

مدل احتمال پرس‌وجو در اصل می‌پرسد: «اگر این سند زبان خودش را داشته باشد، چقدر محتمل است که همین پرس‌وجو را تولید کند؟»

منابع

تکنیک‌های بازیابی اطلاعات.

مدل احتمال پرس‌وجو

چکیده