مدل احتمال پرسوجو چیست؟
مدل احتمال پرسوجو یک چارچوب مدل زبانی در بازیابی اطلاعات است. در این رویکرد، برای هر سند از مجموعه اسناد یک مدل زبانی جداگانه ساخته میشود. سپس میتوان اسناد را بر اساس احتمال مرتبط بودن با پرسوجوی کاربر مرتب کرد.
ایده اصلی ساده است: اگر واژههای پرسوجو با احتمال بیشتری از زبانِ یک سند تولید شده باشند، آن سند احتمالاً پاسخ مناسبتری است. به بیان دیگر، این مدل احتمال مشاهدهٔ پرسوجو را از دید هر سند میسنجد.
چگونگی محاسبه احتمال
با استفاده از قاعده بیز، احتمال اینکه سند d با توجه به پرسوجوی q مرتبط باشد را میتوان به شکل زیر نوشت:
P(d|q) = P(q|d) × P(d) / P(q)
از آنجا که P(q) برای همه اسناد مقدار ثابتی دارد، در رتبهبندی نادیده گرفته میشود. همچنین معمولاً فرض میشود احتمال پیشین همه اسناد یکسان است؛ بنابراین P(d) نیز حذف میشود.
در نتیجه، رتبه هر سند بر اساس احتمال مشاهدهٔ پرسوجو بهعنوان نمونهای تصادفی از مدل زبانی همان سند تعیین میشود.
مدل زبانی تکواژهای چندجملهای
برای پیادهسازی این ایده، معمولاً از مدل زبانی تکواژهای چندجملهای استفاده میشود. در این مدل، فرض میکنیم واژههای پرسوجو مستقل از یکدیگر تولید شدهاند و احتمال کل پرسوجو از حاصلضرب احتمال تکتک واژهها به دست میآید.
فرمول کلی به این صورت است:
P(q|d) = C(q) × ∏ P(t|d)c(t,q)
C(q) = |q|! / ∏ c(t,q)!
در این رابطه، C(q) ضریب چندجملهای مربوط به پرسوجو است و c(t,q) نشان میدهد واژه t چند بار در پرسوجوی q تکرار شده است.
همچنین |q| طول پرسوجو، یعنی مجموع بسامد واژهها در واژگان پرسوجو است.
سادهسازی محاسبات در عمل
در پیادهسازیهای عملی، ضریب چندجملهای معمولاً از محاسبه حذف میشود. دلیل این کار آن است که این ضریب برای یک کیسه واژگان مشخص ثابت است و بر ترتیب نهایی اسناد تأثیری نمیگذارد.
مدل زبانی واقعی هر سند از توزیع پنهان واژهها در آن سند به دست میآید، اما در عمل این توزیع نامعلوم است. به همین دلیل، آن را با احتمال مشاهده هر واژه در سند تقریب میزنیم.
به عبارت سادهتر، P(t|d) یعنی احتمال اینکه واژه t توسط مدل زبانی سند d تولید شود. برای رتبهبندی، این احتمال برای همه واژههای پرسوجو در هم ضرب میشود و امتیازی در بازه [0,1] برای هر سند ساخته میشود.
این فرایند برای همه اسناد مجموعه تکرار میشود تا فهرست نهایی نتایج از مرتبطترین تا کمارتباطترین سند آماده شود.
نکته کلیدی
- هر سند مدل زبانی خودش را دارد.
- پرسوجوی کاربر مانند نمونهای از زبان آن سند در نظر گرفته میشود.
- احتمال تولید واژههای پرسوجو، معیار اصلی رتبهبندی است.
- سادهسازیهای عملی، ترتیب نسبی اسناد را تغییر نمیدهند.
مدل احتمال پرسوجو در اصل میپرسد: «اگر این سند زبان خودش را داشته باشد، چقدر محتمل است که همین پرسوجو را تولید کند؟»
منابع
تکنیکهای بازیابی اطلاعات.