پایان نامه ارشد با موضوع بازیابی اطلاعات، تحلیل محتوا، همبستگی پیرسون، ضریب همبستگی پیرسون

معادله، fz,j برای تمام کلمات کلیدی kz که در متن dj ظاهرشدهاست، محاسبه شده و ماکزیموم آنها انتخاب میشود.
مشکل این روش این است که بعضی از کلمات کلیدی در اسناد زیادی تکرار میشوند و در نتیجه برای تشخیصدادن اسناد مناسب از اسناد غیر مناسب مفید نیستند. به همین دلیل اغلب از معیار معکوس فراوانی سند(IDFi) نیز در ترکیب با معیار فراوانی واژه(TFi,j) استفاده میشود. معکوس فراوانی سند برای کلمه کلیدی ki معمولا به صورت زیر محاسبه میشود:
(۴-۳)
سپس وزن TF-IDF برای کلمه کلیدی ki در متن dj به صورت زیر محاسبه میشود:
(۴-۴)
به این ترتیب محتوای سند dj، که پروفایل آن نیز نامیده میشود به صورت زیر تعریف میشود:
(۴-۵)
همانطور که قبلا توضیح دادهشد، سیستمهای پیشنهاددهنده مبتنی بر محتوا اقلامی مشابه با آنچه که کاربر قبلاً پسندیدهاست به کاربر پیشنهاد میدهند. از همینرو کالاهای کاندید مختلف با کالایی که قبلا توسط کاربر امتیازگذاری شدهاست، مقایسه میشوند و شبیهترین آنها با کالای مورد اشاره پیشنهاد دادهمیشود. توضیح رسمیتر این مساله به این صورت است: فرض کنید پروفایل کاربر c که شامل علایق و ترجیحات وی میباشد با نام ContentBasedProfile(c) نمایش دادهشود. این پروفایل با کمک تحلیل محتوای اقلامی که قبلا کاربر آنها را مشاهده کرده و امتیازگذاری نمودهاست، به دست میآید و معمولا با استفاده از تکنیکهای تحلیل کلمات کلیدی که در بازیابی اطلاعات استفاده میشوند، بدست میآید. مثلاً، ContentBasedProfile(c) را میتوان به شکل برداری از وزنها (wc1, wc2, …, wck) نمایشداد که هر وزن wci نشاندهنده میزان اهمیت کلمه کلیدیk برای کاربرc است. روشهای گوناگونی برای محاسبه این وزنها وجوددارد که برای اطلاعات بیشتر در این زمینه به [۷] مراجعه شود.
در سیستمهای مبتنی بر محتوا، تابع سودمندی u(c, s)، معمولا به صورت زیر تعریف میشود:
(۴-۶)
هم پروفایل کاربر c و هم پروفایل سندs را میتوان با استفاده از بردارهای وزن TF-IDF کلمات کلیدی، و نمایشداد. تابع سودمندی در روشهای بازیابی اطلاعات، از یک فرمول اکتشافی مانند معیار کسینوسی درجه شباهت استفاده میکند:[۴۹,۵۰]
(۴-۷)
که در این معادله، k نشاندهنده تعداد کل کلمات کلیدی در سیستم میباشد.
۴-۲-۱-۱ مشکلات و محدودیتهای روشهای مبتنی بر محتوا
روشهای مبتنی بر محتوا با محدودیتهای زیادی روبرو هستند که در ادامه به آنها پرداخته میشود.
* قابلیت محدود در تحلیل محتوا۹۶
تکنیک مبتنی بر محتوا براساس مجموعه خصوصیات اقلام که در سیستم تعریفشدهاند، عمل پیشبینی را انجام میدهد. بنابراین به منظور داشتن یک مجموعه کافی و مناسب از خصوصیات، سیستم یا باید بتواند بهطور اتوماتیک اقلام را تحلیلکرده و خصوصیات آنها را کشف کند و یا اینکه خصوصیات اقلام بهطور کامل بهصورت دستی وارد شدهباشند. تکنیکهای بازیابی اطلاعات تا زمانی که اقلام بهصورت متنی باشند به خوبی میتوانند خصوصیات را استخراج کنند، اما بیشتر اقلام به شکل ذاتی با مساله استخراج اتوماتیک خصوصیات مشکل دارند. بهعنوان مثال در مورد دادههای مالتیمدیا مانند عکسهای گرافیکی، دادههای صوتی و دادههای ویدوئی، استخراج اتوماتیک خصوصیات به سختی ممکن است و علاوهبر این، اغلب امکانپذیر نیست که خصوصیات را بهصورت دستی وارد کنیم[۵۱].
مشکل دیگر قابلیت محدود در تحلیل محتوا این است که اگر دو قلم کالای متفاوت با یک مجموعه مشابه از خصوصیات نمایش دادهشوند، سیستم نمیتواند تفاوتی بین آنها قائلشود. مثلاً مقالات معمولاً توسط مجموعهای از کلمات کلیدی نمایش داده میشوند. اگر دو مقاله دارای کلمات کلیدی یکسانی باشند، اما یکی از آنها خوب و دیگری بد باشد، سیستم مبتنی بر محتوا نمیتواند تفاوت بین آنها را تشخیصدهد[۵۱].
* اختصاصی کردن بیش از اندازه۹۷
در روشهای مبتنی بر محتوا، سیستم فقط اقلامی مشابه با آنچه که کاربر قبلاً امتیازگذاری کردهاست پیشنهاد میکند که نتیجه آن تشابه اقلام پیشنهادشده به یکدیگر است. در حالی که تحقیقات نشان دادهاست که سیستمهای پیشنهاددهنده در صورتی مفیدتر واقع میشوند که بتوانند اقلام غیر قابل انتظار و البته مورد نیاز، پیشنهاد دهند. برای مثال، شخصی را در نظر بگیرید که هرگز غذای یونانی نخوردهباشد، چون در پروفایل این شخص هیچ سابقهای درباره غذای یونانی وجودندارد پس سیستم هیچ رستوران یونانی به این شخص پیشنهاد نمیدهد هر چند در آن شهر رستورانهای یونانی فراوانی وجود داشتهباشد. برای رفع این مشکل از روشهایی چون الگوریتم ژنتیک بهمنظور تزریق فرمی از تنوع در مجموعه پیشنهاد میتوان استفادهنمود[۵۲].
مشکل دیگر در رابطه با اختصاصی کردن بیش از اندازه این است که در روشهای مبتنی بر محتوا، علاوهبر اقلامی که کاربر قبلا مشابه آنها را ندیدهاست، اقلامی که بسیار شبیه به پروفایل کاربر میباشند نیز امکان انتخابشدن نخواهند داشت ، مانند دو خبر متفاوت از یک موضوع مشابه. البته این خصوصیت بعضی مواقع هم مفید است مثلا لازم نیست به کاربری که یک فیلم از یک کارگردان خاص را دیده و به آن امتیاز بالایی دادهاست، همه فیلمهای آن کارگردان پیشنهاد دادهشود.
* مساله کاربر جدید۹۸
سیستمهای مبتنی بر محتوا فقط زمانی میتواند به کاربر پیشنهادات قابل اعتماد بدهد که کاربر از قبل و به دفعات کافی اقلامی را امتیازگذاری کردهباشد و نتیجه سیستم قادر باشد علایق کاربر را تشخیص دهد. بنابراین سیستم برای کاربران جدید، که تعداد امتیازات دادهشده توسط آنها به اندازه کافی نیست، قادر نیست پیشنهادات درستی بدهد.
۴-۲-۲ روشهای فیلترسازی مشارکتی
فیلترسازی مشارکتی از معروفترین روشهای پیادهسازی سیستمهای پیشنهاددهنده است. اولین سیستم طراحیشده با این تکنیک در سال ۱۹۷۹ برای پیشنهاد کتاب به وجود آمدهبود[۵۳]. این تکنیک برای اولین بار توسط گلدبرگ به عنوان جایگزینی برای روشهای مبتنی بر محتوا مطرحشد[۵۴]. در این گروه از روشها، عمل پیشنهاددهی با استفاده از یافتن اقلامی انجام میگیرد که مورد علاقه کاربران با سلایق مشابه کاربر بودهاند. کاربران با سلایق مشابه یا کاربران همسان۹۹ یعنی کاربرانی که اقلام یکسانی را امتیازدهی مشابه کرده باشند. بهعبارت دیگر u (c, s) بر اساس مقادیر موجودu(cj ,s) بدست میآید که cj کاربران مشابه با c میباشند. مثلاً در یک سیستم پیشنهاددهنده فیلم، سیستم ابتدا به شناسایی کاربران مشابه با کاربر c میپردازد. کاربران مشابه یا همسان یعنی کاربرانی که علایق یکسانی در مشاهده فیلمها با کاربر c دارند (فیلمهای یکسانی را امتیازدهی مشابه کردهاند). پس از آن فقط فیلمهایی که مورد علاقه همسانان c هستند، یعنی توسط آنها امتیازدهی بالایی شدهاند، به کاربرc پیشنهاد داده میشوند. درواقع، فرضی که توسط سیستمهای فیلترسازی مشارکتی در نظر گرفته میشود، این است که علاقه آینده کاربران، مشابه سلیقه و علایق گذشته آنهاست.
الگوریتمهای فیلترسازی مشارکتی نیز به دو دسته کلی مبتنی بر حافظه (مبتنی بر اکتشاف۱۰۰) و مبتنی بر مدل تقسیم میشوند.
الگوریتمهای مبتنی بر حافظه، به کمک فرمولهای اکتشافی، پیشبینی امتیازات را با استفاده از مجموعه تمام امتیازات قبلی که از طرف کلیه کاربران به اقلام داده شدهاند، محاسبه میکنند. بهاین صورت که معمولاً امتیاز کاربر c به محصول s، rc,s، بهصورت تجمعی۱۰۱ از امتیازات بقیه کاربران ( اغلب N تا از شبیهترین کاربران به c) به محصول s محاسبه میشود:
(۴-۸)
که در این فرمول، مجموعه N تا از شبیهترین کاربران به c میباشد که به s امتیاز دادهاند (N میتواند از ۱ تا تعداد کل کاربران تغییر کند). بعضی از نمونههای تابع تجمعی بهصورت زیر هستند:
(۴-۹)
(a)
(b)
(c)
که ضریب K نقش یک فاکتور نرمالکننده را ایفا میکند و بهصورت محاسبه میشود. همچنین متوسط امتیاز مربوط به کاربر c، در رابطه (۹c) به شکل زیر تعریف میشود:
(۴-۱۰)
که در این رابطه میباشد.
در سادهترین حالت ، همانطور که در (۴-۹a) تعریفشدهاست، تابع تجمع میتواند یک عملیات میانگیری ساده باشد. با این وجود، معمولترین شکل تابع تجمع، استفاده از جمع وزندار است که در (۴-۹b) مشاهده میشود. معیار شباهت میان دو کاربر و ، ، یک معیار فاصلهای است و بهصورت یک ضریب وزنی کاربرد دارد، به این معنی که هرچه شباهت میان و ، بیشتر باشد، امتیاز کاربر به محصول s، نقش بیشتری در پیشبینی امتیاز خواهدداشت. کاربرانی که شباهت بیشتری به یکدیگر دارند، کاربران همسان۱۰۲ یا کاربران همسایه۱۰۳ نامیده میشوند. درصورتیکه کاربران از مقیاسهای متفاوتی در تعیین امتیاز اقلام استفاده کردهباشند، به جای(۴-۹b) باید از (۴-۹c) استفاده کرد. در این رابطه، به جای استفاده از امتیازات واقعی، از میزان انحراف از مقدار میانگین امتیازات استفاده میشود.
روشهای زیادی برای محاسبه میزان شباهت بین کاربران، ، وجوددارد که در اغلب آنها، محاسبه این درجه شباهت بر اساس امتیازات دادهشده به مجموعه اقلامی که مشترکاً توسط هر دو کاربر امتیازدهی شدهاند، انجام میپذیرد. دو تا از معروفترین و پرکاربردترین روشها عبارتند از مبتنی بر همبستگی۱۰۴ و مبتنی بر کسینوس۱۰۵. برای معرفی این دو روش، Sxy را مجموعه اقلامی در نظر میگیریم که توسط هر دو کاربر x و y امتیازدهی شدهاند. یعنی . برای بدست آوردن این مجموعه از روش اشتراکگیری بین مجموعههای Sx و Sy استفاده میشود. با این وجود، درصورت استفاده از بعضی از روشها مثل روش تئوری گرافها در فیلترسازی مشارکتی، پیداکردن همسانان x بدون نیاز به محاسبه Sxy برای کلیه کاربران y انجام میشود. در روش مبتنی بر همبستگی، برای اندازهگیری میزان شباهت از ضریب همبستگی پیرسون۱۰۶ استفاده میشود[۵۵],[۵۱]:
(۴-۱۱)
در روش مبتنی بر کسینوس، دو کاربر x و y بهعنوان دو بردار در یک فضای m بعدی(m=|Sxy|) در نظر گرفتهشده و میزان شباهت بین آنها از طریق محاسبه کسینوس زاویه میان دو بردار بدست میآید[۵۶],[۵۷]:
(۴-۱۲)
که در این رابطه، ، ضرب نقطهای میان بردارهای و است.
همانطور که توضیحدادهشد، استفاده از معیار کسینوسی درجه شباهت که از روشهای بازیابی اطلاعات بهشمار میآید، هم در الگوریتمهای مبتنی بر محتوا و هم در الگوریتمهای فیلترسازی مشارکتی بهکار برده میشوند. البته در سیستمهای پیشنهاددهنده مبتنی بر محتوا از این معیار برای محاسبه میزان تشابه بین بردارهای وزنTF-IDF استفاده میشود، درصورتیکه در سیستمهای فیلترسازی مشارکتی، برای بدست آوردن میزان شباهت میان بردارهای امتیازات کاربری است.
بهمنظور بهبود کیفی پیشنهاددهی، روشهای مبتنیبرهمبستگی و