خوشه بندی فازی داده ها بر اساس منطق فازی
پایان نامه برای دریافت درجه کارشناسی ارشد رشته مهندسی کامپیوتر - هوش مصنوعی
چکیده
خوشهبندی دادهها روشی برای دستهبندی دادههای مشابه می باشد که این روش سالها در علوم مختلف به کار رفته و الگوریتمهای زیادی در این زمینه طراحی شده است . تحقیقات اخیر خوشهبندی به سمت روش های ترکیبی که دارای قابلیت استحکام و دقت بیشتر هستند، هدایت میکند. خوشهبندی ترکیبی سعی میکند ابتدا خوشهبندی های اولیه تولید کند که تا حد ممکن دارای پراکندگی باشند سپس با اعمال یک تابع توافقی نتایج را با هم ترکیب میکند. در این پژوهش از ترکیب خوشهبندی فازی و ماشین بردار پشتیبان برای دستهبندی استفاده میشود.
SVM یکی از روشهای یادگیری با نظارت است که از آن برای دستهبندی دادهها استفاده میشود. SVM شبکه جدید و قدرتمندی است که فرمولی که برای یادگیری استفاده میکند بر اساس به حداقل رساندن مقدار خطاست. آموزش SVM ارتباط مستقیم با تعداد دادههای آموزش دارد و اگرتعداد مراکز خوشهها زیاد باشد زمان آموزش و حجم حافظه به شدت افزایش مییابد. شبکه ترکیبی (FS-FCSVM) بدین شکل است که عمل خوشهبندی فازیبر روی دادههای ورودی انجام میگیرد سپس پارامتر های شبکه با SVM آموزش میبینند، در نتیجه به شبکه ای با قابلیت تعمیم پذیری بالا دست مییابد. تعداد قوانین در این گونه سیستمها به نسبت سیستمهای فازی کوچکتر و زمان محاسبات آن کمتر است .
در این پژوهش از روش خوشهبندی کاهشی قبل از خوشهبندی فازی استفاده میشود.ایده اصلی خوشهبندی کاهشی جستجوی نواحی با چگالی بالا در فضای مشخصه اطلاعات دادهها است. هر نقطه که بیشترین تعداد همسایه را داشته باشد به عنوان مرکز خوشه انتخاب میشود.بعبارت دیگر با استفاده از تکنیک خوشهبندی کاهشی جهت انتخاب نقاط ویژگی که دارای تمایز بیشتر و شباهت کمتر نسبت به دیگر نقاط دارند استفاده شده است.
در این پایان نامه ایده کار استفاده از خوشهبندی تفاضلی جهت پیدا کردن دقیق نقاط مرکزی خوشهها و تعداد خوشههاست که با این کار تعداد تکرار خوشهبندی فازی را کاهش می دهیم و همچنین از همین نقاط مرکزی به عنوان بخشی ازدادههای آموزشی استفاده می کنیم و بخش دوم کار مربوط به انتخاب قسمت دیگر دادههای آموزشی میباشد که برای انتخاب آنها نیز از ماتریس تعلق حاصل از خوشهبندی فازی بهره گرفته ایم که با تعیین یک محدوده عددی دادههای دور از مرکز هر داده را نیز به عنوان بخش دیگر دادهها انتخاب کردیم که نهایتا با انتخاب این نقاط توانستیم تعداد دادههای آموزشی را تا حد قابل ملاحظه ای تقلیل دهیم.
نتایجآزمایشاتانجامشدهبررویمجموعهدادههایبزرگپایگاهداده UCI نشان میدهد که علاوه بر کاهش زمان آموزش با انتخاب مناسب دادهها باعث تقویت ویزگی مقاوم بودن SVM در برابر دادههای نویزی و پرت و همچنین کاهش تعداد بردار پشتیبان انتخابی SVM در فضای داده بزرگ میشود.
توجه : فرمت پایان نامه ورد ( قابل ویرایش ) میباشد.