خوشه بندی فازی داده ها بر اساس منطق فازی

پایان ‌نامه برای دریافت درجه کارشناسی ارشد رشته مهندسی کامپیوتر - هوش مصنوعی

چکیده

خوشه‌بندی داده‌ها روشی برای دسته‌بندی داده‌های مشابه می باشد که این روش سال‌ها در علوم مختلف به کار رفته و الگوریتم‌های زیادی در این زمینه طراحی شده است . تحقیقات اخیر خوشه‌بندی به سمت روش های ترکیبی که دارای قابلیت استحکام و دقت بیشتر هستند، هدایت می‌کند. خوشه‌بندی ترکیبی سعی می‌کند ابتدا خوشه‌بندی های اولیه تولید کند که تا حد ممکن دارای پراکندگی باشند سپس با اعمال یک تابع توافقی نتایج را با هم ترکیب می‌کند. در این پژوهش از ترکیب خوشه‌بندی فازی و ماشین بردار پشتیبان برای دسته‌بندی استفاده می‌شود.

SVM یکی از روش‌های یادگیری با نظارت است که از آن برای دسته‌بندی داده‌ها استفاده می‌شود. SVM شبکه جدید و قدرتمندی است که فرمولی که برای یادگیری استفاده می‌کند بر اساس به حداقل رساندن مقدار خطاست. آموزش SVM ارتباط مستقیم با تعداد داده‌های آموزش دارد و اگرتعداد مراکز خوشه‌ها زیاد باشد زمان آموزش و حجم حافظه به شدت افزایش می‌یابد. شبکه ترکیبی (FS-FCSVM) بدین شکل است که عمل خوشه‌بندی فازیبر روی داده‌های ورودی انجام می‌گیرد سپس پارامتر های شبکه با SVM آموزش می‌بینند، در نتیجه به شبکه ای با قابلیت تعمیم پذیری بالا دست می‌یابد. تعداد قوانین در این گونه سیستم‌ها به نسبت سیستم‌های فازی کوچکتر و زمان محاسبات آن کمتر است .

در این پژوهش از روش خوشه‌بندی کاهشی قبل از خوشه‌بندی فازی استفاده می‌شود.ایده اصلی خوشه‌بندی کاهشی جستجوی نواحی با چگالی بالا در فضای مشخصه اطلاعات داده‌ها است. هر نقطه که بیشترین تعداد همسایه را داشته باشد به عنوان مرکز خوشه انتخاب می‌شود.بعبارت دیگر با استفاده از تکنیک خوشه‌بندی کاهشی جهت انتخاب نقاط ویژگی که دارای تمایز بیشتر و شباهت کمتر نسبت به دیگر نقاط دارند استفاده شده است.

در این پایان نامه ایده کار استفاده از خوشه‌بندی تفاضلی جهت پیدا کردن دقیق نقاط مرکزی خوشه‌ها و تعداد خوشه‌هاست که با این کار تعداد تکرار خوشه‌بندی فازی را کاهش می دهیم و همچنین از همین نقاط مرکزی به عنوان بخشی ازداده‌های آموزشی استفاده می کنیم و بخش دوم کار مربوط به انتخاب قسمت دیگر داده‌های آموزشی می‌باشد که برای انتخاب آنها نیز از ماتریس تعلق حاصل از خوشه‌بندی فازی بهره گرفته ایم که با تعیین یک محدوده عددی داده‌های دور از مرکز هر داده را نیز به عنوان بخش دیگر داده‌ها انتخاب کردیم که نهایتا با انتخاب این نقاط توانستیم تعداد داده‌های آموزشی را تا حد قابل ملاحظه ای تقلیل دهیم.

نتایجآزمایشاتانجامشدهبررویمجموعهدادههایبزرگپایگاهداده UCI نشان میدهد که علاوه بر کاهش زمان آموزش با انتخاب مناسب داده‌ها باعث تقویت ویزگی مقاوم بودن SVM در برابر داده‌های نویزی و پرت و همچنین کاهش تعداد بردار پشتیبان انتخابی SVM در فضای داده بزرگ می‌شود.

توجه : فرمت پایان نامه ورد ( قابل ویرایش ) میباشد.