پیش پردازش داده های نا متوازن با ... - منابع مورد نیاز برای پایان نامه : دانلود پژوهش های پیشین |
اولين الگوريتم براي طبقه بندي و دسته بندي الگوها در سال 1936 ارائه شد و معيار آن براي بهينه بودن، كم كردن خطاي طبقه بندي الگوهاي آموزشي بوده است.بسياري از الگوريتم ها و روشهايي نيز كه تاكنون براي طراحي طبقه بندي كننده هاي الگو ارائه شده است، ازهمين استراتژي پيروي ميكنند.محققی در سال 1965 گامي بسيار مهم در طراحي دسته بندي كننده ها برداشت و نظريه آماري يادگيري را بصورت مستحكم تري بنا نهاد و ماشينهاي بردار پشتيبان (SVM)را بر اين اساس ارائه داد.
ماشينهاي بردار پشتيبان داراي خواص زير هستند:
١‐طراحي دسته بندي كننده با حداكثر تعميم
٢‐رسيدن به بهينة سراسري تابع هزينه
٣‐تعيين خودكار ساختار و توپولوژي بهينه براي طبقه بندي كننده
٤‐مدل كردن توابع تمايز غير خطي با بهره گرفتن از هسته هاي غير خطي و مفهوم حاصلضرب داخلي در فضاهاي هيلبرت]12[.
در واقع یکی از ابزارهای مورد استفاده برای پیش پردازش داده ماشین بردار پشتیبان است. SVM یک روش مبتنی بر یادگیری آماری و یکی از بهترین تکنیک های یادگیری ماشین مورد استفاده در داده کاوی است.از SVM در طیف گسترده ای از برنامه های کاربردی مانند پیش بینی سرطان روده، تجزیه و تحلیل ژن، تجزیه و تحلیل رتبه اعتباری، پیش بینی های سری زمانی مالی، تشخیص تقلب مالی، برآورد عملکرد کارخانه و رفتار کاربران وب استفاده می شود.
(( اینجا فقط تکه ای از متن درج شده است. برای خرید متن کامل فایل پایان نامه با فرمت ورد می توانید به سایت feko.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. ))
بهترین ویژگی SVM این است که همیشه منجر به راه حل بهینه سراسری می شود.در عوض الگوریتم های هوشمند دیگر از گیر کردن در مینیمم محلی رنج میبرند.SVM تلاش می کند تا مرز تصمیم گیری بین کلاسهای مختلف را (بدون هیچگونه نگرانی در مورد تعداد نمونه های در دسترس برای کلاس)پیدا کند.SVM برای مشکلات چندبعدی مناسب است و از آن میتوان در مواقعی استفاده کرد که تعداد کمی از مشاهدات در دسترس است]14[.
برای حل مساله طبقه بندی دو کلاسه، اصلی ترین هدف SVM یافتن ابرصفحه جداکننده بهینه به گونه ای است که نقاط داده را تا حد امکان به درستی طبقه بندی کند و داده های دو کلاس را تا جای ممکن از یکدیگر دور سازد.همچنین باید ریسک طبقه بندی نادرست نمونه های آموزشی و نمونه های تست کاهش یابد]14[.
-
- منطق فازی
تئوري مجموعههاي فازي و منطق فازي را اولين بار پرفسور لطفيزاده در رسالهاي به نام “مجموعههاي فازي – اطلاعات و كنترل”در سال 1965 معرفي نمود. هدف اوليه او در آن زمان، توسعه مدلي كارآمدتر براي توصيف فرآيند پردازش زبانهاي طبيعي بود. او مفاهيم و اصطلاحاتي همچون مجموعههاي فازي، رويدادهاي فازي، اعداد فازي و فازيسازي را وارد علوم رياضيات و مهندسي نمود.
-
- ماشین بردار پشتیبان فازی
در دسته بندي كنندة SVMاستاندارد، اهميت ميزان خطا ( مقدارمتغيرهاي Ei ) به ازاي نمونه هاي آموزشي مختلف يكسان است، در حاليكه منطقًا نبايد چنين باشد.با بهره گرفتن از منطق فازي، ميتوان ميزان اهميت هر نمونه را در فاز آموزش دخالت داد.همچنين ميتوان در مرحله تصميمگيري به جاي يك تصميمگيري خشن[5] (در SVM استاندارد) يك تصميمگيري نرم را انجام داد]12،3[.
1-8 ساختار پایان نامه
پایان نامه حاضر متشکل از پنج فصل مجزا می باشد:
فصل حاضر کلیاتی از تحقیق را ارائه داده است.
در ادامه این پایان نامه در فصل دوم ادبیات موضوع تحقیق مرور می شود.در این فصل ابتدا روش های پیش پردازش داده به صورت کلی بیان می شود و تعدادی از روش های مطرح در ارتباط با پیش پردازش داده های نامتوازن بررسی می شود و مبانی ورود به تحقیق را برای خواننده تشریح مینماید.
فصل سوم که مهمترین فصل این مسند است به تشریح کامل روش پیشنهادی یعنی الگوریتمی برای پیش پردازش داده های نامتوازن می پردازد.
در فصل چهارم روش پیشنهادی مورد ارزیابی قرار گرفته و کارایی آن با سایر روش ها مقایسه میشود.
فصل پنج مختص نتيجه گيري تحقيق و ارائه پيشنهادها براي بهبود کار است. در اين فصل فعاليتهاي آتي كه ميبايست انجام شود تا اين تحقيق تكامل پيدا كند، فهرست خواهد شد.
فصل دوم
ادبیات و پیشینه تحقیق
2-1 مقدمه
نتایج تحلیل داده ها زمانی می تواند مورد اطمینان باشد که داده ها به درستی طبقه بندی شده باشند.لذا پیش پردازش داده ها جهت بهبود کیفیت داده های واقعی برای داده کاوی لازم است.این فصل به تشریح ادبیات موضوع اختصاص دارد.برای ورود به بحث پیش پردازش داده های نامتوازن از طریق SVM ، نیاز است تا مفاهیم کلی داده کاوی ، پیش پردازش داده ها،تعریف داده های نامتوازن و برخی مفاهیم تخصصی ارائه شود.
در بخش دوم از این فصل به مفاهیم و مبانی مورد نیاز در مورد داده کاوی، از جمله تعریف آن، مزایا و معایب، عملکردهای داده کاوی پرداخته شده است.سپس به تعریف اجمالی از روش های پیش پردازش داده میپردازیم.
در بخش سوم این فصل تکنیک های ماشین بردار پشتیبان توضیح داده می شود.
2-2 مفاهیم داده کاوی
2-2-1 تعاریف داده کاوی
برخی تعاریف متداول داده کاوی و کشف دانش به شرح زیر می باشند
-
- تحلیل داده های توصیفی کامپیوتری، در مجموعه های بزرگ و پیچیده داده ها
-
- پرس و جوی الگو در پایگاه داده ها
-
- ویرایشی از یادگیری ماشین که به مجموعه های بزرگ داده اعمال شده و علاوه بر یادگیری با ناظر، طیف وسیع تری از روش های بدون ناظر را نیز در برمیگیرد.
-
- داده کاوی تحلیل حجم زیادی از داده ها برای کشف الگوها و قواعد معنادار است.فرایند داده کاوی گاهی کشف دانش نیز نامیده می شود.
2-2-2 فرایند کشف دانش
کشف دانش از پایگاه داده ها در واقع فرایند تشخیص الگوها و مدلهای موجود در داده ها است.داده کاوی مرحله ای از فرایند کشف دانش است که با کمک الگوریتم های خاص داده کاوی و با کارایی قابل قبول محاسباتی، الگوها یا مدل ها را در داده ها پیدا می کند.بر اساس دیدگاهی که داده کاوی را بخشی از فرایند کشف دانش میدانند، کشف دانش شامل مراحل متعددی مطابق شکل (2-1) است :
شکل (2-1)- فرایند کشف دانش]1[
2-2-3 حوزه ها و عملکردهای داده کاوی
” کشف دانش و داده کاوی[6]” یک حوزه میان رشته ای است که با موضوعات زیر مرتبط است : آمار، یادگیری ماشین، پایگاه داده، الگوریتم ها، مصور سازی، محاسبات موازی و کسب دانش[7] برای سیستم های خبره.شکل (2-2) این ارتباطات را نشان می دهد.
شکل(2-2)-حوزه های مختلف داده کاوی]1[
فرم در حال بارگذاری ...
[چهارشنبه 1401-04-15] [ 06:00:00 ب.ظ ]
|