1. 앙상블 학습-보팅(Voting) 보팅은 여러 개의 분류기가 투표를 통해 최종 예측 결과를 결정하는 방식으로 서로 다른 알고리즘을 가진 분류기를 결합하는 형태이다. 2. 보팅 - Soft Voting & Hard Voting Hard Voting은 다수의 Classifier 간 다수결로 최종 Class를 결정한다.아래 그림에서 Classifer1~4가 있다고 가정한다. Classifier1, 3, 4는 클래스 값 ①로 예측을 하고 Classifier2는 클래스 값 ②로 예측을 하게 되면 다수결로 최종 클래스값 ①로 예측하게 된다. Soft Voting은 다수의 classifier들의 class 확률을 평균하여 결정한다.아래 그림에서 Classifer1~4가 있다고 가정한다. 각각의 Classif..
ML
1. 분류(Classification)란? 분류는 학습 데이터로 주어진 데이터의 피처와 레이블값(결정 값, 클래스 값)을 머신러닝 알고리즘으로 학습해 모델을 생성하고 이렇게 생성된 모델에 새로운 데이터 값이 주어졌을 때 미지의 레이블 값을 예측하게 된다. 2. 대표적인 분류 알고리즘 1) 베이즈(Bayes) 통계와 생성 모델이 기반한 나이브 베이즈(Naiïve Bayes) - 미리 발생한 사건들을 학습시킨 모델을 만든다. 그리고 새로운 데이터가 들어오게 되면 이전의 사건들을 기반으로 데이터가 어떤 행동을 할 지 예측한다. 2) 독립변수와 종속변수의 선형 관계성에 기반한 로지스틱 회귀(Logistic Regression) - 독립 변수와 종속 변수의 선형 관계를 기반으로 하여 종속변수가 이항(예: 성공/실..
1. 피마 인디어 당뇨병 데이터 분석 Kaggle에서 제공하는 피마 인디어 당뇨병 데이터셋을 이용하여 피마 인디언의 당뇨병 데이터를 분석하고 발병 확률과 평가수치를 적용하여 살펴본다. Kaggle에서 제공하는 피마 인디어 당뇨병 데이터셋을 다운로드한 후 데이터를 살펴보면 다음과 같다. Pregnancies: 임신 횟수 Glucose: 포도당 부하 검사 수치 BloodPressure: 혈압(mm Hg) SkinThickness: 팔 삼두근 뒤쪽의 피하지방 측정값(mm) Insulin: 혈청 인슐린(mu U/ml) BMI: 체질량지수(체중(kg)/(키(m))^2) DiabetesPedigreeFunction: 당뇨 내력 가중치 값 Age: 나이 Outcome: 클래스 결정 값(0또는 1) 768개의 데이터 ..