1. 결정 트리란? 결정 트리는 데이터에 있는 규칙을 학습을 통하여 자동으로 찾아내 트리(Tree) 기반의 분류 교칙을 만들게 된다. 마치 스무고개를 하듯이 '예/아니오' 질문을 이어가며 학습하게 된다.결정트리는 '데이터의 어떤 기준을 바탕으로 규칙을 만들어야 가장 효율적인 분류가 될것인가'가 알고리즘의 성능을 좌우하게 된다. 결정 트리는 매우 쉽고 유연하게 적용될 수 있고 데이터의 스케일링이나 정규화 등의 사전 가공의 영향이 매우 적다는 장점이 있다.그러나 단점으로는 예측 성능을 향상하기 위해서는 복잡한 규칙 구조를 가져야하며 이로 안한 과적합(Overfitting)이 발생해 도리어 예측 성능이 저하될 수 있다. 이러한 단점이 앙상블 기법에서는 장점으로 작용한다. 앙상블은 매우 많은 여러개의 약한 학습..
전체 글
1. 분류(Classification)란? 분류는 학습 데이터로 주어진 데이터의 피처와 레이블값(결정 값, 클래스 값)을 머신러닝 알고리즘으로 학습해 모델을 생성하고 이렇게 생성된 모델에 새로운 데이터 값이 주어졌을 때 미지의 레이블 값을 예측하게 된다. 2. 대표적인 분류 알고리즘 1) 베이즈(Bayes) 통계와 생성 모델이 기반한 나이브 베이즈(Naiïve Bayes) - 미리 발생한 사건들을 학습시킨 모델을 만든다. 그리고 새로운 데이터가 들어오게 되면 이전의 사건들을 기반으로 데이터가 어떤 행동을 할 지 예측한다. 2) 독립변수와 종속변수의 선형 관계성에 기반한 로지스틱 회귀(Logistic Regression) - 독립 변수와 종속 변수의 선형 관계를 기반으로 하여 종속변수가 이항(예: 성공/실..
1. 피마 인디어 당뇨병 데이터 분석 Kaggle에서 제공하는 피마 인디어 당뇨병 데이터셋을 이용하여 피마 인디언의 당뇨병 데이터를 분석하고 발병 확률과 평가수치를 적용하여 살펴본다. Kaggle에서 제공하는 피마 인디어 당뇨병 데이터셋을 다운로드한 후 데이터를 살펴보면 다음과 같다. Pregnancies: 임신 횟수 Glucose: 포도당 부하 검사 수치 BloodPressure: 혈압(mm Hg) SkinThickness: 팔 삼두근 뒤쪽의 피하지방 측정값(mm) Insulin: 혈청 인슐린(mu U/ml) BMI: 체질량지수(체중(kg)/(키(m))^2) DiabetesPedigreeFunction: 당뇨 내력 가중치 값 Age: 나이 Outcome: 클래스 결정 값(0또는 1) 768개의 데이터 ..
1. F1 Score란? F1 Score는 정밀도와 재현율을 결합한 지표이다. 정밀도와 재현율이 어느 한쪽으로 치우치치 않는 않을 때 상대적으로 높은 값을 가진다. F1 Score의 공식은 아래와 같다. F1 Score가 높을수록 더 좋은 모델이라고 판단할 수 있는 기준이 된다. 아래의 예시를 살펴보자 A 예측 모델과 B예측 모델이 있다. A 예측 모델의 정밀도는 0.9, 재현율은 0.1로 차이가 많이 나고 B 예측 모델은 정밀도가 0.5, 재현율은 0.5로 정밀도와 재현율이 큰 차이가 없다. 이 두 모델의 F1 Score을 계산해보면 A 예측 모델은 0.18, B 예측 모델은 0.5로 B 예측 모델이 더 우수한 F1 Score을 가지게 된다. 사이킷런에서는 F1 Score 계산을 위한 f1_score(..
<h3 class="tt-youtube-plugin" style="box-sizing: border-box; font-size: 16px; font-family: Arial, 돋움, Dotum, AppleGothic, sans-serif; border-right-width: 0px; word-spacing: 3px; border-bottom: #cccccc 2px solid; text-align: left; border-left: #55555b 10px solid; margin: 5px 0px; letter-spacing: 1px; line-height: 1.5; border-top-width: 0px; border-image: initial; pa..
<h3 class="tt-youtube-plugin" style="box-sizing: border-box; font-size: 16px; font-family: Arial, 돋움, Dotum, AppleGothic, sans-serif; border-right-width: 0px; word-spacing: 3px; border-bottom: #cccccc 2px solid; text-align: left; border-left: #55555b 10px solid; margin: 5px 0px; letter-spacing: 1px; line-height: 1.5; border-top-width:..