1. 결정 트리란? 결정 트리는 데이터에 있는 규칙을 학습을 통하여 자동으로 찾아내 트리(Tree) 기반의 분류 교칙을 만들게 된다. 마치 스무고개를 하듯이 '예/아니오' 질문을 이어가며 학습하게 된다.결정트리는 '데이터의 어떤 기준을 바탕으로 규칙을 만들어야 가장 효율적인 분류가 될것인가'가 알고리즘의 성능을 좌우하게 된다. 결정 트리는 매우 쉽고 유연하게 적용될 수 있고 데이터의 스케일링이나 정규화 등의 사전 가공의 영향이 매우 적다는 장점이 있다.그러나 단점으로는 예측 성능을 향상하기 위해서는 복잡한 규칙 구조를 가져야하며 이로 안한 과적합(Overfitting)이 발생해 도리어 예측 성능이 저하될 수 있다. 이러한 단점이 앙상블 기법에서는 장점으로 작용한다. 앙상블은 매우 많은 여러개의 약한 학습..
ML/분류(Classification)
1. 분류(Classification)란? 분류는 학습 데이터로 주어진 데이터의 피처와 레이블값(결정 값, 클래스 값)을 머신러닝 알고리즘으로 학습해 모델을 생성하고 이렇게 생성된 모델에 새로운 데이터 값이 주어졌을 때 미지의 레이블 값을 예측하게 된다. 2. 대표적인 분류 알고리즘 1) 베이즈(Bayes) 통계와 생성 모델이 기반한 나이브 베이즈(Naiïve Bayes) - 미리 발생한 사건들을 학습시킨 모델을 만든다. 그리고 새로운 데이터가 들어오게 되면 이전의 사건들을 기반으로 데이터가 어떤 행동을 할 지 예측한다. 2) 독립변수와 종속변수의 선형 관계성에 기반한 로지스틱 회귀(Logistic Regression) - 독립 변수와 종속 변수의 선형 관계를 기반으로 하여 종속변수가 이항(예: 성공/실..