1. 분류(Classification)란?
분류는 학습 데이터로 주어진 데이터의 피처와 레이블값(결정 값, 클래스 값)을 머신러닝 알고리즘으로 학습해 모델을 생성하고 이렇게 생성된 모델에 새로운 데이터 값이 주어졌을 때 미지의 레이블 값을 예측하게 된다.
2. 대표적인 분류 알고리즘
1) 베이즈(Bayes) 통계와 생성 모델이 기반한 나이브 베이즈(Naiïve Bayes)
- 미리 발생한 사건들을 학습시킨 모델을 만든다. 그리고 새로운 데이터가 들어오게 되면 이전의 사건들을 기반으로 데이터가 어떤 행동을 할 지 예측한다.
2) 독립변수와 종속변수의 선형 관계성에 기반한 로지스틱 회귀(Logistic Regression)
- 독립 변수와 종속 변수의 선형 관계를 기반으로 하여 종속변수가 이항(예: 성공/실패) 또는 다항일 때 사용되는 방식이다. 쉽게 말하며 결과값이 두 가지로만 나오게 하고 싶을 때 사용된다.
3) 데이터 균일도에 따른 규칙 기반의 결정트리(Decision Tree)
- 정해진 규칙에 따라 분류를 하게되며 각각의 서브 트리를 생성한다. 계속되는 규칙에 의해 가장 마지막 노드인, 리프노드에 도달했을 때 그 값으로 클래스를 예측하게 된다.
4) 개별 클래스 간의 최대 분류 마진을 효과적으로 찾아주는 서포트 벡터 머신(Support Vectgor Machine)
- 클래스를 분류할 수 있는 다양한 경계선을 기반으로 최적의 경계선을 찾아내어 예측하는 방식이다. 명확하게 분류할 수 있는 집단에서 성능을 발휘하며 고차원 공간에서도 효과적이다.
5) 근접 거리를 기준으로 하는 최소근접(Nearest Neighbor) 알고리즘
- 데이터의 유사한 기준으로 분류하는 방식으로 새로운 데이터가 들어오게 되면 기존 데이터와 가장 유사한 이웃 데이르를 기준으로 분류를 하게 된다.
6) 심층 연결 기반의 신경망(Neural Network)
- 여러 층으로 구성된 인공신경망으로, 입력층, 은닉층, 그리고 출력층으로 이루워져 있다. 각각의 층들은 서로 연결되어있고, 이를 통해 복잡한 패턴을 학습하여 입력 데이터를 처리하고 출력하게 된다.
7) 서로 다른, 또는 같은 머신러닝 알고리즘을 결합항 앙상불(Ensemble)
- 서로 다른 또는 같은 머신러닝 알고리즘을 결합하여 보다 강력한 예측 모델을 생성하는 방식이다. 이는 여러 모델의 예측을 조합함으로써 개별 모델의 약점을 보완하고 성능을 향상시킬 수 있다. 주요한 앙상블 기법으로는 보팅(Voting), 배깅(Bagging), 부스팅(Boosting) 등이 있다.
'ML > 분류(Classification)' 카테고리의 다른 글
사용자 행동 인식(Human Activity Recognition) 데이터 세트를 활용한 결정트리 실습 (0) | 2024.05.22 |
---|---|
결정트리의 과적합(Overfitting) (0) | 2024.05.07 |
특성 중요도(feature_importances_) (0) | 2024.04.22 |
결정 트리의 주요 하이퍼 파라미터 (0) | 2024.04.12 |
결정 트리란? 엔트로피, 정보이득, 그리고 지니계수 (0) | 2024.04.02 |