ML/분류(Classification)

1. graphviz를 이용한 붓꽃 데이터의 의사결정트리 시각화 예전에 진행한 사이킷런의 붓꽃 데이터(사이킷런을 이용한 붓꽃 데이터 분류)를  가지고 graphviz로 의사결정트리를 시각화 해보고 결정 트리의 주요 하이퍼 파라미터를 알아보자 ⎷ 실습먼저 붓꽃  데이터를 불러오고 graphviz를 통해 시각화한 결과를 살펴보자.이때 결정 트리의 하이퍼 파라미터는 default 값으로 셋팅한 결과이다.from sklearn.tree import DecisionTreeClassifierfrom sklearn.datasets import load_irisfrom sklearn.model_selection import train_test_splitfrom sklearn.tree import export_graph..
1. 결정 트리란? 결정 트리는 데이터에 있는 규칙을 학습을 통하여 자동으로 찾아내 트리(Tree) 기반의 분류 교칙을 만들게 된다. 마치 스무고개를 하듯이 '예/아니오' 질문을 이어가며 학습하게 된다.결정트리는 '데이터의 어떤 기준을 바탕으로 규칙을 만들어야 가장 효율적인 분류가 될것인가'가 알고리즘의 성능을 좌우하게 된다. 결정 트리는 매우 쉽고 유연하게 적용될 수 있고 데이터의 스케일링이나 정규화 등의 사전 가공의 영향이 매우 적다는 장점이 있다.그러나 단점으로는 예측 성능을 향상하기 위해서는 복잡한 규칙 구조를 가져야하며 이로 안한 과적합(Overfitting)이 발생해 도리어 예측 성능이 저하될 수 있다. 이러한 단점이 앙상블 기법에서는 장점으로 작용한다. 앙상블은 매우 많은 여러개의 약한 학습..
1. 분류(Classification)란? 분류는 학습 데이터로 주어진 데이터의 피처와 레이블값(결정 값, 클래스 값)을 머신러닝 알고리즘으로 학습해 모델을 생성하고 이렇게 생성된 모델에 새로운 데이터 값이 주어졌을 때 미지의 레이블 값을 예측하게 된다. 2. 대표적인 분류 알고리즘 1) 베이즈(Bayes) 통계와 생성 모델이 기반한 나이브 베이즈(Naiïve Bayes) - 미리 발생한 사건들을 학습시킨 모델을 만든다. 그리고 새로운 데이터가 들어오게 되면 이전의 사건들을 기반으로 데이터가 어떤 행동을 할 지 예측한다. 2) 독립변수와 종속변수의 선형 관계성에 기반한 로지스틱 회귀(Logistic Regression) - 독립 변수와 종속 변수의 선형 관계를 기반으로 하여 종속변수가 이항(예: 성공/실..
야뤼송
'ML/분류(Classification)' 카테고리의 글 목록 (2 Page)