1. 앙상블 학습 앙상블 학습을 통한 분류는 여러 개의 분류기(Classifier)를 생성하고 그 예측을 결합함으로써 보다 정확한 최종 예측을 도출하는 기법이다.앙상블 학습의 목표는 다양한 분류기의 예측 결과를 결합함으로써 단일 분류기보다 신뢰성이 높은 예측값을 얻는 것이다. 앙상블의 특징을 살펴보면 아래와 같다.단일 모델의 약점을 다수의 모델들을 결합하여 보완뛰어난 성능을 갖진 모델들로만 구성하는 것보다 성능이 떨어지더라도 서로 다른 유형의 모델을 섞는 것이 오히려 전체 성능에 도움이 될 수 있다.랜덤 포레스트 및 뛰어난 부스팅 알고리즘들은 모두 결정 트리 알고리즘을 기반 알고리즘으로 적용함결정 트리의 단점인 과적합(오버피팅)을 수십~수천개의 많은 분류기를 결합해 보완하고 장점인 직관적인 분류 기준은..
분류 전체보기
UCI 머신러닝 리포지토리에서 제공하는 사용자 행동 인식 데이터 셋을 이용하여 결정트리를 실습해 보자. 1. 사용자 행동 인식 데이터의 데이터 확인 및 정확도 측정 사용자 행동 인식 데이터 세트는 30명의 스마트 폰 센서를 장착한 뒤, 사람의 동작과 관련된 여러가지 피처를 수집한 데이터이고 이 데이터를 기반으로 사용자의 행동이 어떤 동작인지를 예측해야 한다. 데이터는 아래 경로에서 다운로드 가능하다https://archive.ics.uci.edu/dataset/240/human+activity+recognition+using+smartphones 먼저 feature.txt 파일을 DataFrame으로 로드한다. feature 데이터는 561개의 row와 2개의 column으로 구성되어있다. impor..
1. 결정트리 더미 데이터 생성 사이킷런에서 제공하는 make_classification()를 통해 분류 모형 데이터를 생성하고 시각화해 이를 통해 과적합(Overfitting)을 살펴본다. make_classification()는 분류를 위해 테스트용 데이터를 쉽게 만들수 있도록 하는 함수이며 파라미터는 아래와 같다.n_features : 독립 변수의 수, 디폴트 20n_samples : 표본 데이터의 수, 디폴트 100n_redundant : 독립 변수 중 다른 독립 변수의 선형 조합으로 나타나는 성분의 수, 디폴트 2n_informative : 독립 변수 중 종속 변수와 상관 관계가 있는 성분의 수, 디폴트 2n_repeated : 독립 변수 중 단순 중복된 성분의 수, 디폴트 0n_classes..
1. feature_importances_란? feature_importances_는 특성의 중요도를 나타내는 속성이다. 높은 중요도를 가진 특성은 모델의 예측에 큰 영향을 미치며, 반대로 낮은 중요도를 가진 특성은 모델의 예측에 크기 기여하지 않는다. 결정트리에서는 각 특성이 분기 결정에 얼마나 중요한 역할을 하는지를 나타낸다. 이 값은 모델이 데이털츨 분할할 때 각 특성을 기준으로 얼마나 정보가 향상되는지를 측정하여 계산된다.feature_importances_값은 각 특성이 불손도(지니 계수, 엔트로피 등) 감소에 얼마나 기여하는지를 나타낸다. 즉, 높은 중요도를 가진 특성은 모델이 데이터를 분할할 때 불손도를 크게 감소시키는데 중요한 역할을 한다는 것을 의미한다. ⎷ 실습먼저 ..
1. graphviz를 이용한 붓꽃 데이터의 의사결정트리 시각화 예전에 진행한 사이킷런의 붓꽃 데이터(사이킷런을 이용한 붓꽃 데이터 분류)를 가지고 graphviz로 의사결정트리를 시각화 해보고 결정 트리의 주요 하이퍼 파라미터를 알아보자 ⎷ 실습먼저 붓꽃 데이터를 불러오고 graphviz를 통해 시각화한 결과를 살펴보자.이때 결정 트리의 하이퍼 파라미터는 default 값으로 셋팅한 결과이다.from sklearn.tree import DecisionTreeClassifierfrom sklearn.datasets import load_irisfrom sklearn.model_selection import train_test_splitfrom sklearn.tree import export_graph..
1. 결정 트리란? 결정 트리는 데이터에 있는 규칙을 학습을 통하여 자동으로 찾아내 트리(Tree) 기반의 분류 교칙을 만들게 된다. 마치 스무고개를 하듯이 '예/아니오' 질문을 이어가며 학습하게 된다.결정트리는 '데이터의 어떤 기준을 바탕으로 규칙을 만들어야 가장 효율적인 분류가 될것인가'가 알고리즘의 성능을 좌우하게 된다. 결정 트리는 매우 쉽고 유연하게 적용될 수 있고 데이터의 스케일링이나 정규화 등의 사전 가공의 영향이 매우 적다는 장점이 있다.그러나 단점으로는 예측 성능을 향상하기 위해서는 복잡한 규칙 구조를 가져야하며 이로 안한 과적합(Overfitting)이 발생해 도리어 예측 성능이 저하될 수 있다. 이러한 단점이 앙상블 기법에서는 장점으로 작용한다. 앙상블은 매우 많은 여러개의 약한 학습..