ML

1. 부스팅 알고리즘이란? 부스팅 알고리즘은 여러 개의 약한 학습기(weak learner)를 순차적으로 학습-예측하면서 잘못한 데이터나 학습 트리에 가중치 부여를 통해 오류를 보완하면서 학습하는 방식이다. 약한 학습기는 단독으로는 예측 성능이 그리 뛰어나지 않은 모델을 의미한다. 그러나 무작위 추정보다는 약간 더 나은 성능을 가진 학습 모델을 의미한다. 단일 모델로 사용할 경우 예측이 부정확할 수 있지만, 여러 개의 약한 학습기를 결합하여 더 강력한 예측 성능을 발휘할 수 있는 강한 학습기를 만들 수 있다. 2. 부스팅 알고리즘의 장점과 단점 부스팅 알고리즘의 장점높은 예측 성능 : 여러 약한 학습기를 결합하여 강력한 예측 모델을 만들 수 있다.유연성 : 분류, 회귀 등 다양한 머신러닝 문제에 적용 가..
1. 앙상블 학습-보팅(Voting) 보팅은 여러 개의 분류기가 투표를 통해 최종 예측 결과를 결정하는 방식으로 서로 다른 알고리즘을 가진 분류기를 결합하는 형태이다.  2. 보팅 - Soft Voting & Hard Voting Hard Voting은 다수의 Classifier 간 다수결로 최종 Class를 결정한다.아래 그림에서 Classifer1~4가 있다고 가정한다. Classifier1, 3, 4는 클래스 값 ①로 예측을 하고 Classifier2는 클래스 값 ②로 예측을 하게 되면 다수결로 최종 클래스값 ①로 예측하게 된다.  Soft Voting은 다수의 classifier들의 class 확률을 평균하여 결정한다.아래 그림에서 Classifer1~4가 있다고 가정한다. 각각의 Classif..
1. 앙상블 학습 앙상블 학습을 통한 분류는 여러 개의 분류기(Classifier)를 생성하고 그 예측을 결합함으로써 보다 정확한 최종 예측을 도출하는 기법이다.앙상블 학습의 목표는 다양한 분류기의 예측 결과를 결합함으로써 단일 분류기보다 신뢰성이 높은 예측값을 얻는 것이다. 앙상블의 특징을 살펴보면 아래와 같다.단일 모델의 약점을 다수의 모델들을 결합하여 보완뛰어난 성능을 갖진 모델들로만 구성하는 것보다 성능이 떨어지더라도 서로 다른 유형의 모델을 섞는 것이 오히려 전체 성능에 도움이 될 수 있다.랜덤 포레스트 및 뛰어난 부스팅 알고리즘들은 모두 결정 트리 알고리즘을 기반 알고리즘으로 적용함결정 트리의 단점인 과적합(오버피팅)을 수십~수천개의 많은 분류기를  결합해 보완하고 장점인 직관적인 분류 기준은..
UCI 머신러닝 리포지토리에서 제공하는 사용자 행동 인식 데이터 셋을 이용하여 결정트리를 실습해 보자.   1. 사용자 행동 인식 데이터의 데이터 확인 및 정확도 측정 사용자 행동 인식 데이터 세트는 30명의 스마트 폰 센서를 장착한 뒤, 사람의 동작과 관련된 여러가지 피처를 수집한 데이터이고 이 데이터를 기반으로 사용자의 행동이 어떤 동작인지를 예측해야 한다. 데이터는 아래 경로에서 다운로드 가능하다https://archive.ics.uci.edu/dataset/240/human+activity+recognition+using+smartphones 먼저 feature.txt 파일을 DataFrame으로 로드한다. feature 데이터는 561개의 row와 2개의 column으로 구성되어있다. impor..
1. 결정트리 더미 데이터 생성 사이킷런에서 제공하는 make_classification()를 통해 분류 모형 데이터를 생성하고 시각화해 이를 통해 과적합(Overfitting)을 살펴본다. make_classification()는 분류를 위해 테스트용 데이터를 쉽게 만들수 있도록 하는 함수이며 파라미터는 아래와 같다.n_features : 독립 변수의 수, 디폴트 20n_samples : 표본 데이터의 수, 디폴트 100n_redundant : 독립 변수 중 다른 독립 변수의 선형 조합으로 나타나는 성분의 수, 디폴트 2n_informative : 독립 변수 중 종속 변수와 상관 관계가 있는 성분의 수, 디폴트 2n_repeated : 독립 변수 중 단순 중복된 성분의 수, 디폴트 0n_classes..
1. feature_importances_란? feature_importances_는 특성의 중요도를 나타내는 속성이다. 높은 중요도를 가진 특성은 모델의 예측에 큰 영향을 미치며, 반대로 낮은 중요도를 가진 특성은 모델의 예측에 크기  기여하지 않는다. 결정트리에서는 각 특성이 분기 결정에 얼마나 중요한 역할을 하는지를 나타낸다. 이 값은 모델이 데이털츨 분할할 때 각 특성을 기준으로 얼마나 정보가 향상되는지를 측정하여 계산된다.feature_importances_값은 각 특성이 불손도(지니 계수, 엔트로피 등) 감소에 얼마나 기여하는지를 나타낸다. 즉, 높은 중요도를 가진 특성은 모델이 데이터를 분할할 때 불손도를 크게 감소시키는데 중요한 역할을 한다는 것을 의미한다. ⎷ 실습먼저 ..
야뤼송
'ML' 카테고리의 글 목록