전체 글

WebClient로 API를 호출할 때 아래와 같은 에러가 발생"org.springframework.core.io.buffer.DataBufferLimitException: Exceeded limit on max bytes to buffer : xxxxxx"  1. 발생원인 및 해결 방법1) 발생원인 WebClient 응답 시 기본 버퍼 사이즈인 256K를 초과하여 발생한 에러이다. 2) 해결책WebClient codec의 maxInMemorySize에 값을 설정해주면 된다.값 설정 시에는 본문 크기에 약간의 여유를 두는 것이 좋으며 만약 4MB의 응답이라면 약5~6MB정도로 설정하여 응답 처리 중에 추가적인 메모리 사용을 고려해주는 것이 좋다.WebClient webClient = WebClient...
1. 부스팅 알고리즘이란? 부스팅 알고리즘은 여러 개의 약한 학습기(weak learner)를 순차적으로 학습-예측하면서 잘못한 데이터나 학습 트리에 가중치 부여를 통해 오류를 보완하면서 학습하는 방식이다. 약한 학습기는 단독으로는 예측 성능이 그리 뛰어나지 않은 모델을 의미한다. 그러나 무작위 추정보다는 약간 더 나은 성능을 가진 학습 모델을 의미한다. 단일 모델로 사용할 경우 예측이 부정확할 수 있지만, 여러 개의 약한 학습기를 결합하여 더 강력한 예측 성능을 발휘할 수 있는 강한 학습기를 만들 수 있다. 2. 부스팅 알고리즘의 장점과 단점 부스팅 알고리즘의 장점높은 예측 성능 : 여러 약한 학습기를 결합하여 강력한 예측 모델을 만들 수 있다.유연성 : 분류, 회귀 등 다양한 머신러닝 문제에 적용 가..
1. 앙상블 학습-보팅(Voting) 보팅은 여러 개의 분류기가 투표를 통해 최종 예측 결과를 결정하는 방식으로 서로 다른 알고리즘을 가진 분류기를 결합하는 형태이다.  2. 보팅 - Soft Voting & Hard Voting Hard Voting은 다수의 Classifier 간 다수결로 최종 Class를 결정한다.아래 그림에서 Classifer1~4가 있다고 가정한다. Classifier1, 3, 4는 클래스 값 ①로 예측을 하고 Classifier2는 클래스 값 ②로 예측을 하게 되면 다수결로 최종 클래스값 ①로 예측하게 된다.  Soft Voting은 다수의 classifier들의 class 확률을 평균하여 결정한다.아래 그림에서 Classifer1~4가 있다고 가정한다. 각각의 Classif..
1. 앙상블 학습 앙상블 학습을 통한 분류는 여러 개의 분류기(Classifier)를 생성하고 그 예측을 결합함으로써 보다 정확한 최종 예측을 도출하는 기법이다.앙상블 학습의 목표는 다양한 분류기의 예측 결과를 결합함으로써 단일 분류기보다 신뢰성이 높은 예측값을 얻는 것이다. 앙상블의 특징을 살펴보면 아래와 같다.단일 모델의 약점을 다수의 모델들을 결합하여 보완뛰어난 성능을 갖진 모델들로만 구성하는 것보다 성능이 떨어지더라도 서로 다른 유형의 모델을 섞는 것이 오히려 전체 성능에 도움이 될 수 있다.랜덤 포레스트 및 뛰어난 부스팅 알고리즘들은 모두 결정 트리 알고리즘을 기반 알고리즘으로 적용함결정 트리의 단점인 과적합(오버피팅)을 수십~수천개의 많은 분류기를  결합해 보완하고 장점인 직관적인 분류 기준은..
UCI 머신러닝 리포지토리에서 제공하는 사용자 행동 인식 데이터 셋을 이용하여 결정트리를 실습해 보자.   1. 사용자 행동 인식 데이터의 데이터 확인 및 정확도 측정 사용자 행동 인식 데이터 세트는 30명의 스마트 폰 센서를 장착한 뒤, 사람의 동작과 관련된 여러가지 피처를 수집한 데이터이고 이 데이터를 기반으로 사용자의 행동이 어떤 동작인지를 예측해야 한다. 데이터는 아래 경로에서 다운로드 가능하다https://archive.ics.uci.edu/dataset/240/human+activity+recognition+using+smartphones 먼저 feature.txt 파일을 DataFrame으로 로드한다. feature 데이터는 561개의 row와 2개의 column으로 구성되어있다. impor..
1. 결정트리 더미 데이터 생성 사이킷런에서 제공하는 make_classification()를 통해 분류 모형 데이터를 생성하고 시각화해 이를 통해 과적합(Overfitting)을 살펴본다. make_classification()는 분류를 위해 테스트용 데이터를 쉽게 만들수 있도록 하는 함수이며 파라미터는 아래와 같다.n_features : 독립 변수의 수, 디폴트 20n_samples : 표본 데이터의 수, 디폴트 100n_redundant : 독립 변수 중 다른 독립 변수의 선형 조합으로 나타나는 성분의 수, 디폴트 2n_informative : 독립 변수 중 종속 변수와 상관 관계가 있는 성분의 수, 디폴트 2n_repeated : 독립 변수 중 단순 중복된 성분의 수, 디폴트 0n_classes..
야뤼송
야뤼송