본문 바로가기

Data/머신러닝8

[파이썬머신러닝완벽가이드]GBM(Gradient Boosting Machine) GBM의 개요 및 실습 부스팅 알고리즘은 여러 개의 학습기를 순찾거으로 학습-예측하면서 잘못 예측한 데이터에 가중치 부여를 통해 오류를 개선해 나가면서 학습하는 방식이다. 대표적:AdaBoost(Adaptive boosting)와 그래디언트 부스트 - AdaBoost(Adaptive boosting) : 오류 데이터에 가중치를 부여하면서 부스팅을 수행하는 대표적인 알고리즘 동그라미 형태가 잘못된 오류 데이터이고, 이 오류 데이터에 대해서 가중치 값을 부여하는방식으로 학습을 진행한다. ->adaboost 동작 원리 https://bkshin.tistory.com/entry/%EB%A8%B8%EC%8B%A0%EB%9F%AC%EB%8B%9D-14-AdaBoost 머신러닝 - 14. 에이다 부스트(AdaBoos.. 2023. 7. 2.
[파이썬머신러닝완벽가이드]04.분류(1) 1. 분류 - 지도학습의 대표적인 유형 - 학습 데이터로 주어진 데이터의 피처와 레이블값(결정 값, 클래스 값)을 머신러닝 알고리즘으로 학습하여 모델을 생성 - 생성된 모델에 새로운 데이터 값이 주어졌을때 미지의 레이블 값을 예측하는 것 1.1 분류를 구현할 수 있는 다양한 머신러닝 알고리즘 나이브 베이즈(Naive Bayes) : 베이즈 통게와 생성 모델에 기반한 나이브 베이즈 로지스틱 회귀(Logistic Regression) : 독립변수와 종속변수의 선형 관계성에 기반한 로지스틱 회귀 결정 트리(Decision Tree) : 데이터 균일도에 따른 규칙 기반의 결정 트리 서포트 벡터 머신(Support Vector Machine) : 개별 클래스 간의 최대 분류 마진을 효과적으로 찾아주는 서포트 벡터.. 2023. 5. 20.
[파이썬머신러닝완벽가이드]03.평가(2) X = diabetes_data.iloc[:,:-1] y = diabetes_data.iloc[:,-1] #standardScaler 클래스를 이용해 피처 데이터 세트에 일괄적으로 스케일링 적용 scaler = StandardScaler() X_scaled = scaler.fit_transform(X) X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.2, random_state=156, stratify=y) #로지스틱 회귀로 학습, 예측 및 평가 수행 Ir_clf = LogisticRegression() Ir_clf.fit(X_train, y_train) pred = Ir_clf.predict(X_test) pred.. 2023. 5. 13.
[파이썬머신러닝완벽가이드]03.평가(1) 1. 평가(Evaluation) - 머신러닝 프로세스 데이터 가공/변환 - 모델 학습/예측 - 평가 - 성능 평가 지표(Evaluation Metric)는 모델이 회귀인지 분류인지에 따라 나뉨 1) 회귀의 경우 대부분 실제값과 예측값의 오차 평균값에 기반 2) 분류의 평가 방법 -> 이번 장에서배울 내용 분류의 성능평가 지표 - 정확도 - 오차행렬 - 정밀도 - 재현율 - F1 스코어 - ROC AUC 1. 정확도( ACCURACY) : 실제 데이터에서예측 데이터가 얼마나 같은지 판단하는 지표( 직관적으로 모델 예측 성증 나타내는 지표) 정확도(Accuracy) = 예측 결과가 동일한 데이터 건수 / 전체 예측 데이터 건수 : 특정 결과 값 True가 몰려있고 정답을 무조건 True 로 나오도록 한다면 .. 2023. 5. 6.
[파이썬머신러닝완벽가이드]02.사이킷런으로 시작하는 머신러닝(2) 1.데이터 전처리 ML 알고리즘 만큼 중요하다. 어떠한 데이터에 기반하냐에 따라 결과도 달라진다 . * ML 알고리즘을 적용하기 전 데이터에 대해 미리 처리해야할 사항 1) 결손값, Null 값은 허용되지 않는다. 따라서 Null 값을 다른 값으로 변환해야 한다. -> 평균값으로 대체하거나 더 정밀한 대체값을 선정해햐 한다. 2) 모든 문자열 값은 이코딩 되서 숫자형으로 변환해야 한다. 1. 데이터 인코딩 - 방법: 레이블 인코딩(Label encoding) // 원-핫 인코딩(One Hot encoding) 1. 레이블 인코딩 : 카테고리 피처를 코드형 숫자 값으로 변환하는 것 ex) 데이터의 상품 구분이 냉장고, TV, 전자레인지 등으로 돼 있다면, 냉장고:1, TV:2, 전자레인지 :3 이런식으로 .. 2023. 4. 28.
[파이썬머신러닝완벽가이드]02.사이킷런으로 시작하는 머신러닝(1) 1. 사이킷런? 파이썬 머신러닝 라이브러리 중 가장 많이 사용되는 라이브러리 -> 기본적으로 아나콘다에 사이킷런은 설치되어 있음 #install conda install scikit-learn #import import sklearn #version 확인 import sklearn print(sklearn.__version__) 2. 붓꽃 품종 예측하기 - 머신러닝 만들기 전 기초 준비 # 붓꽃 데이터 로드 from sklearn.datasets import load_iris # 의사결정 트리를 사용 from sklearn.tree import DecisionTreeClassifier #학습데이터와 테스트 데이터 분류 from sklearn.model_selection import train_test_s.. 2023. 4. 20.