본문 바로가기

Data10

[파이썬으로시작하는데이터사이언스]판다스 치트시트를 활용한 기초익히기 #부스트코스 1.판다스 import import pandas as pd 2. DataFrame df = pd.DataFrame( {"a" : [4, 5, 6], "b" : [7, 8, 9], "c" : [10, 11, 12]}, index = [1, 2, 3]) df 3. Series df["a"] df[["a"]] 4. Subset(일부 값만 불러오기) # Rows 기준 예시 df[df.Length > 7] # Columns 기준 예시 df[['width', 'length', 'species']] df["a", "b"] # 두 개 이상의 값을 불러올 때 Series형태로 불러올 경우 키값 오류가 발생합니다. df[["a", "b"]] # DataFrame 형태로 불러와야 합니다. *주의: 두 개 이상의.. 2023. 10. 9.
[파이썬으로시작하는데이터사이언스]파이썬속성코스 #부스트코스 1.import import this #결과 : # The Zen of Python, by Tim Peters # # Beautiful is better than ugly. # Explicit is better than implicit. # Simple is better than complex. # Complex is better than complicated. # Flat is better than nested. # Sparse is better than dense. # Readability counts. # Special cases aren't special enough to break the rules. # Although practicality beats purity. # Errors.. 2023. 10. 9.
[파이썬머신러닝완벽가이드]GBM(Gradient Boosting Machine) GBM의 개요 및 실습 부스팅 알고리즘은 여러 개의 학습기를 순찾거으로 학습-예측하면서 잘못 예측한 데이터에 가중치 부여를 통해 오류를 개선해 나가면서 학습하는 방식이다. 대표적:AdaBoost(Adaptive boosting)와 그래디언트 부스트 - AdaBoost(Adaptive boosting) : 오류 데이터에 가중치를 부여하면서 부스팅을 수행하는 대표적인 알고리즘 동그라미 형태가 잘못된 오류 데이터이고, 이 오류 데이터에 대해서 가중치 값을 부여하는방식으로 학습을 진행한다. ->adaboost 동작 원리 https://bkshin.tistory.com/entry/%EB%A8%B8%EC%8B%A0%EB%9F%AC%EB%8B%9D-14-AdaBoost 머신러닝 - 14. 에이다 부스트(AdaBoos.. 2023. 7. 2.
[파이썬머신러닝완벽가이드]04.분류(1) 1. 분류 - 지도학습의 대표적인 유형 - 학습 데이터로 주어진 데이터의 피처와 레이블값(결정 값, 클래스 값)을 머신러닝 알고리즘으로 학습하여 모델을 생성 - 생성된 모델에 새로운 데이터 값이 주어졌을때 미지의 레이블 값을 예측하는 것 1.1 분류를 구현할 수 있는 다양한 머신러닝 알고리즘 나이브 베이즈(Naive Bayes) : 베이즈 통게와 생성 모델에 기반한 나이브 베이즈 로지스틱 회귀(Logistic Regression) : 독립변수와 종속변수의 선형 관계성에 기반한 로지스틱 회귀 결정 트리(Decision Tree) : 데이터 균일도에 따른 규칙 기반의 결정 트리 서포트 벡터 머신(Support Vector Machine) : 개별 클래스 간의 최대 분류 마진을 효과적으로 찾아주는 서포트 벡터.. 2023. 5. 20.
[파이썬머신러닝완벽가이드]03.평가(2) X = diabetes_data.iloc[:,:-1] y = diabetes_data.iloc[:,-1] #standardScaler 클래스를 이용해 피처 데이터 세트에 일괄적으로 스케일링 적용 scaler = StandardScaler() X_scaled = scaler.fit_transform(X) X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.2, random_state=156, stratify=y) #로지스틱 회귀로 학습, 예측 및 평가 수행 Ir_clf = LogisticRegression() Ir_clf.fit(X_train, y_train) pred = Ir_clf.predict(X_test) pred.. 2023. 5. 13.
[파이썬머신러닝완벽가이드]03.평가(1) 1. 평가(Evaluation) - 머신러닝 프로세스 데이터 가공/변환 - 모델 학습/예측 - 평가 - 성능 평가 지표(Evaluation Metric)는 모델이 회귀인지 분류인지에 따라 나뉨 1) 회귀의 경우 대부분 실제값과 예측값의 오차 평균값에 기반 2) 분류의 평가 방법 -> 이번 장에서배울 내용 분류의 성능평가 지표 - 정확도 - 오차행렬 - 정밀도 - 재현율 - F1 스코어 - ROC AUC 1. 정확도( ACCURACY) : 실제 데이터에서예측 데이터가 얼마나 같은지 판단하는 지표( 직관적으로 모델 예측 성증 나타내는 지표) 정확도(Accuracy) = 예측 결과가 동일한 데이터 건수 / 전체 예측 데이터 건수 : 특정 결과 값 True가 몰려있고 정답을 무조건 True 로 나오도록 한다면 .. 2023. 5. 6.