본문 바로가기

전체 글133

[파이썬머신러닝완벽가이드]03.평가(1) 1. 평가(Evaluation) - 머신러닝 프로세스 데이터 가공/변환 - 모델 학습/예측 - 평가 - 성능 평가 지표(Evaluation Metric)는 모델이 회귀인지 분류인지에 따라 나뉨 1) 회귀의 경우 대부분 실제값과 예측값의 오차 평균값에 기반 2) 분류의 평가 방법 -> 이번 장에서배울 내용 분류의 성능평가 지표 - 정확도 - 오차행렬 - 정밀도 - 재현율 - F1 스코어 - ROC AUC 1. 정확도( ACCURACY) : 실제 데이터에서예측 데이터가 얼마나 같은지 판단하는 지표( 직관적으로 모델 예측 성증 나타내는 지표) 정확도(Accuracy) = 예측 결과가 동일한 데이터 건수 / 전체 예측 데이터 건수 : 특정 결과 값 True가 몰려있고 정답을 무조건 True 로 나오도록 한다면 .. 2023. 5. 6.
[파이썬머신러닝완벽가이드]02.사이킷런으로 시작하는 머신러닝(2) 1.데이터 전처리 ML 알고리즘 만큼 중요하다. 어떠한 데이터에 기반하냐에 따라 결과도 달라진다 . * ML 알고리즘을 적용하기 전 데이터에 대해 미리 처리해야할 사항 1) 결손값, Null 값은 허용되지 않는다. 따라서 Null 값을 다른 값으로 변환해야 한다. -> 평균값으로 대체하거나 더 정밀한 대체값을 선정해햐 한다. 2) 모든 문자열 값은 이코딩 되서 숫자형으로 변환해야 한다. 1. 데이터 인코딩 - 방법: 레이블 인코딩(Label encoding) // 원-핫 인코딩(One Hot encoding) 1. 레이블 인코딩 : 카테고리 피처를 코드형 숫자 값으로 변환하는 것 ex) 데이터의 상품 구분이 냉장고, TV, 전자레인지 등으로 돼 있다면, 냉장고:1, TV:2, 전자레인지 :3 이런식으로 .. 2023. 4. 28.
[파이썬머신러닝완벽가이드]02.사이킷런으로 시작하는 머신러닝(1) 1. 사이킷런? 파이썬 머신러닝 라이브러리 중 가장 많이 사용되는 라이브러리 -> 기본적으로 아나콘다에 사이킷런은 설치되어 있음 #install conda install scikit-learn #import import sklearn #version 확인 import sklearn print(sklearn.__version__) 2. 붓꽃 품종 예측하기 - 머신러닝 만들기 전 기초 준비 # 붓꽃 데이터 로드 from sklearn.datasets import load_iris # 의사결정 트리를 사용 from sklearn.tree import DecisionTreeClassifier #학습데이터와 테스트 데이터 분류 from sklearn.model_selection import train_test_s.. 2023. 4. 20.
[파이썬머신러닝완벽가이드]01.파이썬 기반의 머신러닝과 생태계 이해: 판다스 1. Pandas 데이터 처리를 위해 가장 인기 있는 라이브러리 대부분의 데이터 세트는 2차원 데이터 (행 X 열) 넘파이보다 훨씬 더 유연하게 핸들링 가능 판다스의 핵심 객체는 DataFrame( 여러 개의 행과 열로 이뤄진 2차원 데이터를 담는 데이터 구조체) 판다스는 DataFrame 으로 로딩할 수 있는 편리한 API를 제공한다. * 타이타닉 탑승자 데이터 파일 받기 더보기 https://www.kaggle.com/competitions/titanic/data?select=train.csv Titanic - Machine Learning from Disaster | Kaggle www.kaggle.com 2. pandas 시작 - csv 파일 읽기 import pandas as pd ti = pd.. 2023. 4. 15.
[파이썬머신러닝완벽가이드]01.파이썬 기반의 머신러닝과 생태계 이해: 넘파이 1. 머신러닝이란? 애플리케이션을 수정하지 않고, 데이터를 기반으로 패턴을 학습하고 결과를 예측하는 알고리즘 기법을 통칭 다양한 분야에서 머신러닝의 응용이 두드러지고 있으며, 데이터 마이닝, 영상인식 등 급격하게 발전함. 2. 관련 SW 설치 (사용자의 맞게 설치하기) - anaconda 더보기 https://www.anaconda.com/products/distribution Anaconda | Anaconda Distribution Anaconda's open-source Distribution is the easiest way to perform Python/R data science and machine learning on a single machine. www.anaconda.com - pyt.. 2023. 4. 13.
[SW] 톰캣 설치 후 컨테이너 두개 띄우기 :: 멀티컨테이너 생성 업무중 한개의 VM 에 톰캣을 설치 후, 멀티컨테이너(2개이상)로 운영하는 방법을 진행하게 되었다. 멀티컨테이너로 구축하는 경험도 처음이었고, 나중에도 유용하게 쓰일 것 같아 차근차근 정리해보려한다. 멀티컨테이너로 동작시키는 방법은 2가지 방법이 있다. 오늘은 그중에서 port 를 다르게 줘, 작동하는 방법을 작성해보려 한다. * User 생성하기 1. 유저 추가 $ useradd testuser useradd + [생성할 user] 2. 패스워드 변경 $ passwd testuser * 단 반드시 root 권한으로 할것 3 권한 넣기 $ vi /etc/sudoers : 계정 추가 후 root 권한 넣어주기 * 멀티 컨테이너 생성하기 1. jdk 설치하기 2. java 환경변수 등록하기 $ vi /etc.. 2022. 11. 3.