취뽀 기록

#열심히 살자 #취업 #공부

Python/[머신러닝] 3

[python] 스포츠 센터 데이터 분석 ①

스포츠 센터에는 센터를 언제든 사용할 수 있는 종일 회원, 낮에만 사용할 수 있는 주간 회원, 밤에만 사용할 수 있는 야간 회원으로 3종류의 회원 구분이 존재 일반적으로 입회비가 존재하지만, 비정기적으로 입회비 반액 할인이나 입회비 무료 행사를 해서 신규회원을 늘리고 있음 월말까지 신청하면 그 다음 달 말에 탈퇴 처리 취급할 데이터 종류 ① use_log.csv - 센터 이용 이력, 회원이 센터를 이용하면 이용일이 시스템에 자동 입력됨 - 2018년 4월 ~ 2019년 3월까지 1년의 데이터 ② customer_master.csv - 2019년 3월 말 시점의 회원 데이터, 이전에 탈퇴한 회원도 포함되어 있음 ③ class_master.csv - 회원 구분 데이터(종일, 주간, 야간) ④campaign_..

[머신러닝] Boosting(부스팅) vs Bagging(배깅)

Bagging(Bootstrap Aggregating) - 무작위 복원 샘플링(Bootstrap)을 통해 여러 개의 동일한 모델을 병렬적으로 학습하고 그 결과를 평균화하여 최종 예측을 수행하는 방법 - 각 모델은 원본 데이터에서 독립적인 부분 데이터셋을 생성하여 학습 -> 이렇게하면 다양한 데이터를 이용하여 각 모델이 서로 다른 관점으로 학습하게 되어 다양성 증가 - 대표적인 Bagging 알고리즘으로는 랜덤 포레스트(Random Forest)가 있음 Boosting - 약한 학습기를 순차적으로 학습하여 각 모델의 예측 결과에 가중치를 부여하여 최종 예측을 결합하는 방법 - 각 모델은 이전 모델의 오차를 보완하도록 학습되기 때문에 점점 더 강력한 모델이 생성됨 - Boosting은 가중치를 업데이트하면서..

[머신러닝] 파이썬 머신러닝 완벽가이드 4장- LightGBM

1. LightGBM 설치 XGBoost의 약점을 극복하기 위해 등장. → 학습 시간이 훨씬 적음 일반 GBM 계열의 트리 분할 방법과 다르게, 리프 중심 트리 분할 방식을 사용하고 있음 기존의 대부분 트리 기반 알고리즘은 트리의 깊이를 효과적으로 줄이기 위한 균형 트리 분할 방식 사용. 즉, 최대한 균형 잡힌 트리를 유지하면서 분할하기 때문에 트리의 깊이가 최소화될 수 있음. → 과적합에 더 강한 구조를 가질 수 있다고 알려져 있음 트리 중심의 단점은, 균형을 맞추기 위한 시간이 필요함. 리프 중심 방식은 트리의 균형을 맞추지 않고, 트리의 깊이가 깊어지고 비대칭적인 규칙 트리가 생성됨. → 학습을 반복할수록 균형 트리 분할 방식보다 예측 오류 손실을 최소화할 수 있음 XGBoost와 마찬가지로 plo..