[BDA 11기] 데이터 분석 모델링(ML1) - 16주차
·
BDA-11th
Ⅰ. 군집화 후속 분석군집k-means 이용k 값은 3~6개 사이에서 elbow method로 결정너무 크며 군집 후 사후 분석이 어렵기 떄문에 적절하게 찾아야 함. 사후 분석군집 결과를 label(y)로 간주각 군집의 비즈니스 특징 도출 (시각화를 이용하려 특징 도출 → sns.pairplot각 고객 군에 대한 마케팅 전략 수립 Ⅱ. 군집화 후속분석 - 고객 세분화1. 환경준비(1) 라이브러리 로딩import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as snsfrom sklearn.cluster import KMeansfrom sklearn.preprocessing import MinMaxScalerfrom..
[BDA 11기] 데이터 분석 모델링(ML1) - 15주차
·
BDA-11th
Ⅰ. 군집화: k-means, DBSCAN1. k-means개념K개의 평균으로부터 거리를 계산하고 가까운 평균으로 묶어 Cluster를 나누는 방식k-means 절차클러스터의 개수 지정(k)그룹의 중심 점(mean)이 무작위로 선택됨임의로 선택된 중심 점과 각 점 간의 거리를 계산해서 가장 가까운 중심점의 그룹으로 선택됨선택된 그룹의 점들을 기준으로 중심점을 계산해서 찾고,3~4번을 반복 → 중심점의 변화가 거의 없을 때까지 진행k-meams 문법k-meas 함수 사용거리 기반 알고리즘이어서 Scaling 필수k: n_clustersn_init : 초기값 무작위 지정, 지정된 회수 만큼 수행학습할 때는 x만 입력예측: 지정한 클러스터의 개수 내에서 구분# k means 학습model = KMeans(n_..
[BDA 11기] 데이터 분석 모델링(ML1) - 14주차
·
BDA-11th
Ⅰ. 차원축소 t-SNE1. PCA의 단점PCA는 분산이 가장 큰 방향을 기준으로 새로운 축을 찾는 선형 축소 방법, 계산이 빠르고 해석이 직관적But, 선형 구조만 표현 가능함저차원에서 특징을 잘 담아내지 못하는 경우가 발생 2. t-SNE (t-distributed Stochastic Neighbor Embedding)원본(고차원 공간)에서 서로 가까운 데이터들끼리의 관계를 기반으로 유사도 맵을 생성차원을 축소한 저차원 공강에서도 원본에서 가까웠던 데이터들이 여전히 가깝게 위치하도록 배치⇒ 즉, 원본 데이터의 유사도 구조를 저차원에서도 유지하려는 차원 축소 방식!t-SNE 원리원본 데이터에서 유클리드 거리 계산 → 어떤 점들이 서로 가까운지 파악거리 정보를 확률적 유사도로 변환 → 가까운 점일수록 높..
[BDA 11기] 데이터 분석 모델링(ML1) - 13주차
·
BDA-11th
🧊 차원축소 (Dimensionality Reduction)1. 패턴을 찾는 방법각 점은 하나의 관측치(sample)전체 분포가 가지는 패턴을 찾는 것이 핵심2. 비지도 학습 특징정답 레이블(y) 없이 입력 변수 x만 사용 → x 안에서 패턴 인식 문제 데이터 내부 구조, 분포, 관계를 스스로 학습단독으로 끝내기보다는 후속 분석을 위한 전처리 단계로 사용하는 경우가 많음 (1) 비지도 학습의 주요 활용 방식차원축소 : 고차원 데이터를 축소하여 새로운 feature를 생성 → 시각화, 지도학습 연계클러스터링 : 고객별 군집 생성 → 고객 세그먼트 분석, 패턴 그룹화이상탐지 : 정상 데이터 범위 지정 → 범위 밖 데이터를 이상치로 판정(2) 차원(dimension)차원의 수 = 변수(feature)의 수 ..