본문 바로가기

전체 글338

완전 초짜 ORANGE 3 : 연관 분석 ▷연관 분석(Association Analysis) -비지도 학습의 하나 = 연관된 정보를 찾아가는 분석. -장바구니 분석 / 서열 분석. -데이터 사이의 순서와 상관관계를 살펴봄. -주로 기업이 구매 패턴을 분석 시 사용. -장비구니 분석 예 : 월마트 분석 = 20, 30대의 남자가 마트를 갈 때 기저귀와 맥주를 함께 구입한다. / 남자가 마트를 갈 때는 주로 아내의 심부름으로 가는 경우가 많음. 그래서 아기 기저귀를 사고 자신이 마실 맥주를 함께 구입하는 것. -서열 분석 예 : A 를 산 다음에 B를 산다 >> 보험사의 부정행위 적발 ▷연관성 규칙(Association Rule) -조건과 반응 : if A then B / A → B 이고, B → C 라면 A → C 일거라는 것 / 이때 A가 B의.. 2021. 9. 6.
완전 초짜 ORANGE 3 : 지오코딩 ▷지오코딩(Geocoding) -지리공간 인공지능 = Geo AI -지오코딩 = 고유명칭(주소, 지명 등)을 위도, 경도의 좌표값으로 변환 -역지오코딩 = 위도, 경도의 좌표 값을 주소(고유명칭)으로 변환 -지리 공간 서비스를 시각화하고, 지리적 위치의 패턴과 추세를 시각화함. -응용분야 : 모빌리티 / 부동산 가격 예측 등 ▷지오코딩(Geocoding) 위젯 ▷Geocoding Geocoding 위젯은 등록된 고유명칭을 위도, 경도 값으로 바꿔준다. 이때 등록되지 않은 고유명칭이 나올 경우 위처럼 등록된 고유명칭으로 바꿔줘야 컴퓨터가 인식할 수 있다. ▷Choropleth Map 이 위젯은 통계 변수의 측정에 비례해 영역이 음영처리되는 주제 맵으로 표시한다. 즉 하나의 커다란 세계지도 역할이다. ▷Ge.. 2021. 9. 5.
완전 초짜 ORANGE 3 : 내가 분석한 실습예제 1. 모델 생성 위와 같이 로지스틱 회귀 / 서포트백터머신 / 결정트리 / 랜던포레스트 /k-Nearest Neighbor 의 5가지 지도학습 알고리즘을 활용하여 타이타닉 생존자 예측 모델을 테스트 했습니다. 2. 학습 / 예측 현재 5가지 모델 중 random forest 모델의 area under ROC curve / accuracy / f1 score / 정밀도 / 재현율이 가장 높습니다. Tree 모델보다 근소하게 높습니다. 따라서 타이타닉 생존자 예측에 가장 최적화된 모델은 random forest 모델일 것으로 예상됩니다. 3. 평가 random forest 와 Tree 모델을 비교해보면 TN/FN 영역에서는 랜덤 포레스트가, FP/TP 영역에서는 트리 모델이 좀 더 우위인 것을 확인할 수 있.. 2021. 9. 4.
완전 초짜 ORANGE 3 : 비지도학습 군집화 위젯 ▷Distances + Hierarchical Clustering (계층적 군집화) 계층적 군집화에 활용되는 Distances + Hierarchical Clustering 위젯이다. 두개를 묶어서 세트로 활용하는 경우가 많다. distances 위젯이 군집화 데이터 처리를 한다면, Hierarchical Clustering 위젯은 시각화하여 보여준다. 현재 크게 2가지 군집으로 나뉜것을 볼 수 있다. ▷Distances Matrix (계층적 군집화) Distances Matrix 는 데이터 세트 요소와 요소 사이의 거래 행렬을 만들어 표현한다. 이를 통해 각 요소간의 분포 정도를 수치 데이터로 확인할 수 있다. ▷k-Means + Silhouette Plot (분할적 군집화 + 중심기반 ) 마찮가지로 .. 2021. 9. 3.
완전 초짜 ORANGE 3 : 비지도학습(차원축소) ▷차원의 저주 -차원이 증가할수록 변수들의 밀집도가 넓어짐. 따라서 개별 차원 내 학습 데이터의 수가 적어짐. -예) kNN 모델에서 차원이 커질수록 주변의 데이터들이 멀어짐 -따라서 변수들을 상관관계가 높은 묶음으로 묶고 데이터 차원을 축소해 정제하는 과정이 필요함. -예) 고전, 프랑스어, 영어 >> 언어 능력 -PCA ( Principal Component Analysis ) : 주성분 분석 - 변수들의 선형 조합에 의해 대표적인 주성분을 만들어 차원을 줄이는 방식(고유분산이 필요 x) -t-SNE (t-Stochastic Neighbor Embedding) : t-분산 확률적 인접 임베딩 방법을 사용해 데이터를 표시하는 방식 / 확률 분포에 의해 2차원 공간에 mapping 함 -FA (Facto.. 2021. 9. 2.
완전 초짜 ORANGE 3 : 비지도학습 군집화 기초 ▷군집화(Clustering) -주어진 데이터를 유사한 데이터 그룹으로 나누는 것 군집화(Clustering) 분류(Classification) -정확히 지정된 속성 없이 유사 속성에 따라 나눠가는 것 -비지도학습(기준을 찾아가는 과정) -정해진 기준(label)에 따라 나누는 것 -지도학습(기준 미리 제시) -군집화 알고리즘의 종류 계층적 군집화 응집형(Bottom - up) -계층적 트리모형 / 덴드로그램 사용 -Hierarchical Clustering 위젯 분리형(top-down) 분할적 군집화 중심기반(Centeroid) -k-Means(k평균군집화) 위젯 밀도기반(Core point) -DBSCAN 위젯 -군집화의 사용 : 지도학습의 분류의 전단계에 활용하면 좋음 / 대량의 데이터를 요약하고 .. 2021. 9. 1.
완전 초짜 ORANGE 3 : 지도학습 모델 평가(회귀편) -범주형 데이터의 경우 분류를 활용하기 때문에 전 포스팅에서 보았던 분류 모델들을 활용하면 된다.(k-NN / Tree / Logistic Regression / 등) -그러나 수치형 데이터(Numeric)를 지도학습 하기 위해선 회귀분석을 주로 사용한다. -방법은 다를게 하나도 없다. 위 그림의 지도학습 부분에 회귀분석 모델을 사용하면 된다. 나머지 부분을 동일하게 진행된다. -한 가지만 더;;^^ 모델 성능을 평가하는 지표들도 살짝 달라지게 되는데... ▷회귀분석 모델 평가 -회귀분석의 모델을 평가하는데 필요한 지표들을 알아보자. -MAE : (예측값 - 실측값) 의 평균 / Mean Absolute Error -MSE : (예측값 - 실측값)2 의 평균 / Mean Square Error -RMSE.. 2021. 8. 31.
완전 초짜 ORANGE 3 : 지도학습 모델 평가 ▷ 지도학습 방법 : 4. 최적화 모델 선택 배경 어떤 모델이 가장 최적의 모델인지 선택하기 위해서는 분류모델의 성능을 평가하는 지표(score)를 알아야한다. 이때 가장 기본이 되는 것이 이다. TP는 맞다고 예측하고 실제로도 맞은 경우 / FN은 맞다고 예측했는데 아닌 경우 / FP는 아니라고 예측했는데 맞은 경우 / TN은 아니라고 예측했는데 아닌 경우이다. 즉 TP/TN은 높을수록 FP/FN는 낮을수록 성능이 좋은 모델이다. 이를 바탕으로 분류 모델의 성능을 평가하는 를 산출할 수 있다. 정밀도 / 정확도 / 재현율 / F1 점수가 여기에서 나온다. 모델의 성능을 평가하기 위해선 한가지 더 알아야하는게 있다. 위의 그래프를 ROC 곡선이라고 한다. 이는 민감도(TPR)와 거짓참판정 비율(FPR)을.. 2021. 8. 30.
완전 초짜 ORANGE 3 : 지도학습 ▷지도학습(Supervised Learning) -과거의 데이터로부터 학습해 결과를 예측하는 모델을 형셩 -주어진 과거의 데이터들이 특별한 경향성을 띄고 있음을 가정 -어떤 변수가 결과로 정한 변수의 원인이 되는지, 어떤 변수가 상관관계가 큰지 파악하는 과정 -즉, 인과관계를 가지는 데이터 or 변수를 해석함 -원인이 되는 변수 = 독립변수(Feature) / 결과가 되는 변수 = 종속변수(Target) -종속변수가 양적, 범주형 데이터를 가져야 함. -많은 매개변수를 처리해야 하기 때문에 컴퓨터의 활용이 매우 중요 -회귀 = 다시 돌아간다 = 평균으로 돌아간다 = 여러 데이터들을 평균의 경향성을 중심으로 해석 -최소제곱법 : 잔차의 합의 제곱이 최소가 되게하는 매개변수 값을 구함 / 회귀분석에 사용 독.. 2021. 8. 29.