본문 바로가기

교육은 한 사람의 인생을 바꾼다71

완전 초짜 ORANGE 3 : 비지도학습 군집화 기초 ▷군집화(Clustering) -주어진 데이터를 유사한 데이터 그룹으로 나누는 것 군집화(Clustering) 분류(Classification) -정확히 지정된 속성 없이 유사 속성에 따라 나눠가는 것 -비지도학습(기준을 찾아가는 과정) -정해진 기준(label)에 따라 나누는 것 -지도학습(기준 미리 제시) -군집화 알고리즘의 종류 계층적 군집화 응집형(Bottom - up) -계층적 트리모형 / 덴드로그램 사용 -Hierarchical Clustering 위젯 분리형(top-down) 분할적 군집화 중심기반(Centeroid) -k-Means(k평균군집화) 위젯 밀도기반(Core point) -DBSCAN 위젯 -군집화의 사용 : 지도학습의 분류의 전단계에 활용하면 좋음 / 대량의 데이터를 요약하고 .. 2021. 9. 1.
완전 초짜 ORANGE 3 : 지도학습 모델 평가(회귀편) -범주형 데이터의 경우 분류를 활용하기 때문에 전 포스팅에서 보았던 분류 모델들을 활용하면 된다.(k-NN / Tree / Logistic Regression / 등) -그러나 수치형 데이터(Numeric)를 지도학습 하기 위해선 회귀분석을 주로 사용한다. -방법은 다를게 하나도 없다. 위 그림의 지도학습 부분에 회귀분석 모델을 사용하면 된다. 나머지 부분을 동일하게 진행된다. -한 가지만 더;;^^ 모델 성능을 평가하는 지표들도 살짝 달라지게 되는데... ▷회귀분석 모델 평가 -회귀분석의 모델을 평가하는데 필요한 지표들을 알아보자. -MAE : (예측값 - 실측값) 의 평균 / Mean Absolute Error -MSE : (예측값 - 실측값)2 의 평균 / Mean Square Error -RMSE.. 2021. 8. 31.
완전 초짜 ORANGE 3 : 지도학습 모델 평가 ▷ 지도학습 방법 : 4. 최적화 모델 선택 배경 어떤 모델이 가장 최적의 모델인지 선택하기 위해서는 분류모델의 성능을 평가하는 지표(score)를 알아야한다. 이때 가장 기본이 되는 것이 이다. TP는 맞다고 예측하고 실제로도 맞은 경우 / FN은 맞다고 예측했는데 아닌 경우 / FP는 아니라고 예측했는데 맞은 경우 / TN은 아니라고 예측했는데 아닌 경우이다. 즉 TP/TN은 높을수록 FP/FN는 낮을수록 성능이 좋은 모델이다. 이를 바탕으로 분류 모델의 성능을 평가하는 를 산출할 수 있다. 정밀도 / 정확도 / 재현율 / F1 점수가 여기에서 나온다. 모델의 성능을 평가하기 위해선 한가지 더 알아야하는게 있다. 위의 그래프를 ROC 곡선이라고 한다. 이는 민감도(TPR)와 거짓참판정 비율(FPR)을.. 2021. 8. 30.
완전 초짜 ORANGE 3 : 지도학습 ▷지도학습(Supervised Learning) -과거의 데이터로부터 학습해 결과를 예측하는 모델을 형셩 -주어진 과거의 데이터들이 특별한 경향성을 띄고 있음을 가정 -어떤 변수가 결과로 정한 변수의 원인이 되는지, 어떤 변수가 상관관계가 큰지 파악하는 과정 -즉, 인과관계를 가지는 데이터 or 변수를 해석함 -원인이 되는 변수 = 독립변수(Feature) / 결과가 되는 변수 = 종속변수(Target) -종속변수가 양적, 범주형 데이터를 가져야 함. -많은 매개변수를 처리해야 하기 때문에 컴퓨터의 활용이 매우 중요 -회귀 = 다시 돌아간다 = 평균으로 돌아간다 = 여러 데이터들을 평균의 경향성을 중심으로 해석 -최소제곱법 : 잔차의 합의 제곱이 최소가 되게하는 매개변수 값을 구함 / 회귀분석에 사용 독.. 2021. 8. 29.
완전 초짜 ORANGE 3 : 다양한 위젯으로 데이터 분석 ▷Pivot Table 열(Row) 값을 기준으로 데이터 테이블의 모양을 변경한다. 즉, 기존의 데이터로 부터 새로운 통계적 데이터로 데이터 테이블을 추출하는 위젯. 총합, 평균, 최소값, 최대값 등 다양한 통계 데이터를 제공한다. 위는 각 class(1~3등급)별 인원수를 뽑아낸 사진이다. ▷Select Columns + Box Plot 전에도 설명한 적 있는 Select Columns 와 Box Plot 을 조합해 사용한 것이다. 이렇게 데이터 처리 위젯과 시각화 위젯을 조합해 함께 사용하면 더 효과적으로 탐색적 데이터 분석을 할 수 있다. ▷분포도(Distribution) / 선작도(Line Plot)을 활용하는 모습 ▷Mosaic Display 말 그대로 모자이크(Mosaic) 그림에 데이터를 표.. 2021. 8. 28.
완전 초짜 ORANGE 3 : 데이터 분석의 기초2 ▷속성 심층 분석 범주형 변수 (Categorical Variable) 명목자료 (Nominal Data) : 순서와 순위개념 없음 ex) 국어, 영어, 일어, 중국어 순서 자료 (Ordinal Data) : 순서와 순위개념 있음 ex) 소득분위, 학년 수치형 변수 (Numeric Variable) 연속적, countable data ex) 키, 몸무게 비연속적, countable data ex) 자녀 수 ▷Meta Data : 속성 정보 / 데이터에 관한 구조화된 데이터 / 정보를 효율적으로 찾기 위해 부여됨. ▷머신러닝의 종류 머신러닝 지도학습(Supervised Learning) 분류(Classification) :범주형 데이터 회귀(Regression) : 수치형 데이터 비지도학습(Unsuperv.. 2021. 8. 27.
완전 초짜 ORANGE 3 : 이미지 분석 ▷이미지 분석 -이미지에서 의미 있는 정보를 추출하는 과정 -FLATTEN >> FILTERING >> CONVOLUTION >> POOLING -FLATTEN : 격자형태의 이미지를 한줄로 평탄화함. 이 과정에서 이미지의 특징 정보가 사라짐 -FILTER : 평탄화된 데이터를 핵심패턴으로 스캐닝함. -CONVOLUTION(합성곱) : 필터의 가중치들로 합성곱 연산을 해, Feature Map을 만듦. -POOLING : 특성맵(Feature Map)을 다시 축약하는 과정. 보통 2가지 방법 사용. Max pooling(최댓값) / Average Pooling(평균값) ▷이미지 분석 위젯(Image Embedding) Image Embedding은 구글의 신경망 이미지 분석 알고리즘(위에 설명한 과정의 .. 2021. 8. 26.
완전 초짜 ORANGE 3 : 텍스트 마이닝 (군집화, 특징추출) ▷문서 군집화 및 특징 추출 앞의 전처리 >> 문서요약 >> 문서분류의 과정을 다 거치면 텍스트를 군집화해 새로운 기준으로 나누고 텍스트의 다양한 특징을 추출할 수 있다. ▷Bag of Words 군집화를 위해선 문장을 제일 작은 단위(형태소)로 쪼개야 한다. 이 기능을 하는 위젯이 Bag of Words이다. 문장을 쪼개 형태소의 표로 만들어, 사용된 단어의 빈도수를 추출한다. ▷Distance + Hierarchical Clustering 텍스트의 군집화에서도 이전 비지도학습의 군집화에서 배웠던 계층적 군집화 위젯인 Distance와 Hierarchical Clustering을 사용한다.(텍스트는 계층적 군집화가 잘 어울리는 주제이기 때문: 단어 > 중심문장 > 중심문단 > 중심 내용 등 위계성을 띄.. 2021. 8. 25.
완전 초짜 ORANGE 3 : 텍스트 마이닝 (문서요약, 분류) ▷문서요약 (Topic Modeling) -문서를 요약하는 주제 모델링 알고리즘은 크게 3가지 (LSI / LDA / HDP) -LSI = Latent Semantic Indexing (잠재 의미 분석) / LDA = Latent Dirichlet Allocation (잠재 디리클레 할당) / HDP = Hierarchical Dirichlet Process (계층 디리클레 프로세스) -셋의 차이가 정확히 뭔지는 잘 모르겠음. 그냥 LSI를 많이 쓴다고 함. ▷Topic Modeling 토핑 모델링 위젯을 통해 LSI / LDA / HDP 중 1개의 알고리즘을 골라 주제 키워드들을 요약할 수 있다. 이때 number of topics 수를 줄여 주제 키워드의 수를 줄이거나 늘릴 수도 있다. ▷문서분류 -.. 2021. 8. 24.