본문 바로가기
교육은 한 사람의 인생을 바꾼다/AI교육

완전 초짜 ORANGE 3 : 데이터 분석의 기초2

by 함께 만드는 블로그 2021. 8. 27.
반응형

▷속성 심층 분석

범주형 변수 (Categorical Variable) 명목자료 (Nominal Data) : 순서와 순위개념 없음
ex) 국어, 영어, 일어, 중국어 
순서 자료 (Ordinal Data) : 순서와 순위개념 있음
ex) 소득분위, 학년
수치형 변수 (Numeric Variable)

연속적, countable data
ex) 키, 몸무게
비연속적, countable data
ex) 자녀 수 

 

▷Meta Data : 속성 정보 / 데이터에 관한 구조화된 데이터 / 정보를 효율적으로 찾기 위해 부여됨.

 

▷머신러닝의 종류

머신러닝 지도학습(Supervised Learning) 분류(Classification) :범주형 데이터
회귀(Regression) : 수치형 데이터 
비지도학습(Unsupervised Learning) 차원축소(Dimension Reduction)
군집화(Clustering)
강화학습(Enhanced Learning) 주어진 상태에 대해 최적의 행동을 선택하는 학습 방법

 

▷Feature Statistics

해당 데이터에 대한 다양한 속성 통계를 보여준다. 보여주는 속성통계로는 분포도(Distribution) / 평균값(Mean) / 중앙값(Median) / 분산(Dispersion) / 최소값(Minimum) / 최대값(Maximun) / 결측값(Missing) 등이 있다. 시각적으로 보기 편하게 색을 나눠서 보여주는게 특징이다.

 

 

▷Preprocess

데이터를 사용하기 전에 분석하기 편한 상태로 만들어주는 '전처리' 기능을 제공한다. 그중 가장 많이 쓰이는 기능이 결측값(어떤 이유로 인해 데이터가 손실된 값)을 처리하는 기능이다. 크게 3가지 방법으로 결측값을 처리할 수 있다. 

1)평균/최빈값으로 대체 / 2)임의값으로 대체 / 3)결측치 제거

 

 

▷Select Columns

Select Columns 는 데이터의 속성을 수동을 선택해줄 수 있는 위젯. 타겟속성으로 정해 목표변수로 만들 수도 있고, 어떤 속성은 무시할(Ignored) 속성으로 만들 수 도 있다. 메타속성은 모델링에 사용되진 않지만, 위젯에서 인스턴스 레이블로 사용할 수 있다. 

 

 

▷Line Plot

데이터의 시각화를 담당하는 위젯 중 하나이다. 보통 꺾은선 형식의 그래프로 표현해준다. 현재 사용된 데이터는 타이타닉 탑승자의 생존(Survived)여부이기 때문에, 위의 Line Plot 해석하면 생존자의 차이가 가장 큰 요인이 Fare(운임요금)에 대한 부분이라는 것을 알 수 있다. 그리고 운임요금은 다른 말로 바꾸면 승객들의 class(객실등급) 차이라는 것을 알 수 있다. 

 

반응형

댓글