반응형
▷속성 심층 분석
범주형 변수 (Categorical Variable) | 명목자료 (Nominal Data) : 순서와 순위개념 없음 ex) 국어, 영어, 일어, 중국어 |
순서 자료 (Ordinal Data) : 순서와 순위개념 있음 ex) 소득분위, 학년 |
|
수치형 변수 (Numeric Variable) |
연속적, countable data ex) 키, 몸무게 |
비연속적, countable data ex) 자녀 수 |
▷Meta Data : 속성 정보 / 데이터에 관한 구조화된 데이터 / 정보를 효율적으로 찾기 위해 부여됨.
▷머신러닝의 종류
머신러닝 | 지도학습(Supervised Learning) | 분류(Classification) :범주형 데이터 |
회귀(Regression) : 수치형 데이터 | ||
비지도학습(Unsupervised Learning) | 차원축소(Dimension Reduction) | |
군집화(Clustering) | ||
강화학습(Enhanced Learning) | 주어진 상태에 대해 최적의 행동을 선택하는 학습 방법 |
▷Feature Statistics
해당 데이터에 대한 다양한 속성 통계를 보여준다. 보여주는 속성통계로는 분포도(Distribution) / 평균값(Mean) / 중앙값(Median) / 분산(Dispersion) / 최소값(Minimum) / 최대값(Maximun) / 결측값(Missing) 등이 있다. 시각적으로 보기 편하게 색을 나눠서 보여주는게 특징이다.
▷Preprocess
데이터를 사용하기 전에 분석하기 편한 상태로 만들어주는 '전처리' 기능을 제공한다. 그중 가장 많이 쓰이는 기능이 결측값(어떤 이유로 인해 데이터가 손실된 값)을 처리하는 기능이다. 크게 3가지 방법으로 결측값을 처리할 수 있다.
1)평균/최빈값으로 대체 / 2)임의값으로 대체 / 3)결측치 제거
▷Select Columns
Select Columns 는 데이터의 속성을 수동을 선택해줄 수 있는 위젯. 타겟속성으로 정해 목표변수로 만들 수도 있고, 어떤 속성은 무시할(Ignored) 속성으로 만들 수 도 있다. 메타속성은 모델링에 사용되진 않지만, 위젯에서 인스턴스 레이블로 사용할 수 있다.
▷Line Plot
데이터의 시각화를 담당하는 위젯 중 하나이다. 보통 꺾은선 형식의 그래프로 표현해준다. 현재 사용된 데이터는 타이타닉 탑승자의 생존(Survived)여부이기 때문에, 위의 Line Plot 해석하면 생존자의 차이가 가장 큰 요인이 Fare(운임요금)에 대한 부분이라는 것을 알 수 있다. 그리고 운임요금은 다른 말로 바꾸면 승객들의 class(객실등급) 차이라는 것을 알 수 있다.
반응형
'교육은 한 사람의 인생을 바꾼다 > AI교육' 카테고리의 다른 글
완전 초짜 ORANGE 3 : 지도학습 (0) | 2021.08.29 |
---|---|
완전 초짜 ORANGE 3 : 다양한 위젯으로 데이터 분석 (0) | 2021.08.28 |
완전 초짜 ORANGE 3 : 이미지 분석 (0) | 2021.08.26 |
완전 초짜 ORANGE 3 : 텍스트 마이닝 (군집화, 특징추출) (0) | 2021.08.25 |
완전 초짜 ORANGE 3 : 텍스트 마이닝 (문서요약, 분류) (0) | 2021.08.24 |
댓글