본문 바로가기

데이터마이닝14

완전 초짜 ORANGE 3 : 데이터 분석의 기초2 ▷속성 심층 분석 범주형 변수 (Categorical Variable) 명목자료 (Nominal Data) : 순서와 순위개념 없음 ex) 국어, 영어, 일어, 중국어 순서 자료 (Ordinal Data) : 순서와 순위개념 있음 ex) 소득분위, 학년 수치형 변수 (Numeric Variable) 연속적, countable data ex) 키, 몸무게 비연속적, countable data ex) 자녀 수 ▷Meta Data : 속성 정보 / 데이터에 관한 구조화된 데이터 / 정보를 효율적으로 찾기 위해 부여됨. ▷머신러닝의 종류 머신러닝 지도학습(Supervised Learning) 분류(Classification) :범주형 데이터 회귀(Regression) : 수치형 데이터 비지도학습(Unsuperv.. 2021. 8. 27.
완전 초짜 ORANGE 3 : 이미지 분석 ▷이미지 분석 -이미지에서 의미 있는 정보를 추출하는 과정 -FLATTEN >> FILTERING >> CONVOLUTION >> POOLING -FLATTEN : 격자형태의 이미지를 한줄로 평탄화함. 이 과정에서 이미지의 특징 정보가 사라짐 -FILTER : 평탄화된 데이터를 핵심패턴으로 스캐닝함. -CONVOLUTION(합성곱) : 필터의 가중치들로 합성곱 연산을 해, Feature Map을 만듦. -POOLING : 특성맵(Feature Map)을 다시 축약하는 과정. 보통 2가지 방법 사용. Max pooling(최댓값) / Average Pooling(평균값) ▷이미지 분석 위젯(Image Embedding) Image Embedding은 구글의 신경망 이미지 분석 알고리즘(위에 설명한 과정의 .. 2021. 8. 26.
완전 초짜 ORANGE 3 : 텍스트 마이닝 (군집화, 특징추출) ▷문서 군집화 및 특징 추출 앞의 전처리 >> 문서요약 >> 문서분류의 과정을 다 거치면 텍스트를 군집화해 새로운 기준으로 나누고 텍스트의 다양한 특징을 추출할 수 있다. ▷Bag of Words 군집화를 위해선 문장을 제일 작은 단위(형태소)로 쪼개야 한다. 이 기능을 하는 위젯이 Bag of Words이다. 문장을 쪼개 형태소의 표로 만들어, 사용된 단어의 빈도수를 추출한다. ▷Distance + Hierarchical Clustering 텍스트의 군집화에서도 이전 비지도학습의 군집화에서 배웠던 계층적 군집화 위젯인 Distance와 Hierarchical Clustering을 사용한다.(텍스트는 계층적 군집화가 잘 어울리는 주제이기 때문: 단어 > 중심문장 > 중심문단 > 중심 내용 등 위계성을 띄.. 2021. 8. 25.
완전 초짜 ORANGE 3 : 텍스트 마이닝 (문서요약, 분류) ▷문서요약 (Topic Modeling) -문서를 요약하는 주제 모델링 알고리즘은 크게 3가지 (LSI / LDA / HDP) -LSI = Latent Semantic Indexing (잠재 의미 분석) / LDA = Latent Dirichlet Allocation (잠재 디리클레 할당) / HDP = Hierarchical Dirichlet Process (계층 디리클레 프로세스) -셋의 차이가 정확히 뭔지는 잘 모르겠음. 그냥 LSI를 많이 쓴다고 함. ▷Topic Modeling 토핑 모델링 위젯을 통해 LSI / LDA / HDP 중 1개의 알고리즘을 골라 주제 키워드들을 요약할 수 있다. 이때 number of topics 수를 줄여 주제 키워드의 수를 줄이거나 늘릴 수도 있다. ▷문서분류 -.. 2021. 8. 24.
완전 초짜 ORANGE 3 : 텍스트 마이닝 (전처리) -데이터의 종류에는 크게 졍형 데이터와(회계데이터) / 비정형 데이터(유튜브, 카카오)가 있다. -텍스트 마이닝 : 정해진 형식이 없는 비정형 데이터로부터 통계적 의미가 있는 개념이나 특성을 추출하고 이것들 간의 패턴이나 추세 등의 고품질 정보를 끌어내는 과정 ▷핵심 용어 정리 -Corpus : 말뭉치 / 언어 연구를 위해 컴퓨터가 텍스트를 가공, 처리, 분석 할 수 있는 형태로 모아놓은 자료 집합 -Token : 기호에 의해 나눠진 기본 단위. 문장을 구분 -Parsing = Tokenization : 텍스트의 단어, 절을 분리해 분석해나가는 과정 -Stemming : 단어의 어간을 추출 / 단어의 어미를 자르는 어림 짐작 방법 ( pos 태그 미보존) -lemmatization : 표제어 추출 ( p.. 2021. 8. 23.