본문 바로가기

전체 글338

완전 초짜 ORANGE 3 : 다양한 위젯으로 데이터 분석 ▷Pivot Table 열(Row) 값을 기준으로 데이터 테이블의 모양을 변경한다. 즉, 기존의 데이터로 부터 새로운 통계적 데이터로 데이터 테이블을 추출하는 위젯. 총합, 평균, 최소값, 최대값 등 다양한 통계 데이터를 제공한다. 위는 각 class(1~3등급)별 인원수를 뽑아낸 사진이다. ▷Select Columns + Box Plot 전에도 설명한 적 있는 Select Columns 와 Box Plot 을 조합해 사용한 것이다. 이렇게 데이터 처리 위젯과 시각화 위젯을 조합해 함께 사용하면 더 효과적으로 탐색적 데이터 분석을 할 수 있다. ▷분포도(Distribution) / 선작도(Line Plot)을 활용하는 모습 ▷Mosaic Display 말 그대로 모자이크(Mosaic) 그림에 데이터를 표.. 2021. 8. 28.
완전 초짜 ORANGE 3 : 데이터 분석의 기초2 ▷속성 심층 분석 범주형 변수 (Categorical Variable) 명목자료 (Nominal Data) : 순서와 순위개념 없음 ex) 국어, 영어, 일어, 중국어 순서 자료 (Ordinal Data) : 순서와 순위개념 있음 ex) 소득분위, 학년 수치형 변수 (Numeric Variable) 연속적, countable data ex) 키, 몸무게 비연속적, countable data ex) 자녀 수 ▷Meta Data : 속성 정보 / 데이터에 관한 구조화된 데이터 / 정보를 효율적으로 찾기 위해 부여됨. ▷머신러닝의 종류 머신러닝 지도학습(Supervised Learning) 분류(Classification) :범주형 데이터 회귀(Regression) : 수치형 데이터 비지도학습(Unsuperv.. 2021. 8. 27.
완전 초짜 ORANGE 3 : 이미지 분석 ▷이미지 분석 -이미지에서 의미 있는 정보를 추출하는 과정 -FLATTEN >> FILTERING >> CONVOLUTION >> POOLING -FLATTEN : 격자형태의 이미지를 한줄로 평탄화함. 이 과정에서 이미지의 특징 정보가 사라짐 -FILTER : 평탄화된 데이터를 핵심패턴으로 스캐닝함. -CONVOLUTION(합성곱) : 필터의 가중치들로 합성곱 연산을 해, Feature Map을 만듦. -POOLING : 특성맵(Feature Map)을 다시 축약하는 과정. 보통 2가지 방법 사용. Max pooling(최댓값) / Average Pooling(평균값) ▷이미지 분석 위젯(Image Embedding) Image Embedding은 구글의 신경망 이미지 분석 알고리즘(위에 설명한 과정의 .. 2021. 8. 26.
완전 초짜 ORANGE 3 : 텍스트 마이닝 (군집화, 특징추출) ▷문서 군집화 및 특징 추출 앞의 전처리 >> 문서요약 >> 문서분류의 과정을 다 거치면 텍스트를 군집화해 새로운 기준으로 나누고 텍스트의 다양한 특징을 추출할 수 있다. ▷Bag of Words 군집화를 위해선 문장을 제일 작은 단위(형태소)로 쪼개야 한다. 이 기능을 하는 위젯이 Bag of Words이다. 문장을 쪼개 형태소의 표로 만들어, 사용된 단어의 빈도수를 추출한다. ▷Distance + Hierarchical Clustering 텍스트의 군집화에서도 이전 비지도학습의 군집화에서 배웠던 계층적 군집화 위젯인 Distance와 Hierarchical Clustering을 사용한다.(텍스트는 계층적 군집화가 잘 어울리는 주제이기 때문: 단어 > 중심문장 > 중심문단 > 중심 내용 등 위계성을 띄.. 2021. 8. 25.
완전 초짜 ORANGE 3 : 텍스트 마이닝 (문서요약, 분류) ▷문서요약 (Topic Modeling) -문서를 요약하는 주제 모델링 알고리즘은 크게 3가지 (LSI / LDA / HDP) -LSI = Latent Semantic Indexing (잠재 의미 분석) / LDA = Latent Dirichlet Allocation (잠재 디리클레 할당) / HDP = Hierarchical Dirichlet Process (계층 디리클레 프로세스) -셋의 차이가 정확히 뭔지는 잘 모르겠음. 그냥 LSI를 많이 쓴다고 함. ▷Topic Modeling 토핑 모델링 위젯을 통해 LSI / LDA / HDP 중 1개의 알고리즘을 골라 주제 키워드들을 요약할 수 있다. 이때 number of topics 수를 줄여 주제 키워드의 수를 줄이거나 늘릴 수도 있다. ▷문서분류 -.. 2021. 8. 24.
완전 초짜 ORANGE 3 : 텍스트 마이닝 (전처리) -데이터의 종류에는 크게 졍형 데이터와(회계데이터) / 비정형 데이터(유튜브, 카카오)가 있다. -텍스트 마이닝 : 정해진 형식이 없는 비정형 데이터로부터 통계적 의미가 있는 개념이나 특성을 추출하고 이것들 간의 패턴이나 추세 등의 고품질 정보를 끌어내는 과정 ▷핵심 용어 정리 -Corpus : 말뭉치 / 언어 연구를 위해 컴퓨터가 텍스트를 가공, 처리, 분석 할 수 있는 형태로 모아놓은 자료 집합 -Token : 기호에 의해 나눠진 기본 단위. 문장을 구분 -Parsing = Tokenization : 텍스트의 단어, 절을 분리해 분석해나가는 과정 -Stemming : 단어의 어간을 추출 / 단어의 어미를 자르는 어림 짐작 방법 ( pos 태그 미보존) -lemmatization : 표제어 추출 ( p.. 2021. 8. 23.
완전 초짜 ORANGE 3 : 데이터 분석의 기초 AI 교육대학원에 새로운 한 학기가 시작되었다. 이번에 배우는 과목은 '머신러닝에 교육적 활용'이다. 머신러닝에 대해 공부하기 위해 데이터를 분석할 수 있는 ORANGE 3 라는 프로그램을 활용한다. https://orangedatamining.com/download/#windows Download Linux / Source Anaconda If you are using python provided by Anaconda distribution, you are almost ready to go. Add conda-forge to the list of channels you can install packages from conda config --add channels conda-forge and run c.. 2021. 8. 19.
2020 아반떼 CN7 계약후기 : 싸게 사는 법 -이번에 동생이 차를 사게 되었다. 요즘 폭발적인 인기를 누리고 있는 2020 아반떼 CN7이다. -실물로 보면 생각보다 더 괜찮았다. 괜히 나까지 뽐뿌가 왔지만 돈이 없어서 못산다... -아반떼 CN7는 스마트 / 모던 / 인스퍼레이션 3가지 등급이 있는데, 가격차이가 꽤 난다. 대부분 사람들이 모던 OR 인스퍼레이션의 고옵션으로 구매하는거 같은데 .... 개취겠지만 전혀 이해가 안되는 부분이다. 풀옵 아반떼면 소나타 깡통을 사고도 남는다... 따라서 동생도 스마트에 정말 필요한 옵만 추가해서 타는걸로 세팅해줬다. -자 그럼 차를 싸게 살 수 있는 간단한 방법들을 살펴보자. ▷자동차 싸게 구입 팁 1) 지점(직영점) 보다 대리점이 싸다. -인터넷에 이런 말들이 돌아다니길래 직접 지점과 대리점을 비교해서.. 2021. 8. 18.
가상화폐 포트폴리오 + 매매일지 : 21.4.7 ~ 4.21 ▷21.04.21. 매매내역 이번 4월 중순에는 나름대로 많이 올라간 코인들을 정리하고 내가 가진 많은 코인들을 좀 한군대로 집중시켜 수익률을 극대화해보려고 했다. 4.11~16일까지 나름대로 여러 코인들을 처분하며 잘 진행되나 했는데... 4.18~4.21 지금까지도 진행중인 큰 조정 때문에 나의 스케줄이 망가지게 되었다... ▷21.04.6. 포트폴리오 현황 조금씩 줄여가고 있다가, 조정에 크게 떨어지면서 또 저평가된 것 같은 코인들을 허겁지겁 주워담다보니... 무려 36가지 종목을 보유하게 되었다. 그래도 몇 종목 제외하고는 다 펀디멘털을 좋게 보는 코인들이라 종목이 많아졌다고는 해도 크게 부담되는 건 없다. 한때 수익금만 1억이 넘었었는데, 이번 하락의 정점에서 4000정도 날리고 지금은 2000.. 2021. 4. 21.