인공지능35 완전 초짜 ORANGE 3 : 비지도학습 군집화 기초 ▷군집화(Clustering) -주어진 데이터를 유사한 데이터 그룹으로 나누는 것 군집화(Clustering) 분류(Classification) -정확히 지정된 속성 없이 유사 속성에 따라 나눠가는 것 -비지도학습(기준을 찾아가는 과정) -정해진 기준(label)에 따라 나누는 것 -지도학습(기준 미리 제시) -군집화 알고리즘의 종류 계층적 군집화 응집형(Bottom - up) -계층적 트리모형 / 덴드로그램 사용 -Hierarchical Clustering 위젯 분리형(top-down) 분할적 군집화 중심기반(Centeroid) -k-Means(k평균군집화) 위젯 밀도기반(Core point) -DBSCAN 위젯 -군집화의 사용 : 지도학습의 분류의 전단계에 활용하면 좋음 / 대량의 데이터를 요약하고 .. 2021. 9. 1. 완전 초짜 ORANGE 3 : 지도학습 모델 평가(회귀편) -범주형 데이터의 경우 분류를 활용하기 때문에 전 포스팅에서 보았던 분류 모델들을 활용하면 된다.(k-NN / Tree / Logistic Regression / 등) -그러나 수치형 데이터(Numeric)를 지도학습 하기 위해선 회귀분석을 주로 사용한다. -방법은 다를게 하나도 없다. 위 그림의 지도학습 부분에 회귀분석 모델을 사용하면 된다. 나머지 부분을 동일하게 진행된다. -한 가지만 더;;^^ 모델 성능을 평가하는 지표들도 살짝 달라지게 되는데... ▷회귀분석 모델 평가 -회귀분석의 모델을 평가하는데 필요한 지표들을 알아보자. -MAE : (예측값 - 실측값) 의 평균 / Mean Absolute Error -MSE : (예측값 - 실측값)2 의 평균 / Mean Square Error -RMSE.. 2021. 8. 31. 완전 초짜 ORANGE 3 : 다양한 위젯으로 데이터 분석 ▷Pivot Table 열(Row) 값을 기준으로 데이터 테이블의 모양을 변경한다. 즉, 기존의 데이터로 부터 새로운 통계적 데이터로 데이터 테이블을 추출하는 위젯. 총합, 평균, 최소값, 최대값 등 다양한 통계 데이터를 제공한다. 위는 각 class(1~3등급)별 인원수를 뽑아낸 사진이다. ▷Select Columns + Box Plot 전에도 설명한 적 있는 Select Columns 와 Box Plot 을 조합해 사용한 것이다. 이렇게 데이터 처리 위젯과 시각화 위젯을 조합해 함께 사용하면 더 효과적으로 탐색적 데이터 분석을 할 수 있다. ▷분포도(Distribution) / 선작도(Line Plot)을 활용하는 모습 ▷Mosaic Display 말 그대로 모자이크(Mosaic) 그림에 데이터를 표.. 2021. 8. 28. 완전 초짜 ORANGE 3 : 데이터 분석의 기초2 ▷속성 심층 분석 범주형 변수 (Categorical Variable) 명목자료 (Nominal Data) : 순서와 순위개념 없음 ex) 국어, 영어, 일어, 중국어 순서 자료 (Ordinal Data) : 순서와 순위개념 있음 ex) 소득분위, 학년 수치형 변수 (Numeric Variable) 연속적, countable data ex) 키, 몸무게 비연속적, countable data ex) 자녀 수 ▷Meta Data : 속성 정보 / 데이터에 관한 구조화된 데이터 / 정보를 효율적으로 찾기 위해 부여됨. ▷머신러닝의 종류 머신러닝 지도학습(Supervised Learning) 분류(Classification) :범주형 데이터 회귀(Regression) : 수치형 데이터 비지도학습(Unsuperv.. 2021. 8. 27. 완전 초짜 ORANGE 3 : 텍스트 마이닝 (전처리) -데이터의 종류에는 크게 졍형 데이터와(회계데이터) / 비정형 데이터(유튜브, 카카오)가 있다. -텍스트 마이닝 : 정해진 형식이 없는 비정형 데이터로부터 통계적 의미가 있는 개념이나 특성을 추출하고 이것들 간의 패턴이나 추세 등의 고품질 정보를 끌어내는 과정 ▷핵심 용어 정리 -Corpus : 말뭉치 / 언어 연구를 위해 컴퓨터가 텍스트를 가공, 처리, 분석 할 수 있는 형태로 모아놓은 자료 집합 -Token : 기호에 의해 나눠진 기본 단위. 문장을 구분 -Parsing = Tokenization : 텍스트의 단어, 절을 분리해 분석해나가는 과정 -Stemming : 단어의 어간을 추출 / 단어의 어미를 자르는 어림 짐작 방법 ( pos 태그 미보존) -lemmatization : 표제어 추출 ( p.. 2021. 8. 23. 제대로 기력 향상 프로젝트: 인공지능 복기3 넷마블 3단전 - 10분 30초 3회 백 패 좌하귀에서 요즘은 잘 안나오는 정석을 선택해보았다. 바로 날일자로 걸치고 받을 때, 옆으로 붙이는 수. 그 결과 흑은 귀의 실리 백은 세력을 얻는 결과가 나왔다. 사실 저 모양에서 정수는 저게 아닌 걸로 알고 있다. 이런 결과가 나와선 바둑은 백6:흑4 정도. 그러나 역시 고난이 찾아온다. 흑15에 백 16으로 욕심부린 것이 최대의 실수. 흑17로 끊으니 도저히 유리한 싸움이 없다. 저번에도 저런 모양이 나와서 고전했던 기억이 나는데... 학습능력이 참 없다 ㅠㅠ 정수는 백16보다 한칸 왼쪽으로 받았으면 아무 문제 없이 백의 유리함이 계속됐을 것. 이날 바둑 3판을 뒀는데 전체적으로 컨디션이 매우 안 좋았다.(변명...^^) 대마가 죽었기 때문에 이후에 우상귀.. 2021. 1. 8. 제대로 기력 향상 프로젝트: 인공지능 복기2 한게임 5단전 - 5분 20초 1회 흑 승 바둑은 백이 초반 안좋은 행마로 완전히 둘러 쌓여서 흑 승률 99%를 찍었으나... 패를 하는 과정에서 적당히 만족 못하고 과하게 두다가 하변쪽 4점은 잡았으나, 중앙 3점을 축으로 잡히고 그로 인해 중앙이 엷어져 다시 5대5가 된 상황이다. 여기서 다시 한 번 뻘짓이 나오는데... 좌변을 공격하느라 한번 손을 뺀자리에 백이 12로 치중해왔고, 양패로 버틸 수 있는 자리인줄 알고 두다가 패를 잘못따내 오른쪽 참고도 처럼... 촉촉수로 좌하귀가 몰살 당하게 되었다.... ㅠㅠ 제대로 두었다면 흑21로 A와 B가 맞보기라 귀는 아무 맛이 없었다. 하지만 현실은 오른쪽 참고도처럼 촉촉수로 귀가 절멸한 모습. 이래선 바둑은 백이 99%가 되었다. 백은 우하변쪽 6점만 .. 2021. 1. 3. 제대로 기력 향상 프로젝트: 인공지능 복기1 내 최고의 약점이 수읽기라고 생각되어서 5분 20초 속기 바둑으로 연습 중. 그런데 자꾸 수읽기에서의 실수로 지는 그림이 나온다ㅠㅠ 다 내 수읽기가 부족한 탓이지... 기력을 올리려면 더 연습할 수 밖에. 대국 후 인공지능 복기한 내용을 적어본다. 넷마블 3단전 - 5분 20초 3회 흑불계패 백에서 나온 첫번째 떡수13. 호구 자리로 막는 것이 아니라 먼저 오른쪽 참고도처럼 1로 젖히고 3으로 중앙으로 뛰었으면 여전히 백의 약우세. 호구로 막은 것이 너무 느리고 들여다보는 수를 당해서 돌이 무거워 질 수가 있다. 저 부분에서의 실수로 결국 돌이 계속 몰려 백 대마는 절멸했다. 그런데 이 좋은 바둑을 져버리는데... 도대체 무슨 일이? 좌변쪽에서 싸움이 일어나게 되었는데, 16으로 어깨짚고 18로 늘어서 .. 2021. 1. 2. 제대로 기력 향상 프로젝트: 좋은 인공지능 프로그램 코로나로 인해 어디 밖에도 못나가, 집콕 라이프가 계속되고 있다... ㅠㅠ 원래 나다니는 것을 별로 좋아하지도 않는 편인데도 계속 반강제적으로 집에만 있다보니 괜한 스트레스만 쌓이고 있다. 집에 있는 시간이 많다보니 아마 단까지 만들어 놓고 한동안 내팽개친 바둑을 다시 손대기 시작했는데... 역시나... 다시 두다보니 또 더 잘두고 싶은 욕심이 스멀스멀 올라오는게 아닌가...(사실 잘 두고 싶은 욕심 보다는 질 때마다 너무 스트레스 받아서 안지고 싶은 마음이 더 큼... ㅋㅋ) 그래서 다시 제대로 한 번 해보자 하는 마음으로 이 글을 쓴다. 자, 그럼 기력을 제대로 올리려면 제일 중요한건? 역시 좋은 스승을 구하는 것! 그래서 다시 인터넷 사이트와 카페를 뒤지며 좋은 스승을 찾았다. 요즘 최고수는 인공지.. 2020. 12. 30. 이전 1 2 3 4 다음