본문 바로가기

머신러닝21

오렌지(orange) 머신러닝 핵심 위젯 파악 1. Select Columns -Select Columns 위젯을 활용해 feature 들의 속성을 바꿀 수 있다. Ignoretargetmetaskip-해당 데이터를 분석에서 제외-목표값으로 설정-제외하진 않지만, 분석에 영향을 주지 않게 설정-해당 데이터를 분석에서 제외 -이런 전처리(pre-process) 과정을 통해서 모델의 정확도와 효율성을 높일 수 있음. -각종 변수들을의 가공여부에 따라 (변수를 feature / meta / skip 으로 설정하는 것) 모델의 구성 결과가 달라짐. 2. Scatter Plot -scatter plot 위젯을 활용해 feature와 target(목표값)과의 관계를 시각적으로, 직관적으로 살펴볼 수 있음. -X,Y 축을 변환시켜 데이터의 경향성을 살펴볼 수 있.. 2023. 1. 24.
인공지능의 역사와 종류 -알렌 튜링 : 튜링 테스트를 만듬. 기계가 사람과 얼마나 비슷하게 대화 나눌 수 있는 가를 기준으로 인공지능의 여부를 판단하는 테스트 -John Mc Carthy : 지능적 기계를 만드는 과학과 공학 -Oxford : 지능적 인간 행동을 복사할 수 있는 컴퓨터 시스템의 연구 및 개발 -브리태니커 : 컴퓨터, 로봇이 일반적으로 지능적 존재와 관련된 작업을 할 수 있는 능력 1차 AI붐 -튜링테스트 : 기계가 사람과 얼마나 비슷하게 대화 나눌 수 있는 가를 기준으로 인공지능의 여부를 판단하는 테스트 -중국어 방 사고실험 : 튜링테스트로는 인공지능의 여부를 판단할 수 없음. 영어만 아는 사람이 방에 들어가 답변 메뉴얼을 사용해 중국어 질문에 답한다면 이건 인공지능이라 할 수 없음. -But 번역을 계속하면서.. 2023. 1. 20.
완전 초짜 ORANGE 3 : 시스템 제작 과정 ▷시스템 제작 과정 AI 문제 확인 AI 솔루션 확인 AI 솔루션 설계 AI 솔루션 개발 평가 및 피드백 -AI로 해결 가능한 문제 찾기 EX) 주택가격 -문제 해결 방법 찾기 -다양한 분석틀 이용 -구체적 '안' 설계 -어디에서 데이터를 수지할까? 데이터 수집의 한계 -오렌지3 워크플로우 제작 -새로운 데이터에 적용 -결과 확인 ▷시스템 제작 예제 확인 1) 네트워크 분석 모델 네트워크 분석은 군집화와 연결성이 좋다. 일반적인 데이터도 Distances(계층적 군집화 모델)로 instance간 거리(유사도)를 수치화하면, 네트워크 위젯으로 분석하고 표현할 수 있다. 또한, Distances 위젯으로 분석했기 때문에 Distance Matrix나 Hierarchical Clustering 위젯 등으로 시.. 2021. 9. 9.
완전 초짜 ORANGE 3 : 네트워크 분석 ▷네트워크 분석 -개인과 집단들 간의 관계를 모형화 해, 그 구조, 확산, 진화 과정을 계랑적으로 분석하는 것 -노드 : 분석하려고 하는 객체 -링크 : 노드와 노드 사이의 연결성 (단방향 / 양방향) -밀도 : 노드에 연결되어 있는 링크의 수 -중심성 : 어떤 노드가 가장 중요한지 살피는 척도 -네트워크 중심성의 척도 : 연결 중심성 / 근접 중심성 -연결 중심성 : 노드에 연결된 연결성(링크)의 크기로 중심성을 평가 -근접 중심성 : 노드와 노드 사이의 거리로 중심성을 평가 ▷네트워크 분석 위젯 ▷ Network Analysis / Network Clustering / Network Explorer -분석을 시작하기 전에 해당 네트워크에 대한 개략적인 정보를 얻을 수 있는 위젯이 Network Ana.. 2021. 9. 8.
완전 초짜 ORANGE 3 : 시계열 분석 ▷시계열 분석(Time Series Analysis) -시간의 흐름에 따라 일정 간격으로 사건을 관찰 기록한 데이터로 미래 관측값을 예측하는 것 -시계열 자료 + 분석 = 시계열 분석 -시계열 자료 : 1) 연속 시계열 : 연속적으로 생성되는 자료 2) 이산 시계열 : 일정한 시차를 두고 생성되는 자료 -시계열의 요인 : 1) 추세 요인 (Trend Factor) 2) 계절 요인 (Seasonal Factor) - 고정된 주기에 따라 자료 변화 3) 추세 요인 + 계절 요인 혼합 4) 순환 요인 (Cyclical Factor - 알려지지 않은 주기를 가지고 자료 변화 5) 불규칙 요인 (Irregular Factor) - 일상의 대부분의 시계열 자료들 ▷차분(Differencing) -정상 과정(Stat.. 2021. 9. 7.
완전 초짜 ORANGE 3 : 연관 분석 ▷연관 분석(Association Analysis) -비지도 학습의 하나 = 연관된 정보를 찾아가는 분석. -장바구니 분석 / 서열 분석. -데이터 사이의 순서와 상관관계를 살펴봄. -주로 기업이 구매 패턴을 분석 시 사용. -장비구니 분석 예 : 월마트 분석 = 20, 30대의 남자가 마트를 갈 때 기저귀와 맥주를 함께 구입한다. / 남자가 마트를 갈 때는 주로 아내의 심부름으로 가는 경우가 많음. 그래서 아기 기저귀를 사고 자신이 마실 맥주를 함께 구입하는 것. -서열 분석 예 : A 를 산 다음에 B를 산다 >> 보험사의 부정행위 적발 ▷연관성 규칙(Association Rule) -조건과 반응 : if A then B / A → B 이고, B → C 라면 A → C 일거라는 것 / 이때 A가 B의.. 2021. 9. 6.
완전 초짜 ORANGE 3 : 지오코딩 ▷지오코딩(Geocoding) -지리공간 인공지능 = Geo AI -지오코딩 = 고유명칭(주소, 지명 등)을 위도, 경도의 좌표값으로 변환 -역지오코딩 = 위도, 경도의 좌표 값을 주소(고유명칭)으로 변환 -지리 공간 서비스를 시각화하고, 지리적 위치의 패턴과 추세를 시각화함. -응용분야 : 모빌리티 / 부동산 가격 예측 등 ▷지오코딩(Geocoding) 위젯 ▷Geocoding Geocoding 위젯은 등록된 고유명칭을 위도, 경도 값으로 바꿔준다. 이때 등록되지 않은 고유명칭이 나올 경우 위처럼 등록된 고유명칭으로 바꿔줘야 컴퓨터가 인식할 수 있다. ▷Choropleth Map 이 위젯은 통계 변수의 측정에 비례해 영역이 음영처리되는 주제 맵으로 표시한다. 즉 하나의 커다란 세계지도 역할이다. ▷Ge.. 2021. 9. 5.
완전 초짜 ORANGE 3 : 내가 분석한 실습예제 1. 모델 생성 위와 같이 로지스틱 회귀 / 서포트백터머신 / 결정트리 / 랜던포레스트 /k-Nearest Neighbor 의 5가지 지도학습 알고리즘을 활용하여 타이타닉 생존자 예측 모델을 테스트 했습니다. 2. 학습 / 예측 현재 5가지 모델 중 random forest 모델의 area under ROC curve / accuracy / f1 score / 정밀도 / 재현율이 가장 높습니다. Tree 모델보다 근소하게 높습니다. 따라서 타이타닉 생존자 예측에 가장 최적화된 모델은 random forest 모델일 것으로 예상됩니다. 3. 평가 random forest 와 Tree 모델을 비교해보면 TN/FN 영역에서는 랜덤 포레스트가, FP/TP 영역에서는 트리 모델이 좀 더 우위인 것을 확인할 수 있.. 2021. 9. 4.
완전 초짜 ORANGE 3 : 비지도학습 군집화 위젯 ▷Distances + Hierarchical Clustering (계층적 군집화) 계층적 군집화에 활용되는 Distances + Hierarchical Clustering 위젯이다. 두개를 묶어서 세트로 활용하는 경우가 많다. distances 위젯이 군집화 데이터 처리를 한다면, Hierarchical Clustering 위젯은 시각화하여 보여준다. 현재 크게 2가지 군집으로 나뉜것을 볼 수 있다. ▷Distances Matrix (계층적 군집화) Distances Matrix 는 데이터 세트 요소와 요소 사이의 거래 행렬을 만들어 표현한다. 이를 통해 각 요소간의 분포 정도를 수치 데이터로 확인할 수 있다. ▷k-Means + Silhouette Plot (분할적 군집화 + 중심기반 ) 마찮가지로 .. 2021. 9. 3.