본문 바로가기
교육은 한 사람의 인생을 바꾼다/AI교육

인공지능 구축에 있어서 알고리즘과 데이터 셋의 중요성

by 함께 만드는 블로그 2023. 1. 18.
반응형

. 창조물은 창조주를 뛰어넘을 수 있는가?

 일반적으로 인공지능(AI)의 뜻은 컴퓨터나 로봇이 지능적 행동을 할 수 있게 하는 능력을 뜻한다. , 인간만이 할 수 있다고 여겨지는 인지, 학습, 추론, 감정 능력 등을 기계 혹은 컴퓨터가 할 수 있도록 만드는 것이다.

 그러나 알파고가 인간 최고수 이세돌 9단을 이기면서 사람들 속에 내재된 깊은 욕망을 건드렸다. 바로 창조주를 뛰어넘는 창조물을 만드는 것이다. 우리 인간은 많은 분야에서 이미 인간을 뛰어넘는 발명품들을 만들어 왔다. 인간 보다 빠른 자동차를, 인간 보다 힘이 강한 로봇을, 하늘을 나는 비행기를. 만약 인간이 인간 스스로의 지능을 뛰어넘는 발명품을 만든다면, 인간을 신이라 부르지 않을 이유가 무엇인가?

 인간을 뛰어넘는 인공지능을 만들기 위해 인공지능의 시의적·시대적 정의도 이렇게 바뀐다. 인간을 뛰어넘는 지능을 갖추기 위해 학습할 줄 아는 능력. , 현재 인공지능은 학습에 그 중점을 두고 있다.

 

. 학습의 핵심 요소 : 데이터 셋과 알고리즘

 교육학자 피아제는 학습을 도식을 만드는 도식화의 과정이라고 설명한다. 도식화를 건물을 짓는 과정에 비유한다면, 건물을 짓기 위해 설계도와 자재가 필요할 것이다. 이때 설계도의 역할을 하는 것을 알고리즘’, 건축 자재(재료)의 역할을 하는 것을 데이터 셋이라고 비유할 수 있다. 둘 중 하나라도 잘못된다면 바른 건물을 지을 수 없다.

 

. 알고리즘 : 인간을 뛰어넘는 통찰을 찾아내는 과정

 인공지능을 실현하기 위한 알고리즘으로 다양한 알고리즘을 들 수 있다. KNN(K최근접이웃알고리즘), SVM(서포트백터머신), 선형회귀분석, 로지스틱회귀분석, 의사결정나무, K-MEANS, 인공신경망 등 많은 알고리즘이 있다. 이런 알고리즘을 사용하는 학습을 지도학습, 비지도학습, 강화학습 등으로 나누기도 한다.

1) 지도학습 엄하게 훈육하기

 지도학습은 데이터와 정답을 함께 주고 학습하는 것이다. 이는 자녀를 엄하게 훈육하는 것으로 비유할 수 있다. 엄하게 훈육한 자녀는 철저하게 배우는 대신, 부모의 가치관을 답습할 가능성이 높다. 이와 마찮가지로 지도학습을 통해 학습한 경우 빠르고 정확하게 배울 수 있으나, 그 데이터를 제공한 인간의 사고 범위 내의 결과치를 도출할 확률이 높다. 때론 인간의 편향 마저도 배우게 된다. 정답이라는 데이터 자체에 인간의 판단이 개입하기 때문이다.

 

2) 비지도학습 유하게 훈육하기

 그렇다면 지도학습과 반대로 자녀를 유하게 훈육하면 어떻게 될까? 그 변화의 폭은 보다 커질 것이다. 비지도학습은 정답 없는 데이터로만 학습을 시킨다. 때론 정확히 결론을 낼 수 없는 애매한 분석 결과가 나올 수도 있고, 예상과는 다른 통찰을 얻을지도 모른다.

 

3) 대단할 것은 없다. 선긋기일 뿐.

 그러나 지도학습이든, 비지도학습이든 사실 크게 대단할 것은 없다. 결국은 선긋기일 뿐이다.

 각각의 데이터들을 최적으로 나누는 선(때로는 곡선, )을 그리고 그 과정에서 오차 제곱의 합을 최소로 만들거나, 근처에 있는 데이터들과의 상관관계를 살펴보는 방법을 사용하는 것이다. 값을 예측하는 것도, 해당 데이터들을 최적으로 통과하는 선(때로는 곡선, )을 긋고 그때의 Y값과 X값의 상관관계로 새로운 데이터를 예측한다.

4)대단한 것은 인공 신경망이다.

 인공신경망은 위의 알고리즘과는 궤를 달리하는 혁신적인 알고리즘이다. 다른 기존의 알고리즘들이 하나의 층(예컨대 변수를 설정해 다차원 함수식을 만들고 그 함수식을 경사하강법 등을 통해 풀어내는)에서 끝나는 반면, 인공신경망은 인간의 시냅스 연결을 본 딴 3가지층(입력층, 은닉층, 출력층)을 통해 패턴을 추출하는 최적의 가중치를 찾는다는 차이점이 있다.

 또한 각 뉴런들은 어떤 목표 없이 자신의 역할(임계치 이상의 입력이 들어올 경우 그대로 다음 층의 뉴런에 전달하는)만 수행할 뿐인데도, 이를 통해 유의미한 패턴을 찾게 된다는 점이 큰 시사점을 준다. 생명체의 의사결정 방식이 인공지능 알고리즘에도 그대로 적용된다는 사실은 언제봐도 신비롭다. 인공신경망은 지도, 비지도, 강화학습 모두에 사용될 수 있는 핵심 키로 앞으로도 많은 괄목할 성과를 가져올 것이다.

 

5)신경망은 학습(지능)의 본질을 바꾸게 될까?

 

 예쁜 꼬마 선충의 이야기를 해보자. 과학자들은 예쁜꼬마선충 신경계의 연결을 전부 표시한 커넥톰을 그려냈다. 302개의 신경세포를 가지고 있는 예쁜꼬마선충 뉴런의 연결 강도를 모두 파악한 것이다. 이 후 로봇에 예쁜 꼬마선충의 뉴런의 연결 정보를 입력하자 살아있는 예쁜꼬마선충처럼 움직였다고 한다.

https://www.youtube.com/watch?v=YWQnzylhgHc&t=61s

 어떤 의도된 머신러닝 알고리즘 없이 뉴런의 연결 정보만을 가지고도 기본적인 움직이기, 움직이다 장애물이 나오면 돌아 나오기 등의 움직임을 수행하는 로봇, 아니 가상의 예쁜꼬마선충을 만들 수 있는 것이다. 우리가 지능이라고 생각했던 것이 고도의 알고리즘이 아니라 단순히 뉴런의 연결 강도의 차이라고 한다면 학습과 인공지능의 본질은 어떻게 바뀌게 될까?

 

. 데이터 셋 : 알고리즘 이상의 중요성

 알고리즘에 대해 간단히 알아봤으니, 이번엔 데이터 셋에 대해 논해보자. 인공신경망을 제외하면 기존의 알고리즘들은 차별성이 크지 않다. 상용화된 프로그램들을 통해서 클릭 한번으로도 쉽게 활용할 수 있기 때문에, 여러 알고리즘에 대입 후 가장 잘 맞는 알고리즘을 적용하면 그만이다.

 같은 주제라고 하더라도 다른 모델과 완전히 다른 성능을 낼 수 있는 유일한 방법은 어떤 데이터 셋을 통해 학습했느냐 뿐이다. 실제로 이세돌을 이긴 알파고-리 버전은 지금까지 기보로 남아 있는 인간 고수들의 데이터를 통해 학습했다고 한다. 그런데 이후 구글에서 오직 컴퓨터끼리만 대국한 데이터들로 학습시킨 알파고-제로버전을 만들었는데, 놀랍게도 이 알파고-제로버전이 단 3일만에 알파고-리 버전을 이겼다고 한다. 인간의 편견으로 가득찬 데이터를 통해 학습한 인공지능은 태생적 한계를 갖는 것이다.

 이렇게 어떤 데이터 셋을 통해 학습하냐는 매우 중요하며, 연구자는 데이터를 수집, 분석, 시각화, 의사결정 등 데이터를 이해하여 지식과 통찰을 얻고 가치를 창출하는 역량을 가져야 한다.

 

1) 데이터 셋 구축의 단계

 데이터 셋 구축의 단계로 크게 3가지 단계를 들 수 있다. 문제정의 > 데이터 수집 > 데이터 전처리의 단계이다. 이중 가장 중요한 데이터 수집과 데이터 전처리 단계를 중심으로 설명해보고자 한다.

 

 

2) 데이터 수집 단계

 데이터 수집은 크게 2가지로 나눌 수 있다. 첫 번째는 이미 만들어진 오픈 데이터를 사용하는 방법이다. 공신력 있는 기관에서 미리 만들어 배포한 자료를 활용한다면 보다 쉽고 편리하게 인공지능 모델을 만들 수 있지만, 내가 원하는 정확한 특성 정보를 얻지 못할 수 있다. 오픈 데이터를 수집 할 수 있는 플랫폼으로 공공데이터 포털, AI허브, 텐서플로우, 네이버데이터랩, 통계청 등 누리집 및 기업 홈페이지 등이 있다.

 두 번째는 설문, 면담 등을 통해 직접 수집해 데이터 셋을 구축하는 방법이다. 많은 시간과 노력이 들지만, 변수를 정확히 설정해 내가 원하는 특성 정보를 구체적으로 얻을 수 있다는 장점이 있다.

 

3)데이터 전처리

 내가 직접 수집한 데이터든, 오픈 데이터든 데이터 셋을 활용하기 전에는 반드시 데이터 전처리 과정을 거쳐야 한다. 과학자들의 시간 사용을 살펴보면, 데이터 전처리(클랜징)60%에 달하는 시간을 할애한다는 것을 알 수 있다. 데이터 전처리 과정에선 중복된 데이터 셋 제거, 필요 없는 특성 정보 삭제, 오염된 데이터(모델에 최적화에 방해되는) 제거, 이상치 제거, 변수 가공(Feature Engineering), 결측값 제거 등을 통해서 학습의 효율성을 높인다. 특히 데이터의 질을 높이기 위해선 변수의 연관성과 속성 정의 가 중요하다.

 

. 실제 데이터 셋 구축과 알고리즘 사용 예시

1) 데이터 셋 구축

 직접 수집할 수 있는 데이터 중, 면담이나 설문을 통한 데이터가 아닌 간단한 주가(주식의 가격) 데이터를 이미지화 하여 분석하기 위해 2% 이상 상승한 데이터 16, 2% 이상 하락한 데이터 14개를 수집하였다. 데이터 전처리 과정을 거치며 주가를 나타내는 캔들만 남기고 나머지 노이즈(이동평균선, 거래량, 최저, 최고가 등)는 제거하였다.

2) 알고리즘을 통한 데이터 분석 모델 구축

 이후 오렌지 프로그램을 통해 인공신경망(Neural Network) 알고리즘으로 이미지 분석을 실시하였다. 테스트 결과 인공신경망 모델의 정확도가 약 70% 정도 되는 것으로 나타났다.

3) 데이터 분석 모델로 예측해보기

 위의 주가 데이터 인공신경망 분석 모델로 2023116일 월요일 삼성전자, 네이버, LG전자의 종가를 예측해본 결과 세 종목 모두 하락할 것으로 예측되었다.

 

반응형

댓글