본문 바로가기

AI대학원54

완전 초짜 ORANGE 3 : 텍스트 마이닝 (군집화, 특징추출) ▷문서 군집화 및 특징 추출 앞의 전처리 >> 문서요약 >> 문서분류의 과정을 다 거치면 텍스트를 군집화해 새로운 기준으로 나누고 텍스트의 다양한 특징을 추출할 수 있다. ▷Bag of Words 군집화를 위해선 문장을 제일 작은 단위(형태소)로 쪼개야 한다. 이 기능을 하는 위젯이 Bag of Words이다. 문장을 쪼개 형태소의 표로 만들어, 사용된 단어의 빈도수를 추출한다. ▷Distance + Hierarchical Clustering 텍스트의 군집화에서도 이전 비지도학습의 군집화에서 배웠던 계층적 군집화 위젯인 Distance와 Hierarchical Clustering을 사용한다.(텍스트는 계층적 군집화가 잘 어울리는 주제이기 때문: 단어 > 중심문장 > 중심문단 > 중심 내용 등 위계성을 띄.. 2021. 8. 25.
완전 초짜 ORANGE 3 : 텍스트 마이닝 (문서요약, 분류) ▷문서요약 (Topic Modeling) -문서를 요약하는 주제 모델링 알고리즘은 크게 3가지 (LSI / LDA / HDP) -LSI = Latent Semantic Indexing (잠재 의미 분석) / LDA = Latent Dirichlet Allocation (잠재 디리클레 할당) / HDP = Hierarchical Dirichlet Process (계층 디리클레 프로세스) -셋의 차이가 정확히 뭔지는 잘 모르겠음. 그냥 LSI를 많이 쓴다고 함. ▷Topic Modeling 토핑 모델링 위젯을 통해 LSI / LDA / HDP 중 1개의 알고리즘을 골라 주제 키워드들을 요약할 수 있다. 이때 number of topics 수를 줄여 주제 키워드의 수를 줄이거나 늘릴 수도 있다. ▷문서분류 -.. 2021. 8. 24.
완전 초짜 ORANGE 3 : 텍스트 마이닝 (전처리) -데이터의 종류에는 크게 졍형 데이터와(회계데이터) / 비정형 데이터(유튜브, 카카오)가 있다. -텍스트 마이닝 : 정해진 형식이 없는 비정형 데이터로부터 통계적 의미가 있는 개념이나 특성을 추출하고 이것들 간의 패턴이나 추세 등의 고품질 정보를 끌어내는 과정 ▷핵심 용어 정리 -Corpus : 말뭉치 / 언어 연구를 위해 컴퓨터가 텍스트를 가공, 처리, 분석 할 수 있는 형태로 모아놓은 자료 집합 -Token : 기호에 의해 나눠진 기본 단위. 문장을 구분 -Parsing = Tokenization : 텍스트의 단어, 절을 분리해 분석해나가는 과정 -Stemming : 단어의 어간을 추출 / 단어의 어미를 자르는 어림 짐작 방법 ( pos 태그 미보존) -lemmatization : 표제어 추출 ( p.. 2021. 8. 23.
완전 초짜 ORANGE 3 : 데이터 분석의 기초 AI 교육대학원에 새로운 한 학기가 시작되었다. 이번에 배우는 과목은 '머신러닝에 교육적 활용'이다. 머신러닝에 대해 공부하기 위해 데이터를 분석할 수 있는 ORANGE 3 라는 프로그램을 활용한다. https://orangedatamining.com/download/#windows Download Linux / Source Anaconda If you are using python provided by Anaconda distribution, you are almost ready to go. Add conda-forge to the list of channels you can install packages from conda config --add channels conda-forge and run c.. 2021. 8. 19.
완전 초짜 VVVV : 다양한 기능 활용법 어느덧 한 학기의 수업이 마무리되어간다. 교수님께 배우는 마지막 내용적인 수업이다. 이번 수업에는 다양한 시각적 효과를 줄 수 있는 필터 사용법과 / 간단한 팁들에 대해서 배운다. ▷ Dots / Glow 위 작품은 AudioIn 을 통해 받아드린 마이크 데이터 값을, VideoIn 을 통해 들어온 웹캠 영상의 필터값을 바꾸는데 활용해 외부 소리에 반응하는 영상이다. 파란색 네모 부분의 노드들 (FFT / + / Damper / Map / WaveShaper) 은 마이크에서 인풋된 데이터값들을 다듬는 노드들이다. 보다 자연스러운 영상미를 위해서 데이터 값을 다듬는 부분은 매우 중요하다. 빨간색 네모 부분의 Dot / Glow 노드는 영상에 효과를 주는 filter 다. Dot은 위 사진처럼 영상을 작은 .. 2021. 2. 10.
완전 초짜 VVVV : 서브 패치(SubPatch) 서브패치란 사용자가 직접 노드를 만들어 저장해놓고 원할때마다 자기가 저장한 노드를 불러와 사용하는 것을 말한다. 파이썬으로치면 일종에 def(user defined function - 사용자 지정 함수)와 같은 것이다. 복잡한 작업을 수행하는 노드들을 한번 만들어 놓으면 그 다음에는 간단하게 다시 사용할 수 있다는 장점이 있다. ▷서브 패치 만들기 1) 서브패치로 만들 작업 만들기 먼저 나름대로 복잡한(?) 노드들을 만들어 보았다., 위의 작업은 왼쪽 랜더러의 원의 크기와 배경색이 동시에 바뀌고 오른쪽 랜더러의 숫자와 배경색이 동시에 바뀐다. 자 이제 이 작업을 서브패치로 만들어 보자. 2) 인풋 / 아웃풋 핀 이름 붙이기 자 이제 서브패치에 인,아웃풋 핀들의 이름을 붙여줄 차례이다. 맨위에 있는 제일 .. 2021. 2. 7.
완전 초짜 VVVV : 마이크를 센서로 활용 ▷AudioIn(Dshow9) / FFT(Dshow9) / +(Value Spectral) >> audioin(Dshow9) : 마이크 또는 다른 오디오 장치를 입력받는 노드 >> FFT(Dshow9) : 오디오 신호를 스프레드로 바꾸는 노드 >> +(Value Spectral) : 바뀌는 수치를 정렬하는 노드 위 세가지의 노드를 통해서 외부의 마이크 값을 수치로 입력받을 수 있다. 마이크 값이 커지면 수치가 올라가고 마이크 값이 작아지면 수치가 내려간다. ▷데이터 다듬기(Damper / Waveshaper) 이전에 배웠던 데이터를 다듬는 Damper 와 Waveshaper 를 활용해 너무 급작스럽게 변화하는 데이터 값을 다듬어 준다. 본인 컴퓨터 사양에 따라 Damper와 Waveshaper 를 써도 .. 2021. 2. 6.
완전 초짜 VVVV : 오디오 생성과 음향 이펙트 적용 ▷Beep beep 노드 활용해 소리를 내는 기능을 만들 수 있다. 이때 나는 소리는 말 그대로 '삑' 소리. 두번째 인풋핀을 통해 소리의 높낮이를 조절할 수 있는게 특징이다. 직관적인 형태로 소리를 조절하기 위해 슬라이더 형태의 넘버박스를 활용했다. ▷Filestream(Dshow9) / AudioOut(Dshow9) 저장한 음원파일을 재생하고 싶다면 FileStream 과 AudioOut 노드가 필요하다. FileStream 으로 불러오면, AudioOut으로 볼륨과 오디오드라이버를 선택해 출력할 수 있다. ▷Reverb(Dshow9 Waves) 이때 원본 음원에 음향 이펙트를 적용하고 싶다면 Reverb(Dshow9 Waves) 노드를 활용할 수 있다. 리버브는 소리에 공간감을 만들어 주는 기능으로.. 2021. 2. 5.
완전 초짜 VVVV : 3D 도형의 좌표, 이동, 회전 / EX9과 Shader 이전 포스팅에서 EX9 Renderer 에 대해서 배워보았다. 이번 포스팅에서는 EX9 renderer에서 3D 도형의 이동 및 회전과 EX9 renderer 에 입체감을 부여하는 shader에 대해서 알아보려고 한다. ▷3D 도형의 좌표, 이동, 회전 (Rotate vs Translate) 위 영상을 보면 Rotate 와 Translate 노드의 순서에 따라 도형의 이동 및 회전이 달라지는 것을 알 수 있다. Rotate는 회전 시키는 노드 / Translate는 이동을 시키는 노드이다. 먼저 왼쪽의 경우, Rotate 노드가 Translate 노드보다 선행실행되기 때문에 회전축이 처음 그대로 (0,0) 즉 정중앙에 위치하게 된다. 따라서 (0,0) 의 정중앙을 중심으로 사각형이 회전한다. 반면에 오른.. 2021. 2. 4.