목록데이터 과학 (4)
supergravity
머신러닝은 데이터를 트레이닝 시켜 얻은 모델이다. 많이 알고 있는 뉴로네트워크의 경우 머신러닝의 서브셋이다. 이둘은 잘정의 되어있지만 ai경우 잘정의 되지 않은 넌센스한 개념이라고 한다. 트레이닝 방법은 수학적으로 optimization : 특정의 집합 위에서 정의된 실수값, 함수, 정수에 대해 그 값이 최대나 최소가 되는 상태를 해석하는 문제이다 regression : 여러 개의 독립변수와 한 개의 종속변수 간의 상관관계를 모델링하는 기법을 통칭한다 linear algebra : 선형대수 이다. 를 기초로 하고 있다. 위의 태크닉을 이용하여 모델을 만들면 새로운 데이터에 대해서 아웃풋 데이터를 얻을수 있다. input ---> model ----> output ( predict ) 데이터로 부터 학습시..
요즘은 데이터들이 많아서 문제인 것 같다. 국가에서도 뿌리고 웹 크롤링으로도 쉽게 수집이 가능하다. 그래서 빅데이터에서 유용한 데이터로 만드는 일이 빈번하게 일어나는 듯하다. big data => smart data note : 조심하자! 과거 공공데이터로 무언가 해보려고 했는데 쓰레기 여서 고생한 적이 있었다. 스마트한 데이터를 만들기 위해서는 데이터를 분류하고 극한을 취해야 한다. 그러면 업계에서 쓰는 분류법을 정리해보자. numerical : 숫자다 categorical : 카테고리로 분류한다. ordinal : 점수다 dimmention : 오브잭트의 차원이다. high dim : 이미지 같은 것들( 픽셀이 졸라게 많음 ) low dim : 차원이 작은 것들 labelled or not : 레이블..
데이터 사이언스가 뭘까? 역사적으로 배운 내용을 바탕으로 이해해 보자. 데이터 사이언스는 질문을 통해 문제를 정의하고 데이터를 이용하여 해결하는 일이다. 그래서 데이터 사이언스는 현상에 대한 질문, 데이터를 관리하는 부분 그리고 데이터를 이용하는 부분으로 나뉜다. 데이터 사이언스는 아래와 같은 피드백 시스템으로 진행이 된다. 현상에 대한 질문 -> 데이터 관리 -> 데이터 이용 -> 현상에 대한 질문 -> 데이터 관리 -> 데이터 이용 현상에 대하여 질문을 하고 일을 진행하다 보면 데이터로부터 현상의 질문이 잘못된 것을 알게 된다. 그러면 다시 데이터로 돌아가 시작한다. 현상에 대한 질문 1. 과거로부터 미래를 알 수 있나? 2. 무슨 모델을 얻고 싶나? 3. 모델은 누가 사용하게 될까? 4. 어떤 데이..
0. 인트로 데이터 사이언스가 뭘까? 데이터 사이언스 하면 어렵고 최근에 생긴 새로운 것이라 생각합니다. 하지만 데이터 사이언스는 오래된 분야입니다. 그러면 과거의 유명한 데이터 사이언스 역사에 대해 알아봅시다. 1. 역사 튀코 브라헤라, 케플러 그리고 뉴턴의 이야기입니다. 튀코 브라헤라는 코펜하겐 대학에서 법학을 전공으로 하고 있었습니다.하지만 대부분의 시간을 수학과 천문학을 공부하는데 시간을 보냈습니다.튀코는 천문학에서 체계적이고 정확한 관측이 필요하다는 것을 깨달았고 방대하고 정형화된 데이터를 수집합니다. 그 당시 천문..