supergravity
데이터 생태계 본문
요즘은 데이터들이 많아서 문제인 것 같다.
국가에서도 뿌리고 웹 크롤링으로도 쉽게 수집이 가능하다.
그래서 빅데이터에서 유용한 데이터로 만드는 일이 빈번하게 일어나는 듯하다.
big data => smart data
note : 조심하자! 과거 공공데이터로 무언가 해보려고 했는데 쓰레기 여서 고생한 적이 있었다.
스마트한 데이터를 만들기 위해서는 데이터를 분류하고 극한을 취해야 한다.
그러면 업계에서 쓰는 분류법을 정리해보자.
numerical : 숫자다
categorical : 카테고리로 분류한다.
ordinal : 점수다
dimmention : 오브잭트의 차원이다.
high dim : 이미지 같은 것들( 픽셀이 졸라게 많음 )
low dim : 차원이 작은 것들
labelled or not : 레이블이 되어 있는 경우 ( ex 사진이 고양이다)이는 supervided leaning을 이용하는 데이터이다.
없는 경우 unsupervised 기술을 이용한다.
many or few : 객체의 수다
temporal ... "physics" : 고전역학의 시간에 관한 데이터들이다. 센서를 통해 수집된다.
'데이터 과학' 카테고리의 다른 글
머신러닝 이란? (0) | 2021.08.12 |
---|---|
데이터 사이언스가 뭘까? (0) | 2021.08.12 |
데이터 사이언스 역사 (0) | 2021.08.12 |
Comments