supergravity

데이터 생태계 본문

데이터 과학

데이터 생태계

supergravity 2021. 8. 12. 12:03

요즘은 데이터들이 많아서 문제인 것 같다. 

국가에서도 뿌리고 웹 크롤링으로도 쉽게 수집이 가능하다. 

 

그래서 빅데이터에서 유용한 데이터로 만드는 일이 빈번하게 일어나는 듯하다. 

big data => smart data 

 

note : 조심하자! 과거 공공데이터로 무언가 해보려고 했는데 쓰레기 여서 고생한 적이 있었다.

 

스마트한 데이터를 만들기 위해서는 데이터를 분류하고 극한을 취해야 한다. 

그러면 업계에서 쓰는 분류법을 정리해보자. 

 

numerical : 숫자다

categorical : 카테고리로 분류한다.

ordinal : 점수다

 

dimmention : 오브잭트의 차원이다.

high dim : 이미지 같은 것들( 픽셀이 졸라게 많음 )

low dim : 차원이 작은 것들

 

labelled or not : 레이블이 되어 있는 경우 ( ex 사진이 고양이다)이는 supervided leaning을 이용하는 데이터이다.

없는 경우 unsupervised 기술을 이용한다.

 

many or few : 객체의 수다

 

temporal ... "physics" : 고전역학의 시간에 관한 데이터들이다. 센서를 통해 수집된다.

 

'데이터 과학' 카테고리의 다른 글

머신러닝 이란?  (0) 2021.08.12
데이터 사이언스가 뭘까?  (0) 2021.08.12
데이터 사이언스 역사  (0) 2021.08.12
Comments