이쿠의 슬기로운 개발생활

함께 성장하기 위한 보안 개발자 EverNote 내용 공유

빅데이터

02. 통계 개념 : Raw Data 수집과 분류

이쿠우우 2020. 10. 2. 13:49
반응형

 

 

통계란?

통계(Statistic)는 사회적 현상 혹은 자연 현상을 규명하기 위해 수집된 각종 데이터의 요약으로
적절한 방법을 통해 1차적으로 가공되어 나오는 정보를 뜻함.
예시 :  숫자, 그래프, 도표, 그림, 데이터로부터 얻어진 정보(평균, 분산, 상관계수 등..)
빅데이터에 비유를 하면 "01. 빅데이터란" 에서 설명했던 Raw Data를 1차적으로 가공하는 단계임.

해당 글에서는 통계학의 기초개념을 설명하겠음.

 

 


 

개체, 요인, 변수

빅데이터를 진행하기 위해 가장 첫번째로 할 작업은 Raw Data를 수집하는 과정이 필요함.

예를 들어 사람들이 가장 많이 가는 여행지를 파악하기 위해서는 여행지에 대한 정보가 필요하지,

여행지와 전혀 상관없는 정보를 수집하면 오류가 있는 결과를 얻게될 것임.

목표와 매칭되는 Raw Data를 수집하기 위해서는 개체, 요인, 변수 개념을 이해해야함.

 

개체

연구자가 관심을 갖는 대상

EX) 여행지

 

요인

개체에 관한 특성중 연구자가 특별히 관심을 갖는 특성

EX) 여행지 맛집, 숙박업소 등등

 

변수

요인을 구성하는 요소

EX) 맛집 메뉴, 맛집 위치, 팬션, 모텔, 게스트 하우스 등등

 

 

 


자료 구분

Raw Data는 동영상, 텍스트, DB데이터, 이미지 등등 다양한 형태로 존재하고 있음

이러한 Raw Data가 있다면 1차적으로 해당 데이터를 분류해야하는데 통계햑에서는

이러한 Data를 가장먼저 큰 범주로 양적자료, 질적자료로 구분함.

 

양적자료

숫자로 얻을 수 있는 또는 표현될 수 있는 데이터
예 : 회사 직원의 월급, 생산량

질적자료

숫자료 표현할 수 없는 범주 데이터
예 : 성별 (남자, 여자), 주민등록번호
주민번호가 질적자료인 이유 : 숫자로 표현되지만 대상을 구분하기 위한 방식이므로 수학적 계산이 안되는 대상

 

 

 

 

참고

https://drhongdatanote.tistory.com/3

 

 

반응형

'빅데이터' 카테고리의 다른 글

06. 통계 개념 : 확률분포  (0) 2020.10.02
05. 통계 개념 : 기술통계와 추리통계  (0) 2020.10.02
04. 통계 개념 : 독립변수, 종속변수  (0) 2020.10.02
03. 통계 개념 : 척도  (0) 2020.10.02
01. 빅데이터란  (0) 2020.10.02