이쿠의 슬기로운 개발생활

함께 성장하기 위한 보안 개발자 EverNote 내용 공유

빅데이터

05. 통계 개념 : 기술통계와 추리통계

이쿠우우 2020. 10. 2. 15:48
반응형

 

 

기술통계와 추리통계

 

1. 기술통계

수집한 데이터를 요약 묘사 설명하는 통계기법

데이터 집중과 분산도 두가지로 구분됨

 

1.1. 데이터 집중화 경향 (중심화)

수집한 데이터를 대표하는 값이 무엇인지 or 어떤값이 집중되어 있는지 다루는 기법

예 : 평균, 중앙값, 최빈값

 

1.1.1. 최빈값

수집한 자료 천체를 대표하는 값이 무엇인지 나타내는 통계(대표값)

 

1.1.2. 중앙값

자료를 크기 순으로 정렬했을 때, 중앙에 위치하는 값(순위자료의 대표값)

 

1.1.3. 평균값

자료를 모두 더해서 전체의 자료갯수로 나눈값(정량적 자료의 대표값)

 

 

 

1.2. 분산도

우리가 수집한 데이터가 어떻게 퍼져있는지 설명하는 기법

수집한 데이터가 어떻게 분산되어 있는지 설명하는 통계치

예 : 범위, 사분편차, 분산,표준편차

 

1.2.1. 범위

자료의 최대값에서 최소값 차이

 

1.2.2. 사분편차

자료를 크기순으로 정렬 후 전 자료 분포의 중앙부에서 전자료 50%를 포함한 범위의 반

Quatile = 1/4

Q1, Q3 를 알아야함

이런 사분위와 꼭 같이 봐야하는것이 박스플롯(Boxplot)임

 

박스플롯(Boxplot)

Q1 =
상위 25% (1/4) 
Q3 = 하위 25% (3/4))
M은 중앙값( Median ) 또는 Q2(50%) 로 쓰일 수 있음 : 평균값(Mean)를 나타내기도 함
IQR = inter Quatile Range 약자로 Q1, Q3의 범위 차이를 말함
LIF = Q1에서 IQR * 1.5 한 범위
UIF =Q3에서 IQR * 1.5 한 범위
LIF 부터 UIF 범위를 Box whisker (수염)이라고 부름
이 범위 이외의 값은 이상값으로 통계를 분석하기 전에 포함 시킬것인지 없앨것인지 고민해야함 
박스플롯은 데이터의 모양을 파악하는데 유용하게 사용됨


데이터가 왼쪽으로 치우쳐있는지 정규분포를 이루는 오른쪽으로 치우쳐있는지 알 수 있음

 

 

1.2.3. 분산

편차의 제곱을 모두 더해 평균낸 값

편차를 제곱한 후 다 더해서 전체 자료의 갯수로 나눠준 값

편차란?
개별 자료가 평균으로 부터 얼마만큼 떨어져 있는가?
개별값 - 전체 평균
그렇다면 평균편차를 구할 수 있나??
불가능함 : 개별자료의 편차를 모두 다하면 "0" 이됨
그래서 나온 개념이 분산임

하지만 분산은 결국 편차의 제곱을 평균한 것이기 때문에

자료 단위 역시 제곱이 됨 

그래서 평균적으로 어느정도 편차가 있는지 알기 힘듬 그래서 나온게 표준편차임

 

1.2.4. 표준편차

분산 값에 제곱근을 취한값

제곱근을 취함

 

 

이러한 기법으로 수집한 데이터의 전체적인 모양을 그릴 수 있음

 

 

 

1.3. 기술통계 기법

1.3.1. 도수 분포표

특정 구간에 속하는 자료의 개수를 나타내는 표

자료의 분표를 몇 개의 구간으로 나누고, 나우어진 각 구간에 속하는 자료가 몇개인지 정리한 표

 

[표 작성법]

1) 자료의 갯수를 센다

2) 자료 내에서 최대/최소 값을 찾는다

3) 몇개의 구간으로 나눌지 결정

4) 구간의 폭을 구한다

5) 구간의 경계값을 구한다

6) 구간별 자료의 갯수를 적는다 : 구간폭 = (최대값-최소값)/구간수

예)

 

1.3.2. 히스토그램

도수 분포표를 시각적으로 표현한 막대 그래프

도수 분포표는 구간이 적지만 많을 경우 표현하기 힘드니 이럴때 사용

x축(가로) = 구간

y축(세로) = 구간별 빈도수

 

 

 


 

 

2. 추리 통계

수집한 자료를 바탕으로 연구자가 세운 통계적 가설을 확률 기반으로

선택할 것인지 버릴 것인지 판단하는 통계 기법

결국에는 확률을 말할 뿐 예언을 하는 통계는 아님

이유 : 제한된 데이터 즉 표본을 사용하기 때문

 

2.1. 모집단 

통계적인 관찰의 대상이 되는 집단

연구자가 알고싶어하는 집단 전체

 

예)

대한민국 남자, 여자의 평균 키를 알고싶을 때의 모집단 : 대한민국 모든 남자 여자의 키

고등학교 3학년 평균 수학점수가 알고싶을 때의 모집단 : 고등학교 3학년 수학점수

 

 

 

2.2. 표본

모집단을 완벽하게 파악할 수 없는 경우 일부분에 해당하는것이 표본

 

그렇다면 어떻게 표본으로 모집단을 추정할 수 있을까?

 

 

2.3. 표본 공간( S )

어떤 특정 실험에서 또는 무작위 실험을 했을 때, 측정가능한 모든 결과들의 집합

예)

 

2.3.1. 표본 공간과 표본의 차이

표본 공간을 이루는 개개의 관찰 결과를 표본점이라고 함

즉 표본은 표본 공간의 부분집합

 

 

2.4. 사건

표본공간의 부분집합으로 어떤 조건을 만족하는 특정한 표본점들의 집합

 

예)

주사위를 두번 던져서 나온 수를 더했을 때 "2"가 나올때를 기다린다고 한다면( 조건 )

여기서 사건이란 바로 첫번째도 1, 두번째도 1이 나왔을때가 바로 사건이 발생한 때임.

 

 

2.5. 확률 ( Probability )

동일한 조건 하에서 동일한 실험을 무수히 많이 반복하여 실시할 때, 어떤 특정한 사건이 발생하는 비유

위에서 설명한 표본, 표본공간, 사건의 개념을 가지고 확률을 설명하면 다음과 같음

2.5.1. 확률이란

어떤 실험을 했을 때 나올 수 있는 모든 경우의 수( 표본 공간 ) 중 어떤 특정한 조건을 만족하는 사건이 발생하는 비율

 

 

2.5.2. 확률 변수

확률에 따라 변하는 값

기호는 X,Y등 대문자 알파벳을 사용

무작위 실험을 했을 때, 특정 확률로 발생하는 각각의 결과를 수치적으로 표한하는 변수

변수란? 
특정 조건에 따라 변하는 값

확률 변수 : 임의로 진행되는 실험에서 일정한 확률을 가지고 발생하는 결과에 실수 값을 부여하는 변수

확률변수에 의해 할당된 실수는 x,y,와 같이 소문자 알파벳으로 표현

 

예)

표본 공간 =S

그에 상응하는 실수값을 부여하는 값 = X

부여된 실수 값(X)에 따라 계산된 실수 값 = R = 확률변수

 

상태공간
확률 변수( R )이 취하는 모든 실수의 집합 

상태공간을 구성하는 값이 나올 수 있는 가능성은 특정 확률( 0=1/4, 1=1/2. 2=1/4 )로 주어짐

( 0=1/4, 1=1/2. 2=1/4) 설명은 확률분포와 확률 함수로 이어짐

확률변수의 종류로 이산확률변수, 연속확률변수가 있음

 

 

2.5.2.1 이산확률변수

확률변수가 어느 구간의 모든 실수값을 택하지 않고 0,1,2.... 와 같은 고립된 값만을 택하는 변수

즉 상태공간이 유한 집합 또는 셈할 수 있는 무한집합인 확률변수를 말함

딱딱 끊어진 또는 구분된 변수

 

예) 

 

2.5.2.2. 연속확률변수

확률변수가 취하는 값이 연속된 구간으로 나타나는 확률변수

확률변수가 어떤 구간의 모든 실수값을 택할 때 이 변수를 확률변수라고 함

연속적으로 이어진 변수

 

예 : 정규분포

 

 

 

2.5.3. 확률 분포

확률변수의 모든 값과 그에 대응하는 확률들이 어떻게 분포하고 있는지를 말함

위의 그림에서 확률분포란 표 그 자체를 의미함 

어떻게 분포하고 있는지 확인하는 것

 

 

2.5.4. 확률 함수

확률변수에 의해 정의된 실수를 확률(0~1 사이)에 대응시키는 함수를 말함

상위 그림의 p(x) 항목에 해당하는 값을 계산하는 함수가 확률함수

 

 

 

 

2.5.5. 확률변수, 확률분포, 확률함수의 관계표

[확률변수, 확률함수가 통계에서 왜 필요할까?]

확률함수 = 확률변수가 일어날 확률을 나타내는 함수

즉 우리가 특정 확률 변수의 확률 함수를 알고 있다면,

특정 사건이 일어날 확률을 예측할 수 있음

 

[이산확률 변수의 예]

 

[연속확률변수의 예]

아래 그림과 같이 우리가 알고싶은 사건이 발생하는 구간의 넓이를 계산해서 확률을 예측함

 

 

 

 

 

 

 

 

 

반응형