이쿠의 슬기로운 개발생활

함께 성장하기 위한 보안 개발자 EverNote 내용 공유

빅데이터

06. 통계 개념 : 확률분포

이쿠우우 2020. 10. 2. 16:11
반응형

 

 

 

확률분포( 정규분포와 표준정규분포 그리고 Z-score )

 

확률분포

이전 글인 "05. 통계 개념 : 기술통계와 추리통계" 항목의

추리통계 -> 확률 -> 확률분포에 해당하는 항목임

확률변수와 확률함수를 이용하면 특정 사건이 일어날 확률을 계산할 수 있다고 했는데

이것을 도식화 한것이 바로 확률분포임.

확률변수이산확률변수, 연속확률변수로 구분되는데

확률분포이산확률분포, 연속확률분포로 구분된다.

 

 

확률분포 종류

이산확률 분포

기하 분포

음의 이항 분포

다항 분포 

등등등

 

연속확률 분포

정규분포  (가장 많이 사용됨)

연속균등 분포

등등등

 

위의 종류 중에서 정규분포가 가장 많이 사용되니

정규분포에 대해 알아보겠음

 

 


정규분포( 가우스분포 )

좌우 대칭의 종 모양으로 생긴 분포

가우스 분포 라고도 부르기도 함

정규 분포는 평균값에 가장 많은 데이터가 분포되어 있고 

평균과 떨어질수록 데이터가 적게 분포하는 특징을 가지고 있음

 

예)

대한민국 성인 남성 키

평균키 173cm = 가장많음

2m 이상 = 거의 없음

140cm 이하 = 거의 없음

 

정규분포는 모수평균표준편차인 연속확률 분포임

모수란? ( Parameter )
모수는 모집단의 특성(모평균,모분산 등..)을 나타내는 값으로
이 값을 모집단을 전수조사해야만 알수있는 값이다.
그러나 실질적으로 모집단의 크기와 범위가 너무 방대하기에
전수조사를 실지하지 않고
표본조사를 하는데 표본평균,표본분산 등으로
모평균, 모분산등을 추정할수가 있다.
정규분포에서는 모수가 평균, 표준편차 임

정규분포에서 평균은 가장 높이 올라간 부분이고

표준편차는 분포가 흩어진 정도( 평균을 중심으로 데이터들이 얼마나 멀리 떨어져 있는지 )를 나타냄

즉 분포의 표준편차가 클수록 종모양 분포는 옆으로 퍼진 모양이고

표준편차가 작을수록 평균으로 집중되서 뾰족해짐

 

 


 

 

표준정규분포

서로 다른 모수값( 평균, 표준편차 )인 정규분포를 가진 집단들을 서로 비교하기 위해 정규분포를 표준화 한것

 

예)

A반 = 수학점수 평균= 70, 표준편차 = 30

B반 = 수학점수 평균= 65, 표준편차 = 10

이라면 A,B 두반 중 어느 반이 수학점수가 더 높다고 할 수 있을까?

두 집단의 데이터 분포 모양이 달라서 직관적으로 판단하기 어려움

이럴 때 사용하는 것이 표준정규분포

 

정규분포를 표준화 하는 방법

정규분포의 평균을 "0"으로 표준 편차를 "1"로 만드는 것

수집한 개별 데이터에서 그 데이터 집단 전체 평균을 빼고 표준편차로 나누는 것

 

[결과]

개별 데이터에서 전체 데이터 평균만큼 빼줬기 때문에 개별 데이터들의 평균을 다시 구하면 0이 됨

즉 0으로 수평이동

이렇게 표준화된 개별 데이터를 Z-score 라고 함

 

 

Z-Score

평균이 0 이고 표준편차가 1인 정규분포의 확률변수(확률밀도 함수의 x 축)

정규분포를 표준화 하는 방법이 Z-socre 임 

Z-socre 해석 방법

1. 분자 부분 : 어떠한 개별 데이터가 평균으로 얼마나 떨어져 있고 ( 개별데이터 - 평균 )

2. 분모 부분 : 그 떨어진 정도가 그 집단의 표준편차의 몇 배 정도 떨어진 것.

 

표준정규분포에서는 Z-score의

-1에서 +1 에 전체 데이터 68% 가 있음

-2에서 +2 범위에 전체 데이터 95% 가 들어있음

 

[만약 어떤 개별 데이터의 Z값이 3이상이 나온다면?]

해당 데이터는 이상한, 좀 튀는 데이터로 판단됨

 

 

 

 

 

 

 

 

 

 

 

 

반응형