이쿠의 슬기로운 개발생활

함께 성장하기 위한 보안 개발자 EverNote 내용 공유

빅데이터

07. 통계 개념 : 모집단분포와 표본분포

이쿠우우 2020. 10. 2. 16:21
반응형

 

 

모집단분포와 표본분포란?

 

 

모집단분포

모집단을 구성하는 데이터가 이루는 확률 분포를 모집단분포 라고 함

모집단이란?

통계적인 관찰의 대상이 되는 집단
연구자가 알고싶어하는 집단 전체

 

모수란? ( Parameter ) 

모집단의 특성을 나타내는 수치

모평균, 모분산, 모표준편차, 모비율 등이 있음

모수란 모집단을 구성하는 데이터를 설명하는 수치값

우리가 실제로 알고싶어하는 것은 "모집단 데이터"가 아니라 "모집단의 특성을 설명하는 모수" 임

모수는 모집단의 특성을 간략하게 설명해줌

 

예)

우리는 수능점수 전체 데이터( 모집단)를 알고싶은 것이 아니라

전체 수능 점수 평균(모평균) 또는 전체 수능점수 표준편차(모표준편차)를 알고싶은거임

 

 

[하지만 문제가 하나 있음]

대부분의 모집단 분포는 완전하게 알려진것이 없음

예시로 설명하자면

전체 수능시험 점수는 쉽게 모집단 분포와 모수를 알 수 있지만

세상에는 다양한 모집단들이 있고, 그 중 어떤 모집단은 분포의 정확한 평균이나 산도포 등을 알 수 없는 경우가 많음

노가다 해서 조사하면 모집든 분포를 알 수 있지만 거의 불가능하다고 봐야함

어떻게 모집단의 모수를 알 수 있을까?

 

 

 

확률 표본 ( Random sample )

모든 데이터들이 "뽑힐 가능성 동등" 하게 부여하고

"객관적으로 무작위 추출" 한 표폰으로 

표본을 추출해서 모집단의 모수를 추정한 것을

확률 표본이라고 함

표본이란?

 

모집단을 완벽하게 파악할 수 없는 경우 일부분에 해당하는것이 표본

즉 확률 표본이란 동일 분포와 독립 분포를 따르는 표본이라고 할 수 있음

동일 분포란?
추출한 확률 표본이 같은 모집단에서 추출되었다는 뜻
독립 분포란?
표본을 추출할 때 표본들이 서로 영향을 미치지 않아 같은 확률로 추출되었다는 뜻

 

모수가 모집단 분포 특성을 설명하는 값인 것 처럼

확률 표본의 특성을 설명하는 값이 존재할 것임

이것을 통계량이라고 함

 

 

통계량

확률 표본의 특성을 설명하는 값

표본평균, 표본분산, 표본표준편차 등이 있음

 

모수와 통계량의 차이는?

모수는 모집단이 변하지 않기 때문에 그 값이 변하지 않음
하지만 통계량은 표본을 어떻게 추출하느냐에 따라서 그 값이 다르게 나타남
즉 동일한 모집단에서 동일한 수의 표본을 추출하더라도 
배번 표본이 달라지기 때문에 각 표본의 통계량은 서로 다르게 나타날 수 있음

통계량은 표본을 추출할 때마다 매번 달라지는데

어떻게 매번 변하는 통계량을 가지고 모수를 측정하는가?

 

 

표본분포( sampling distribution )

여러번 추출된 표본들의 가각의 평균값들에 대한 발생 분포를 그려보면

특정 확률변수에 대응하는 확률을 가진 확률 분포를 그릴 수 있는데 

이것을 통계량의 확률 분포 = 즉 표본분포 라고 함

예)

모평균(모수)을 구하기 위해 30개씩 n번의 표본을 무작위로 추출

그러면 표본평균(통계량)은 = 우리가 추출한 " 확률 표본" 에 따라서 값이 변화함

여기서 중요한 것은 표본 평균(통계량)은 확률 표본이 어떻게 추출되는가에 따라 특정 확률이 변화하므로

표본 평균(통계량)은 확률 변수라고 할 수 있음

그리고 n 번 반복 추출된 평균값(통계량)은 확률 변수이기 때문에 그에 대응하는 발생 확률값들이 있음

그 확률값들의 분포를 계산하면 표본평균(퉁계량)의 확률 분포를 그릴 수 있게 됨

즉) 통계량 = 확률변수

 

 

통계량의 확률 함수 또는 표본 분포를 안다고 가정하면 우리는 이를 이용해서 알고싶어하는 모수를 측정할 수 있음.

 

 

 

참고

https://drhongdatanote.tistory.com/3

 

 

 

 

반응형