모집단분포와 표본분포란?
모집단분포
모집단을 구성하는 데이터가 이루는 확률 분포를 모집단분포 라고 함
모집단이란?
통계적인 관찰의 대상이 되는 집단
연구자가 알고싶어하는 집단 전체
모수란? ( Parameter )
모집단의 특성을 나타내는 수치
모평균, 모분산, 모표준편차, 모비율 등이 있음
모수란 모집단을 구성하는 데이터를 설명하는 수치값
우리가 실제로 알고싶어하는 것은 "모집단 데이터"가 아니라 "모집단의 특성을 설명하는 모수" 임
모수는 모집단의 특성을 간략하게 설명해줌
예)
우리는 수능점수 전체 데이터( 모집단)를 알고싶은 것이 아니라
전체 수능 점수 평균(모평균) 또는 전체 수능점수 표준편차(모표준편차)를 알고싶은거임
[하지만 문제가 하나 있음]
대부분의 모집단 분포는 완전하게 알려진것이 없음
예시로 설명하자면
전체 수능시험 점수는 쉽게 모집단 분포와 모수를 알 수 있지만
세상에는 다양한 모집단들이 있고, 그 중 어떤 모집단은 분포의 정확한 평균이나 산도포 등을 알 수 없는 경우가 많음
노가다 해서 조사하면 모집든 분포를 알 수 있지만 거의 불가능하다고 봐야함
어떻게 모집단의 모수를 알 수 있을까?
확률 표본 ( Random sample )
모든 데이터들이 "뽑힐 가능성 동등" 하게 부여하고
"객관적으로 무작위 추출" 한 표폰으로
표본을 추출해서 모집단의 모수를 추정한 것을
확률 표본이라고 함
표본이란?
모집단을 완벽하게 파악할 수 없는 경우 일부분에 해당하는것이 표본
즉 확률 표본이란 동일 분포와 독립 분포를 따르는 표본이라고 할 수 있음
동일 분포란?
추출한 확률 표본이 같은 모집단에서 추출되었다는 뜻
독립 분포란?
표본을 추출할 때 표본들이 서로 영향을 미치지 않아 같은 확률로 추출되었다는 뜻
모수가 모집단 분포 특성을 설명하는 값인 것 처럼
확률 표본의 특성을 설명하는 값이 존재할 것임
이것을 통계량이라고 함
통계량
확률 표본의 특성을 설명하는 값
표본평균, 표본분산, 표본표준편차 등이 있음
모수와 통계량의 차이는?
모수는 모집단이 변하지 않기 때문에 그 값이 변하지 않음
하지만 통계량은 표본을 어떻게 추출하느냐에 따라서 그 값이 다르게 나타남
즉 동일한 모집단에서 동일한 수의 표본을 추출하더라도
배번 표본이 달라지기 때문에 각 표본의 통계량은 서로 다르게 나타날 수 있음
통계량은 표본을 추출할 때마다 매번 달라지는데
어떻게 매번 변하는 통계량을 가지고 모수를 측정하는가?
표본분포( sampling distribution )
여러번 추출된 표본들의 가각의 평균값들에 대한 발생 분포를 그려보면
특정 확률변수에 대응하는 확률을 가진 확률 분포를 그릴 수 있는데
이것을 통계량의 확률 분포 = 즉 표본분포 라고 함
예)
모평균(모수)을 구하기 위해 30개씩 n번의 표본을 무작위로 추출
그러면 표본평균(통계량)은 = 우리가 추출한 " 확률 표본" 에 따라서 값이 변화함
여기서 중요한 것은 표본 평균(통계량)은 확률 표본이 어떻게 추출되는가에 따라 특정 확률이 변화하므로
표본 평균(통계량)은 확률 변수라고 할 수 있음
그리고 n 번 반복 추출된 평균값(통계량)은 확률 변수이기 때문에 그에 대응하는 발생 확률값들이 있음
그 확률값들의 분포를 계산하면 표본평균(퉁계량)의 확률 분포를 그릴 수 있게 됨
즉) 통계량 = 확률변수
통계량의 확률 함수 또는 표본 분포를 안다고 가정하면 우리는 이를 이용해서 알고싶어하는 모수를 측정할 수 있음.
참고
https://drhongdatanote.tistory.com/3
'빅데이터' 카테고리의 다른 글
09. 분석 기법 (0) | 2020.10.04 |
---|---|
08. 가설검정의 개념과 용어 (0) | 2020.10.04 |
06. 통계 개념 : 확률분포 (0) | 2020.10.02 |
05. 통계 개념 : 기술통계와 추리통계 (0) | 2020.10.02 |
04. 통계 개념 : 독립변수, 종속변수 (0) | 2020.10.02 |