Q1 = 상위 25% (1/4) Q3 = 하위 25% (3/4)) M은 중앙값( Median ) 또는 Q2(50%) 로 쓰일 수 있음 : 평균값(Mean)를 나타내기도 함 IQR = inter Quatile Range 약자로 Q1, Q3의 범위 차이를 말함 LIF = Q1에서 IQR * 1.5 한 범위 UIF =Q3에서 IQR * 1.5 한 범위 LIF 부터 UIF 범위를 Box whisker (수염)이라고 부름 이 범위 이외의 값은 이상값으로 통계를 분석하기 전에 포함 시킬것인지 없앨것인지 고민해야함 박스플롯은 데이터의 모양을 파악하는데 유용하게 사용됨
데이터가 왼쪽으로 치우쳐있는지 정규분포를 이루는 오른쪽으로 치우쳐있는지 알 수 있음
1.2.3. 분산
편차의 제곱을 모두 더해 평균낸 값
편차를 제곱한 후 다 더해서 전체 자료의 갯수로 나눠준 값
편차란?
개별 자료가 평균으로 부터 얼마만큼 떨어져 있는가? 개별값 - 전체 평균 그렇다면 평균편차를 구할 수 있나?? 불가능함 : 개별자료의 편차를 모두 다하면 "0" 이됨 그래서 나온 개념이 분산임
하지만 분산은 결국 편차의 제곱을 평균한 것이기 때문에
자료 단위 역시 제곱이 됨
그래서 평균적으로 어느정도 편차가 있는지 알기 힘듬 그래서 나온게 표준편차임
1.2.4. 표준편차
분산 값에 제곱근을 취한값
제곱근을 취함
이러한 기법으로 수집한 데이터의 전체적인 모양을 그릴 수 있음
1.3. 기술통계 기법
1.3.1. 도수 분포표
특정 구간에 속하는 자료의 개수를 나타내는 표
자료의 분표를 몇 개의 구간으로 나누고, 나우어진 각 구간에 속하는 자료가 몇개인지 정리한 표
[표 작성법]
1) 자료의 갯수를 센다
2) 자료 내에서 최대/최소 값을 찾는다
3) 몇개의 구간으로 나눌지 결정
4) 구간의 폭을 구한다
5) 구간의 경계값을 구한다
6) 구간별 자료의 갯수를 적는다 : 구간폭 = (최대값-최소값)/구간수
예)
1.3.2. 히스토그램
도수 분포표를 시각적으로 표현한 막대 그래프
도수 분포표는 구간이 적지만 많을 경우 표현하기 힘드니 이럴때 사용
x축(가로) = 구간
y축(세로) = 구간별 빈도수
2. 추리 통계
수집한 자료를 바탕으로 연구자가 세운 통계적 가설을 확률 기반으로
선택할 것인지 버릴 것인지 판단하는 통계 기법
결국에는 확률을 말할 뿐 예언을 하는 통계는 아님
이유 : 제한된 데이터 즉 표본을 사용하기 때문
2.1. 모집단
통계적인 관찰의 대상이 되는 집단
연구자가 알고싶어하는 집단 전체
예)
대한민국 남자, 여자의 평균 키를 알고싶을 때의 모집단 : 대한민국 모든 남자 여자의 키
고등학교 3학년 평균 수학점수가 알고싶을 때의 모집단 : 고등학교 3학년 수학점수
2.2. 표본
모집단을 완벽하게 파악할 수 없는 경우 일부분에 해당하는것이 표본
그렇다면 어떻게 표본으로 모집단을 추정할 수 있을까?
2.3. 표본 공간( S )
어떤 특정 실험에서 또는 무작위 실험을 했을 때, 측정가능한 모든 결과들의 집합
예)
2.3.1. 표본 공간과 표본의 차이
표본 공간을 이루는 개개의 관찰 결과를 표본점이라고 함
즉 표본은 표본 공간의 부분집합
2.4. 사건
표본공간의 부분집합으로 어떤 조건을 만족하는 특정한 표본점들의 집합
예)
주사위를 두번 던져서 나온 수를 더했을 때 "2"가 나올때를 기다린다고 한다면( 조건 )
여기서 사건이란 바로 첫번째도 1, 두번째도 1이 나왔을때가 바로 사건이 발생한 때임.
2.5. 확률 ( Probability )
동일한 조건 하에서 동일한 실험을 무수히 많이 반복하여 실시할 때, 어떤 특정한 사건이 발생하는 비유
위에서 설명한 표본, 표본공간, 사건의 개념을 가지고 확률을 설명하면 다음과 같음
2.5.1. 확률이란
어떤 실험을 했을 때 나올 수 있는 모든 경우의 수( 표본 공간 ) 중 어떤 특정한 조건을 만족하는 사건이 발생하는 비율
2.5.2. 확률 변수
확률에 따라 변하는 값
기호는 X,Y등 대문자 알파벳을 사용
무작위 실험을 했을 때, 특정 확률로 발생하는 각각의 결과를 수치적으로 표한하는 변수
변수란?
특정 조건에 따라 변하는 값
확률 변수 : 임의로 진행되는 실험에서 일정한 확률을 가지고 발생하는 결과에 실수 값을 부여하는 변수
확률변수에 의해 할당된 실수는 x,y,와 같이 소문자 알파벳으로 표현
예)
표본 공간 =S
그에 상응하는 실수값을 부여하는 값 = X
부여된 실수 값(X)에 따라 계산된 실수 값 = R =확률변수
상태공간
확률 변수( R )이 취하는 모든 실수의 집합
상태공간을 구성하는 값이 나올 수 있는 가능성은 특정 확률( 0=1/4, 1=1/2. 2=1/4 )로 주어짐
( 0=1/4, 1=1/2. 2=1/4) 설명은 확률분포와 확률 함수로 이어짐
확률변수의 종류로 이산확률변수, 연속확률변수가 있음
2.5.2.1 이산확률변수
확률변수가 어느 구간의 모든 실수값을 택하지 않고 0,1,2.... 와 같은 고립된 값만을 택하는 변수