이쿠의 슬기로운 개발생활

함께 성장하기 위한 보안 개발자 EverNote 내용 공유

빅데이터

09. 분석 기법

이쿠우우 2020. 10. 4. 11:50
반응형

 

분석 기법 개념 정리

 

 


 

교차분석(카이제곱 검정)

교차분석은 범주형 척도를 이용하여 두 변수 간의 상호관련성을 보고자 할 때 사용하는 분석.

질적인 변수(= 명목 척도, 범주형 척도)인 독립변수와 질적인 종속변수의 관계를 보기위한 분석

 

 

T-test

T-test는 집단간의 어떠한 '차이'를 보고자 할 때 사용함

독립표본과 대응표본 방식이 있음

두 집단 간의 비교

 

독립표본 T-test 분석

두 개의 독립적인 표본간에 하나의 종속변수의 평균이 동일한가를 검증

집단 간의 평균을 비교하는 분석

범주형(문자) 독립변수와 연속형(숫자) 종속변수 간의 차이를 보는 분석

Levene 등분산 검정 사용

 

[주의]

범주형 독립변수의 응답 범주가 무조건 2개이여야함

 

[예]

성별

 

대응표본 T-test 분석

두 변수간의 편균 차이를 분석

동일한 집단의 사전, 사후에 대한 차이를 보고자 할 때 사용

사전 점수화 사후 점수의 평균을 비교할 때 사용

 

[주의]

두개의 종속변수를 가지고 사용

두개의 종속변수 단위가 같아야함

 

[예]

A집단의 영어점수가 시험시간에 따라 차이가 있는가?

동일 집단 A의 사전, 사후의 영어점수 차이를 보고자 할때 대응표본 T를 사용

그래서 대응표본 T검정은 독립변수가 없음

 

 


 

분산분석(ANOVA)

명목척도로 측정된 독립변수와 등간 or 비율척도로 측정된 종속변수 사이와의 관계를 연구하는 통계기법

 

[분산분석 전제조건]

1. 독립성 : 각 집단은 서로 독립적이여야 함

2. 정규성 : 각 집단을 정규분포를 이우어야함

3. 불편성 : 각 집단별 분산의 정도가 비슷해야 함

 

일원분산분석(One-Way ANOVA)

하나의 범주형 독립변수와 종속변수간의 관계를 분석

 

[독립표본 T-test 와 다른점]

t-test 의 경우 독립변수가 남,여 와 같이 2개라면 쓰는거고

학년과 같이 1,2,3~ 처럼 3개 이상인 경우는 일월분산분석을 사용함

 

일원분산분석 대립가설은 적어도 한개의 집단엔 차이를 보임. 

 

[예]

보톡 대립가설은(t-test 의경우) '차이가 있다', '영향이 있다' 라고 표현

 

 

이원분산분석(One-Way ANOVA)

둘 이상의 독립변수들을 함께 고려했을 때 이들이 종속변수에 미치는 효과를 분석

 

 


 

 

상관관계분석(단순 회귀분석)

2개 이상의 양적인 변수 간 관계가 유의한지 확인하는 분석

주로 회기분석을 하기전에 독립변수, 종속변수간의 상관이 있는지 탐색적 목적으로 사용

연속형(양적) 변수와 연속형(양적) 변수 즉 2개 이상의 양적 변수간의 상관 관계를 알아보기 위해 사용

 

[참고]

독립변수, 종속변수간의 구분이 없음

모든 변수가 독립이며 종속이기 때문임

연구자가 원하는 '양적' 인 변수들을 넣으면 됨

 

상관 계수

등간척도 이상의 두 변수 중에서 한 변수의 변화가 다른 변수의 변화에 따라 어떤변화가 일어나는지를 보여주는 지표

 

상관 관계

한 변수의 변화에 따른 다른 변수의 변화 정도와 방향을 예측하는 분석기법

 

상관 계수의 특징

1. 변수간의 관계의 정도와 방향을 하나의 수치로 요약해주는 지수

2. 상관계수는 -1.00 ~ +1.00 사이 값을 가짐

3. 상관계수의 절대값이 높을수록 두 변수간의 관계가 높다고 할 수 있음

 

상관관계분석 참고

http://www.6025.co.kr/bbs/board.php?bo_table=cust_in&wr_id=13

 

 

 

 


 

회귀분석

연속형 독립변수가 연속형 종속변수에 영향을 미치는지를 파악하기 위함

독립-> 종속이 영향관계(인과관계)가 성립되는지가 가장 중요

회귀분석은 선형회귀분석(단순회귀분석)과 중다회귀분석(다중회귀분석)이 있음

 

선형회귀분석

[독립변수가 1개일 때]

'단순' 회귀분석

 

[변수적 조건]

회귀분석에 사용된 함수식이 종속벼수에 영향을 미친다고 생각되는 독립변수를 모두 포함하고 있어야함

분석에 사용되는 모든 변수들의 관측 자료에 오류가 없어야함

독립변수들이 비교적 서로 독립적이여야함

분석에 사용된 표본자료가 무작위표본을 구성해야함

 

회귀직선은 최소제곱법(OLS ordinary least square)으로 구해짐

딥러닝에도 선형회귀가 사용됨 단 접근 방식은 다름

 

 

다중회귀분석

독립변수가 2개 이상일 때 : '단순' 회귀분석

보통 단일회귀분석보다 더 많이 사용됨

종속변수들에 대한 독립변수들 간의 영향력 크기를 파악

 

 

더미회귀분석

선형회귀분석은 일반적으로 독립변수와 종속변수 모두 연속형자료임을 가정

실제 사회현상에서는 종속변수에 영향을 미치는 주요한 독립변수가 범주형인 경우가 많음

통제변수로는 범주형자로와 연속형 자료 모두 사용가능

통제변수로 범주형자로를 사용할 경우 통제변수는 더미변수로 설정

범주형 자료가 많아서 더미변수를 사용함

 

[더미변수란?]

코딩된 숫자의 의미는 없애고 특정 범주에 해당되는지 여부

예) 기본=1, 미혼=2 -> 미혼=1, 기혼=0

변수를 0과 1로 설정

종속변수의 평균이 가장 낮은 집단을 0으로 하는것이 좋음

 

[통제변수]

통제변수란 외재변수 중 하나로서 연구를 수행하면서 탐구하기를 원하지 않기 때운에 통제함

어떤 변수를  통제한다는 것은 그 변수가 고정된 상태를 의미

 


 

로지스틱회귀분석

로지스틱 회귀분석은 반응변수가 1 또는 0인 이진형 변수에서 쓰이는 회귀분석 방법

종속변수에 로짓변환을 실시하기 때문에 로지스틱 회귀분석이라고 불림

종속변수가 이진(binary: 가질 수 있는 값이 실패/성공, 정품/불량 등과 같이 가질 수 있는 값이 2개인경우)

인 경우 사용되는 회귀분석 방법이 로지스틱 회귀분석임

 

[참고]

만약 종속변수가 2개가 아니라 2개 이상의 경우 로지스틱 모형을 사용하는것이 아니라

CATMOD를 사용해야함

주의 : 로지스틱은 CATMOD 기번의 한 부분임

 

[종속변수가 범주형 자료인데 ???]

범주형 자료를 그래도 선형회귀 분석을 하게되면 하나의 직선으로 파악하는것이 불가능

그래서 범주형자료를 변형해서 비율로 나타내게 된다면 경향이 존재하고 이러한 곡선을 로지스틱 곡선이라고 함

 

[종속변수를 확률로 변환하는 경우에 문제가 발생할 수 있음]

이를 해결하기 위해 오즈(ODD) 또는 승산이라고 불리는 자료 변환 과정을 거침

일반적 비율은 사건이 발생할 확률이지만 오즈(승산)은 어떤 사건이 발생하지 않을 확률 대비 발생할 확률을 의미

 

[오즈(승산)으로 구한 종속변수 역시 회귀모델을 적용하기에는 완전하지 않음]

그래서 오즈에 자연로그(log)를 취하여 자료를 변환

로그변환시 자료가 선형적으로 안정화되며 음수와 양수 전체구간에 무한대로 존재하게 됨

 

로지스틱 회귀분석에서 도출된 독립변수의 회귀계수는 오즈에 로그를 취한 로짓계수임

해석을 위해 로짓값을 다시 오즈로 변환해야함

딥러닝에서는 시그모이드함수를 사용함 (시그모이드 : 그냥 s자 라는뜻, 그래프가 s자임..)

 

 

 


 

 

빅데이터를 더 깊게 공부할 것이면 위의것을 하나하나 실습하면 학습해야함

하지만 나는 AI 위주로 할것이기 때문에 일단 이런것들이 있구나 정도로 파악하고 넘어감 넘어감

 


 

 

[용어 참고]

명목척도 : 이름뿐인 척도, 숫자로 표현될 수 있지만 수량적인 의미를 갖지 않고 범주(카테고리)를 구분하는 용도

독립변수 : 볌주형 자료 (점수화 할 수 없는 자료)

종속변수 : 독립변수의 값이 변함에 따라 달라지는 수량을 나타내는 변수, 정량적(연속형) 자료 (점수화 할 수 있는 자료)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

참고

https://m.blog.naver.com/PostList.nhn?blogId=sub_om

 

 

반응형