이쿠의 슬기로운 개발생활

함께 성장하기 위한 보안 개발자 EverNote 내용 공유

반응형

빅데이터 9

09. 분석 기법

분석 기법 개념 정리 교차분석(카이제곱 검정) 교차분석은 범주형 척도를 이용하여 두 변수 간의 상호관련성을 보고자 할 때 사용하는 분석. 질적인 변수(= 명목 척도, 범주형 척도)인 독립변수와 질적인 종속변수의 관계를 보기위한 분석 T-test T-test는 집단간의 어떠한 '차이'를 보고자 할 때 사용함 독립표본과 대응표본 방식이 있음 두 집단 간의 비교 독립표본 T-test 분석 두 개의 독립적인 표본간에 하나의 종속변수의 평균이 동일한가를 검증 집단 간의 평균을 비교하는 분석 범주형(문자) 독립변수와 연속형(숫자) 종속변수 간의 차이를 보는 분석 Levene 등분산 검정 사용 [주의] 범주형 독립변수의 응답 범주가 무조건 2개이여야함 [예] 성별 대응표본 T-test 분석 두 변수간의 편균 차이를 ..

빅데이터 2020.10.04

08. 가설검정의 개념과 용어

가설검정의 개념과 용어 가설 귀무가설 귀무가설(H0)이란 관습적이고 보수적인 주장, 차이가 없다, 0이다 등의 우리가 타파하고자 하는 주장 귀 : 돌아갈 귀 무 : 없을 무 아무것도 없는 것으로 돌아간다는 뜻 즉 말 그대로 라는 의미 효과가 없다 대립가설 대립가설(H1)이란 우리가 적극적으로 입증하려는 주장, 차이가 있음을 통계적 근거를 통해 입증하고자 하는 주장 즉 귀무가설에 반대하는 것이 대립가설 효과가 있다 검정방법 신뢰수준 가설을 검정할 때 얼마나 빡빡하게 검정할 것인지를 결정하는 수준을 말함 신뢰구간 모수가 어느 범위 안에 있는지를 확률적으로 보여줌 신뢰수준에 포함되는 x값 구간 유의수준 유의수준(알파a)이란 오류를 허용할 범위 보통 0.05 가 많이 사용됨 (5%) 가설을 검정할 때 이 정도까..

빅데이터 2020.10.04

07. 통계 개념 : 모집단분포와 표본분포

모집단분포와 표본분포란? 모집단분포 모집단을 구성하는 데이터가 이루는 확률 분포를 모집단분포 라고 함 모집단이란? 통계적인 관찰의 대상이 되는 집단 연구자가 알고싶어하는 집단 전체 모수란? ( Parameter ) 모집단의 특성을 나타내는 수치 모평균, 모분산, 모표준편차, 모비율 등이 있음 모수란 모집단을 구성하는 데이터를 설명하는 수치값 우리가 실제로 알고싶어하는 것은 "모집단 데이터"가 아니라 "모집단의 특성을 설명하는 모수" 임 모수는 모집단의 특성을 간략하게 설명해줌 예) 우리는 수능점수 전체 데이터( 모집단)를 알고싶은 것이 아니라 전체 수능 점수 평균(모평균) 또는 전체 수능점수 표준편차(모표준편차)를 알고싶은거임 [하지만 문제가 하나 있음] 대부분의 모집단 분포는 완전하게 알려진것이 없음 ..

빅데이터 2020.10.02

06. 통계 개념 : 확률분포

확률분포( 정규분포와 표준정규분포 그리고 Z-score ) 확률분포 이전 글인 "05. 통계 개념 : 기술통계와 추리통계" 항목의 추리통계 -> 확률 -> 확률분포에 해당하는 항목임 확률변수와 확률함수를 이용하면 특정 사건이 일어날 확률을 계산할 수 있다고 했는데 이것을 도식화 한것이 바로 확률분포임. 확률변수는 이산확률변수, 연속확률변수로 구분되는데 확률분포도 이산확률분포, 연속확률분포로 구분된다. 확률분포 종류 이산확률 분포 기하 분포 음의 이항 분포 다항 분포 등등등 연속확률 분포 정규분포 (가장 많이 사용됨) 연속균등 분포 등등등 위의 종류 중에서 정규분포가 가장 많이 사용되니 정규분포에 대해 알아보겠음 정규분포( 가우스분포 ) 좌우 대칭의 종 모양으로 생긴 분포 가우스 분포 라고도 부르기도 함 ..

빅데이터 2020.10.02

05. 통계 개념 : 기술통계와 추리통계

기술통계와 추리통계 1. 기술통계 수집한 데이터를 요약 묘사 설명하는 통계기법 데이터 집중과 분산도 두가지로 구분됨 1.1. 데이터 집중화 경향 (중심화) 수집한 데이터를 대표하는 값이 무엇인지 or 어떤값이 집중되어 있는지 다루는 기법 예 : 평균, 중앙값, 최빈값 1.1.1. 최빈값 수집한 자료 천체를 대표하는 값이 무엇인지 나타내는 통계(대표값) 1.1.2. 중앙값 자료를 크기 순으로 정렬했을 때, 중앙에 위치하는 값(순위자료의 대표값) 1.1.3. 평균값 자료를 모두 더해서 전체의 자료갯수로 나눈값(정량적 자료의 대표값) 1.2. 분산도 우리가 수집한 데이터가 어떻게 퍼져있는지 설명하는 기법 수집한 데이터가 어떻게 분산되어 있는지 설명하는 통계치 예 : 범위, 사분편차, 분산,표준편차 1.2.1...

빅데이터 2020.10.02

04. 통계 개념 : 독립변수, 종속변수

독립변수와 종속변수 통계 분석을 할 시 꼭 알고있어야하는 개념. 독립변수와 종속변수는 원인과 결과의 관계를 가지고 있음. 독립변수 : 원인 종속변수 : 결과 독립변수 (Independent Variable) 연구자가 의도적으로 변화시키는 변수 다른 변수에 영향을 받지 않는 변수 종속 변수에는 영향을 주는 변수 원인 변수 라고도 부름 예 : IQ (시험성적에 영향을 주기 때문) 독립변수가 연속형자료라면 : 공변량(Covariate) 독립변수가 범주형자료라면 : 요인(Factor) 종속 변수 (dependent Variable) 연구자가 독립변수의 변화에 따라 어떻게 변하는지 알고싶어하는 변수 의존적인 변수 연구자가 마음대로 조정할 수 있는 변수 : 독립 변수를 사용해서 변화함 결과 변수 라고도 부름 예 :..

빅데이터 2020.10.02

03. 통계 개념 : 척도

척도란? Raw Data를 통계학적으로 분석하기 위해서는 동영상, 이미지 등 숫자로 표현되어있지 않은 Data도 숫자로 표현할 수 있어야함. 그러기 위해 척도를 사용하는데 척도란 특성을 통계상의 수로 표현하기 위해 체계적으로 그 속성에 숫자를 부여한 것임. Raw Data 대상에 "단위"를 부여하는 것. 척도는 크게 범주형 자료, 연속형 자료로 구분됨 범주형 자료 범주형 자료는 명목, 순위 척도로 분류가 됨. 명목 척도 (Nominal Scale) 이름뿐인 척도 숫자로 표현될 수 있지만 수량적인 의미를 갖지 않고 범주(카테고리)를 구분하는 용도 예 : 성별 (남/여), 학벌 (초/중/고/대), 거주 지역 순위 척도 (Ordinal Scale) 관찰대상이 지니는 속성에 따라 순위를 결정하는 척도 어떠한 속..

빅데이터 2020.10.02

02. 통계 개념 : Raw Data 수집과 분류

통계란? 통계(Statistic)는 사회적 현상 혹은 자연 현상을 규명하기 위해 수집된 각종 데이터의 요약으로 적절한 방법을 통해 1차적으로 가공되어 나오는 정보를 뜻함. 예시 : 숫자, 그래프, 도표, 그림, 데이터로부터 얻어진 정보(평균, 분산, 상관계수 등..) 빅데이터에 비유를 하면 "01. 빅데이터란" 에서 설명했던 Raw Data를 1차적으로 가공하는 단계임. 해당 글에서는 통계학의 기초개념을 설명하겠음. 개체, 요인, 변수 빅데이터를 진행하기 위해 가장 첫번째로 할 작업은 Raw Data를 수집하는 과정이 필요함. 예를 들어 사람들이 가장 많이 가는 여행지를 파악하기 위해서는 여행지에 대한 정보가 필요하지, 여행지와 전혀 상관없는 정보를 수집하면 오류가 있는 결과를 얻게될 것임. 목표와 매칭..

빅데이터 2020.10.02

01. 빅데이터란

빅데이터 AI 분야에서 사용되는 체계적이고 많은 데이터는 어떻게 만들어지고 관리되는 것일까? 라는 의문점에서 시작되어 데이터에 대해 관심이 가기 시작하다가 빅데이터를 알게되어 리서치를 진행함. 세상은 지금 IT 시대에서 DT 시대로 가고 있다 지난 6월 마윈 알리바바 회장이 중국 베이징에서 열린 빅데이터 산업 설명회에서 “세상은 지금 IT시대에서 DT시대로 가고 있다”며 “각자가 갖고 있는 데이터로 사회에 얼마나 많은 가치를 창출해 내느냐가 중요하다”고 언급함. 이 말에서 뜻하는 IT와 DT의 차이점은 무엇일까? Data와 Information IT와 DT의 차이점을 알기위해서는 Data와 Information에 대해 알아야함. Data란 가공되지 않은 1차원적의 원시기록의 상태를 뜻하는것으로 Raw D..

빅데이터 2020.10.02
반응형