이쿠의 슬기로운 개발생활

함께 성장하기 위한 보안 개발자 EverNote 내용 공유

빅데이터

01. 빅데이터란

이쿠우우 2020. 10. 2. 12:28
반응형

 

빅데이터

AI 분야에서 사용되는 체계적이고 많은 데이터는 어떻게 만들어지고 관리되는 것일까? 라는 의문점에서 시작되어

데이터에 대해 관심이 가기 시작하다가 빅데이터를 알게되어 리서치를 진행함.

 

세상은 지금 IT 시대에서 DT 시대로 가고 있다

지난 6월 마윈 알리바바 회장이 중국 베이징에서 열린 빅데이터 산업 설명회에서 “세상은 지금 IT시대에서 DT시대로 가고 있다”며 “각자가 갖고 있는 데이터로 사회에 얼마나 많은 가치를 창출해 내느냐가 중요하다”고 언급함.

이 말에서 뜻하는 IT와 DT의 차이점은 무엇일까?

 

Data와 Information

IT와 DT의 차이점을 알기위해서는 Data와 Information에 대해 알아야함.

Data란 가공되지 않은 1차원적의 원시기록의 상태를 뜻하는것으로 Raw Data를 말함.

‘구슬이 서말이라도 꿰어야 보배’라는 옛말 처럼 아무리 훌륭하고 좋은 것이라도 다듬고 정리하여 쓸모 있게 만들어 놓아야 값어치가 되는데 이러한 말 처럼 Raw Data를 다듬고 정리하여 쓸모있게 만든것을 바로 Information 이라고 함.

 

IT와 DT의 차이점

우리는 Raw Data를 가치있는 Information으로 만드는 과정이 필요한데 그때 사용하는 것이 바로 빅데이터 기술임.

IT : Information Technology
위에서 말한데로 Raw Data를 수집하여 다듬고 가공해야 특정한 주제에서 사용할 수 있는 
Information을 얻을 수 있음.
IT 시대에서는 이러한 Information을 통해서 사람이 지식을 축적하고 지혜를 얻어 가치를 창출했었음.

데이터 -> 정보 -> 지식 -> 지혜
DT : Data Technology
DT 시대에서는 IT시대 처럼 Raw Data를 가공하여 Information을 만들 필요없이
Raw Data 그 자체에서 분석한 후에 지식을 거쳐 가치를 찾아내는 기술임.
즉 Data 그 자체가 중요함.

데이터 -> 지식 -> 지혜

이와같이 IT 시대에서는 Information에 초점이 맞춰져있었다면, DT 시대는 Raw Data에 초점이 맞춰져있음

그렇다면 DT에서 말하는 Raw Data 그 자체를 분석하는 방법이 무엇이 있을까?

그것이 바로 빅데이터라고 함.

 

빅데이터란?

 

위키피디아 정보에 따르면 빅데이터란  데이터베이스 관리도구의 능력을 넘어서는 대량(수십 테라바이트)의 정형 또는 심지어 데이터베이스 형태가 아닌 비정형의 데이터 집합조차 포함한 데이터로부터 가치를 추출하고 결과를 분석하는 기술이라고 함.

 

빅데이터란 개념은 과거에도 있었지만 과거에는 큰데이터를 저장할 수 있는 기술도 부족했고 데이터를 체계화 시키기도 기술적으로 구현이 불가능하여 이론적으로만 존재하고 있었는데 현재는 기술력이 따라와서 구현이 가능해지며 발전되고 있는 학문임.

정형데이터
구조화 되어있는 데이터를 지칭하는 단어로 DataBase와 엑셀 등
Data를 체계적으로 관리할 수 있는 Tool에 저장되어있는 Data를 뜻함.
이렇게 저장된 데이터는 예측 가능 포맷을 사용하여 데이터를 정렬, 검색등 할 수 있게 설계가 가능함.
정형 데이터의 종류 : 이름, 주민번호, 주소, 도로명, 가격, 수량 등등
비정형데이터
정해진 규칙이 없어서 값의 의미를 쉽게 파악하기 힘든 데이터.
예측 가능한 포맷이 없어서 데이터를 체계를 파악하여 관리하기가 힘듬.
비정형 데이터의 종류 : 동영상 파일, 이미지 파일, PDF파일, 텍스트 문서 등등

 

빅데이터 3가지 특성 (3V, 6V)

Volume : 데이터의 규모
해마다 디지털 정보량이 기하급수적으로 증가하여
축적되는 데이터의 크기가 수직 확장의 물리적 한계를 초과할 정도로 거대해짐.
물리적인 크기뿐만 아니라 개념적인 범위 또한 커져서 
데이터 처리가 어려울 정도로 거대해짐.
Velociaty  : 속도
과거 : 순차적 데이터 처리 배치방식으로 처리.
현재 : 데이터 처리 및 분석이 실시간으로 진행됨.
Variety : 데이터 종류의 다양성
비정형적이고 다양한 데이터를 분석 대상으로 함
기존: 데이터베이스나 데이터웨어하우스 등 정제되어 있는 정형 데이터 분석 위주
빅데이터: 텍스트, 소셜네트워크, 로그기록 등 분석대상 데이터의 종류가 다양해짐

 

최근에는 3가지 개념이 더해져서 6V로 특징이 정의되기도 함.

 

Veracity : 정확성
가치있는 지식이나 정보를 추출하려면, 데이터의 품질 또는 데이터의 정확도가 성과에 중대한 영향을 끼침.
노이즈(noise)를 제거하고 시그날(signal)을 확보함으로써 데이터의 신뢰성을 제고함.
Value :  가치
빅데이터의 가치는 데이터의 정확성과 시간성과 관련이 있음
Visualization : 시각화
사용자 친화적인 시각적 기능을 통해 빅데이터의 모든 잠재력이 활용될 수 있어야함을 의미.

 

빅데이터는 왜 통계?

통계학이란 데이터에서 의미를 찾아내는 방법을 다룬 학문인데

빅데이터 또한 Raw Data를 분석하는 과정임으로 통계학에 많은 영향을 받음.

 

 

빅데이터를 다루는 언어 : R

R언어

R은 통계 분석을 위해 개발된 언어이자, 소프트웨어.

Bell 연구소에서 개발한 S라는 프로그래밍 언어를 본따 누구나 자유롭고 쉽게 사용할 수 있도록 오픈 소스로 구현됨.

R은 데이터 시각화가 편리해 바로 자료를 이미지화할 수 있다는 장점이 있음.

복잡한 데이터를 직관적으로 이해할 수 있어, 그 어떤 도구보다 많이 사용됨.

 

 

 


 

 

 

 

 

참고

https://drhongdatanote.tistory.com/30?category=648822

blog.zeroweb.kr/?p=5458

12bme.tistory.com/83

 

 

 

 

 

 

 

 

 

 

 

 

 

 

반응형