본문 바로가기

빅데이터/개념 정리

빅데이터- DATA, why? how?

 

"공공데이터를 활용한 빅데이터 분석가 양성과정" 강의가 시작됐다.
점심을 먹고 와서 6개 조를 편성했고, 빅데이터 첫 수업이 시작됐다.

 

 

데이터(data)란 21세기의 석유이다.
우리가 데이터에 관심을 갖게 된 이유는 데이터를 가치있는 정보로 가공하고, 가공된 정보를 통해서 지식을 습득해, 의사 결정의 도구 쓸 수 있기 때문이다.

즉, 데이터 > 정보 > 지식 > 의사결정 이다.

 

 

현재 대부분의 기업들이 전산시스템을 통해서 업무를 보고 있다.
그 전산시스템에는 많은 데이터가 수시로 드나들고 있는데, 이는 데이터의 저장소가 있었기 때문에 가능한 것이다.

 

 

- 데이터(DATA)란?
현실세계로부터 단순한 관찰이나 측정을 통해서 수집된 사실(Fact)이나 값(Value)이다.

여기서,
사실(Fact) = 문자형(String, VARCHAR2)
(Value) = 숫자형(Int, NUMBER)
라고 한다.

데이터(DATA)는 다시

1. 비즈니스 데이터(Business Data, Transaction Data): 계좌정보, 입출금 등의 거래에 대한 처리 등
2. 머신 데이터(Machine Data): IoT와 같은 센서 데이터
3. 빅데이터(Big Data): SNS, VOC 등 기존 전산시스템에서 수용할 수 없는 정도의 데이터량
로 나눌수 있다.

 

- 정보(Information)란?
데이터(DATA)를 처리(Processing)하여 생성한 "의미 있는" 자료이다.
예를 들어보면, 우리나라에는 전국 1000여개의 기상관측소에서 기상 데이터를 수집하고 있다.
내일 기온이 영하 13도로 관측이 되었다면 어떤 정보를 알 수 있을까?
러시아에서는 평년기온이 영하 10~12도 정도라고 한다.
따라서 우리나라가 아닌 러시아였다면 그냥 평상시 날씨겠지만, 우리나라에서는 굉장히 추운 날씨에 속한다.

그렇기 때문에
[날씨] 내일 서울 영하 13도, 올겨울 들어 가장 강력한 한파 찾아와
같은 제목을 붙일 수 있다.

또는 보험회사에서는 이 데이터를 활용하여 고객들에게 

[내일 눈예보가 있습니다. 대중교통을 이용하시고 차량운행시 유의하세요.]

라는 문자를 발송함으로써
회사 자본손실을 줄일 수 있겠다.

 

데이터 구조는 

1. 정형 데이터(Structered DATA): 데이터 타입, 데이터 길이, 속성(Attribute)와 레코드(Record)가 있는 형태이다.

 

2. 반정형 데이터(Semi-Structured DATA): XML 또는 JSON 형태로써 데이터를 구조화, 저장, 교환, 활용한다.

 

3. 비정형 데이터(Un-Structured DATA): 페이스북, 트위터, 인스타그램, pdf, doc 등과 같은 그림이나 영상, 문서처럼 형태와 구조가 다른 구조화 되지 않은 데이터를 말한다.