빅데이터 구성요소 - bigdeiteo guseong-yoso

빅데이터 구성요소 - bigdeiteo guseong-yoso

안녕하세요.

오늘은 빅데이터에 대하여 한 번

알아보는 시간을 가지도록 하겠습니다 :)

2017년 당시에 출시된 책 중 가장 많은

분야를 차지한 것이 바로 빅데이터란 것인데요.

빅데이터가 과연 무엇이길래 이렇게나

많은 사람들이 알기 위해 노력을 할까요?

빅데이터에 대한 정의 및 구성요소와

특징, 문제점에 대하여 파헤쳐보는

시간을 갖도록 하겠습니다 :)

빅데이터 구성요소 - bigdeiteo guseong-yoso

우리 모두의 백과사전이라고 불리는 위키백과에

검색을 해본 결과 빅데이터의 정의는

다음과 같았습니다.

" 기존의 Data Base를 관리하는 도구에 대한

능력치를 넘어서 대량의 정형 혹은

Data Base의 형태가 아닌 비정형의 데이터에 대한

집합을 포함시킨 데이터로부터 가치에 대한 추출을

하면서 그에 대한 결과를 분석하는 기술 "

이게 무슨 말인지 쓰면서 저도 모르겠다는

생각이 들었는데요, 쉽게 설명을 해보자면

이렇습니다.

기존의 Data Base 관리 시스템으로는

처리하기가 어려운 굉장히 큰 규모의 데이터입니다.

다만 데이터의 형태가 굉장히 다양하고

이를 생성하는 속도가 빠르기 때문에

새롭게 관리를 하고 분석하는 방법이 필요한

어마어마한 용량의 데이터인 것입니다.

그리고 이를 분석하고 활용하는 정보의 기술까지

아우르는 단어라고 생각하시면 됩니다!

빅데이터 3요소는 규모(크기) / 다양성 / 속도

이렇게 된다고 보시면 됩니다.

빅데이터 구성요소 - bigdeiteo guseong-yoso

1. 규모 (Volume)

제타 바이트 (ZB = 1000조 MB) 시대

빅데이터의 규모는 테라바이트에서 페타바이트

정도까지 이른다고 생각하시면 됩니다.

유사 이래에 2003년까지 생성이 됐던

모든 정보의양이 5 exabyte 정도인데

2011년까지 1.8 zettabyte 의 정보가

생성됐다면 믿어지시나요?

데이터 크기를 모르시는 분들을 위해

데이터 크기 순으로 어떤 단위를 사용하는지

보여드리겠습니다 :)

빅데이터 구성요소 - bigdeiteo guseong-yoso

유사 이래에 2003년까지 모은 정보의 양이

5 exabyte 였는데 그 이후부터 2011년까지

모인 데이터의 양이 exabyte의 1000배 단위인

zettabyte를 사용한다니.....

어마 어마한 양의 데이터가 단시간 내에

쌓였다는 사실은 놀라울 수밖에 없는데요.

그 양은 미국의 의회 도서관에 저장된 정보의

4백만배가 되고, 16기가의 아이패드를

축구장의 면적으로 쌓아서 올린다고 했을 때,

대기권의 2배 정도의 높이에 도달한다는

예측이 나왔습니다.

도저히 저의 상식 선으로는 감을 잡을 수 없는

수준의 양이네요.....

고작 알아봤자 테라바이트 정도까지만 알고 있는

저에게는 너무나도 먼 숫자 같아요.

빅데이터 구성요소 - bigdeiteo guseong-yoso

2. 다양성 (Variety)

비정형화 + 반 정형화 + 정형화된 데이터

빅데이터는 정형화된 데이터부터 시작해서

정형화가 되지 않은 데이터까지

정말 수 많은 형태를 가지고 있습니다.

웹 로그, 전자 상거래 및 온라인 상의 트랜잭션 등

정형화된 데이터는 테이블과 RDBMS를

반정형화된 데이터는 HTML, XML 등의 태그를

비정형화된 데이터는 텍스트와 오디오, 이미지 및

동영상까지 포함하고 있죠.

보통 비정형화된 데이터가 90% 이상을

차지하고 있구요.

빅데이터 구성요소 - bigdeiteo guseong-yoso

3. 속도 (Veiocity)

데이터의 빠른 생성 및 유통과 활용

여기서 말하는 속도란 데이터가 생성이 된 이후부터

유통이 되면서 활용이 되기까지 걸리는 시간을

의미하는 것입니다.

현대 사회에서 데이터는 실시간으로 수집되고

있는데 이를 Streaming data 라고 부르죠.

이렇게 수집된 데이터는 처리를 하는 속도가

수 주에서 수 분 초 이하의 단위로 단축이

되거나 서의 실시간으로 처리되고 있습니다.

상대적으로 엄청난 속도로 단 시간 내에

수집 및 저장과 처리, 분석이 되고 있다는

뜻입니다.

빅데이터 구성요소 - bigdeiteo guseong-yoso

일단 빅데이터의 가장 두드러지는 특징은

텍스트와 이미지, 동영상 등의 비정형화된

형태의 데이터를 포함하고 있다는 것입니다.

그리고 중요한 패턴에 대하여 분석을 하는 것이

쉽지 않습니다.

마지막으로 유용하게 사용될 수 있는 정보가

급증하는 것은 이점이지만 그만큼 불필요한

정보 역시 같이 증가하고 있다는 것입니다.

빅데이터는 정치와 사회, 경제, 문화 등의 전 분야에

걸쳐서 사회 및 인류에게 가치가 있는 정보를

제공할 수 있다는 가능성을 제시했습니다.

하지만 이렇게 중요하다고 급증한 빅데이터,

분명히 문제점도 존재합니다.

빅데이터의 문제점이란 사생활을 침해하고 있다는 점,

그리고 보안이라는 측면입니다.

엄청난 양의 정보를 가지고 있는 것이 바로

빅데이터인데 이 안에 수많은 개인 정보들이

포함되어 있을 것이기 때문이죠.

그렇게 모은 데이터가 만에 하나 외부로

유출이 된다고 한다면?

상상하기도 싫을 만큼 대형 사고가 나는 것이죠.

빅데이터 안에 포함되어 있던

수많은 양의 개인 정보가 쏟아져 나오는 것이니까요.

이와 같이 문명과 기술이 발전하면 할 수록

이점도 많이 나온다는 것은 사실입니다.

하지만 그만큼 문제점 또한 많이 생겨나죠.

이를 예방할 수 있는 방안 혹은 대처할 수 있는 방안을

함께 강구하는 사회가 되어야 할 것 같습니다.

이점은 살리면서 단점은 최소화시키는!

이것이야말로 우리의 목표가 아닐까싶습니다 :)