3가지 정보로 빅데이터 이해하기
- 3요소 : 빅데이터와 관련된 3가지 정보들에 대해 소개하고자 합니다.
빅데이터의 속성?
요즘에는 빅데이터의 중요성이 커짐에 따라 그만큼 이제는 대중적으로 많이 알려진 개념이기도 한 빅데이터! 오늘은 빅데이터의 속성을 설명하려고 합니다.
빅데이터란 아시다시피, 데이터의 생성 양·주기·형식 등이 기존 데이터보다 너무 크기 때문에, 종래의 방법으로는 수집·저장·검색·분석이 어려운 방대한 데이터를 말합니다.
위키피디아에서는 “기존 데이터베이스 관리 도구의 데이터 수집, 저장, 관리, 분석의 역량을 넘어서는 대량의 정형 또는 비정형 데이터 세트 및 이러한 데이터로부터 가치를 추출하고 결과를 분석하는 기술”로 정의하고 있어요.

이런 빅데이터의 특징, 혹은 속성으로 불리는 대표적인 3V로는 초대용량의 데이터양(volume), 다양한 형태(variety), 빠른 생성 속도(velocity)라는 뜻을 가지고 있으며, 네 번째 특징으로 가치(value)를 더해 4V라고 정의하기도 합니다.
빅데이터에서 가치가 중요 특징으로 등장한 것은 엄청난 규모뿐만 아니라 빅데이터의 대부분이 비정형적인 텍스트와 이미지 등으로 이루어져 있고, 이러한 데이터들은 시간이 지나면서 매우 빠르게 전파하며 변하기 때문인데요. 전체를 파악하고 일정한 패턴을 발견하기가 어렵게 되면서, 가치 창출의 중요성이 강조되고 있습니다.
더 나아가 정확성(veracity)이 추가돼, 5V로 표현하기도 하는데요, 빅데이터의 무궁무진함이 다양한 정의를 만들어내는 것 같습니다.
이러한 빅데이터의 종류를 분류한다면?

사람마다 빅데이터를 분류하는 기준은 다 다를 수 있겠지만 빅데이터를 구성하는 데이터의 형태에 따라서 정형, 비정형, 반정형데이터로 분류할 수 있습니다.
- 정형데이터(Structured data/formal data)
즉시 통계적 분석에 사용될 수 있을 만한 형태로 정리되고 가공된 데이터
고정된 필드에 저장된 데이터(관계형 데이터베이스, 스프레드시트 등)
정형 데이터는 보통 데이터베이스의 정해진 규칙에 맞게 데이터를 들어간 데이터 중에 수치 만으로 의미 파악이 쉬운 데이터들을 말합니다. 표를 그려 넣고 채워 넣는 형식의 데이터로 이름, 나이, 주민등록번호, 카드번호 등 주로 숫자와 짧은 단어로 구성된 데이터입니다.
- 반정형데이터(semi-structured data)
파일 형태, 메타데이터(데이터 내부에 정형 데이터의 스키마)
반정형 데이터의 반은 Semi를 의미하는 것인데요. 즉, 완전한 정형이 아니라 약한 정형 데이터라는 뜻을 담고 있습니다. 그렇기 때문에, 고정된 양식은 없으나 어느 정도 구조가 정해져 있는 데이터로, 반정형 데이터의 종류로는 로그 데이터, HTML, XML 등이 있습니다.
- 비정형데이터(Unstructured data)
데이터 세트가 아닌 하나의 데이터가 수집 데이터로 객체화
언어 분석이 가능한 텍스트 데이터, 멀티미디어 데이터 - 동영상, 이미지, 텍스트 등
비정형 데이터는 정형 데이터와 반대되는 단어로, 정해진 규칙이 없어서 값의 의미를 쉽게 파악하기 힘든 경우 비정형 데이터로 불립니다. 통제가 힘들거나 불가능한 데이터이기도 하며, 비정형 데이터는 글이나 이미지, 동영상, 음성과 같이 멀티미디어 데이터가 대표적입니다.
최근 이러한 비정형 데이터인 스마트폰과 CCTV, 블랙박스, 드론, 인공위성, 디지털카메라 등에서 수집되는 영상 데이터의 양이 엄청나게 증가했습니다.
그리고 이러한 빅데이터의 85%가량은 형태가 정해지지 않은 비정형 데이터라고 합니다. 또한 최근에는 비정형 데이터의 수가 훨씬 많아지고 있습니다.
빅데이터와 관련된 기술은?

빅데이터의 저장기술
기존의 데이터의 범위를 넘어서는 다양하고 많은 양의 빅데이터를 저장하고 관리하는 기술은 필수적인데요. 이러한 저장기술에는 대표적으로 하둡(Hadoop)과 NoSQL(Not Only SQL)이 있습니다. 특히, 두 기술은 비정형 데이터를 관리하는 데 뛰어난 평가를 받고 있다는 공통점이 있습니다.
하둡은 대용량 데이터를 분산 처리할 수 있는 자바 기반의 오픈 소스 프레임워크이며, NoSQL은 기존 관계 데이터베이스의 일관성이라는 특징보다는 가용성과 확장성에 중점을 둔 데이터베이스 시스템입니다.
비정형 데이터의 저장을 위해 유연한 데이터 모델 지원과 더 저렴한 비용으로 분산 처리와 병렬 처리가 가능하다는 특징을 갖고 있습니다.
빅데이터의 분석기술
비정형 데이터, 반정형 데이터가 정형 데이터보다 상대적으로 많이 증가하고 있는 추세이므로 이를 정확하게 분석하기 위한 기술이 크게 주목받고 있습니다. 통계학, 전산학 분야에서 쓰이는텍스트 마이닝(text mining), 기계 학습, 패턴 인식, 자연어 처리 등의 기술이 빅데이터의 분석기술에 해당합니다.
분석기술의 3가지만 간단히 소개해 드리자면 텍스트 마이닝과 오피니언 마이닝(opinion mining), 소셜 네트워크 분석(social network analysis)이 있는데요.
텍스트 마이닝은 반정형 또는 비정형 텍스트에서 자연어 처리 기술을 기반해 가치 있는 정보를 추출하고 가공하는 기술이며, 오피니언 마이닝은 SNS, 블로그 게시글 등에 기록되어있는 사용자들의 의견을 수집하여 제품이나 서비스에 대한 감성(긍정, 부정, 중립 등)을 파악하거나 유용한 정보로 재가공하는 기술입니다.
소셜 네트워크 분석은 소셜 네트워크상에서의 영향력인 사람이나 데이터 등 객체 간의 관계나 관계의 특성을 분석하고 시각화하는 측정 기법입니다. 빅데이터 이외에도 범죄 수사나, 조직 분석, 제약 연구 등 여러 분야에서 응용되는 기술이라고 해요.
이렇게 빅데이터의 3요소, 3종류, 관련 기술 3가지를 알아보았습니다. 빅데이터를 이해하는 데 조금이나마 도움이 되셨길 바라면서 이상 빅데이터의 정보와 소개를 마치겠습니다.
[저작권자ⓒ CWN(CHANGE WITH NEWS). 무단전재-재배포 금지]