CWN(CHANGE WITH NEWS) - 빅데이터를 이해하기 위해 알아야 할 3가지 정보

  • 흐림추풍령19.6℃
  • 흐림경주시22.2℃
  • 흐림강화20.9℃
  • 흐림천안22.0℃
  • 흐림부안22.4℃
  • 흐림이천19.6℃
  • 구름많음광주22.4℃
  • 비제주25.7℃
  • 흐림영월17.1℃
  • 흐림영천20.1℃
  • 흐림양산시24.9℃
  • 구름많음철원17.2℃
  • 흐림태백15.3℃
  • 구름많음진도군22.9℃
  • 구름많음울진20.8℃
  • 흐림충주19.8℃
  • 구름많음의성18.6℃
  • 흐림청주23.7℃
  • 구름많음산청20.3℃
  • 흐림금산20.5℃
  • 구름많음영주17.9℃
  • 흐림서산22.8℃
  • 흐림부여22.3℃
  • 흐림흑산도24.7℃
  • 흐림세종22.4℃
  • 구름많음남원23.3℃
  • 흐림보령23.7℃
  • 흐림김해시24.1℃
  • 구름많음완도24.2℃
  • 구름많음고창22.3℃
  • 구름많음대관령14.6℃
  • 흐림양평20.3℃
  • 구름많음동해20.4℃
  • 흐림고산25.2℃
  • 흐림의령군20.9℃
  • 구름많음순천19.5℃
  • 흐림보은21.6℃
  • 흐림원주20.6℃
  • 구름많음동두천19.4℃
  • 흐림밀양24.5℃
  • 흐림보성군23.4℃
  • 구름조금강진군22.7℃
  • 구름많음봉화16.8℃
  • 구름많음진주20.7℃
  • 맑음속초20.7℃
  • 구름많음목포23.9℃
  • 흐림북춘천18.3℃
  • 흐림수원23.2℃
  • 구름많음창원23.5℃
  • 흐림성산26.2℃
  • 구름많음해남24.7℃
  • 구름많음합천20.9℃
  • 구름조금영덕21.1℃
  • 비서귀포25.5℃
  • 구름많음장흥22.8℃
  • 흐림대구21.7℃
  • 흐림여수24.0℃
  • 흐림부산24.3℃
  • 구름많음통영23.8℃
  • 흐림홍성22.2℃
  • 흐림정읍22.4℃
  • 흐림구미20.3℃
  • 흐림인천24.6℃
  • 흐림고창군22.8℃
  • 구름많음파주19.2℃
  • 흐림북부산24.9℃
  • 박무백령도22.4℃
  • 흐림군산23.2℃
  • 구름많음포항23.9℃
  • 구름조금울릉도23.1℃
  • 흐림순창군20.9℃
  • 구름많음거제24.2℃
  • 구름많음안동18.8℃
  • 구름많음춘천19.0℃
  • 흐림제천18.7℃
  • 구름많음광양시24.0℃
  • 흐림서청주20.2℃
  • 흐림임실20.6℃
  • 구름많음고흥23.9℃
  • 구름많음함양군20.3℃
  • 구름많음홍천18.2℃
  • 구름많음대전22.6℃
  • 구름많음영광군23.0℃
  • 흐림서울23.6℃
  • 구름많음전주23.0℃
  • 구름많음거창19.8℃
  • 구름조금인제16.4℃
  • 흐림북창원23.9℃
  • 구름많음청송군18.2℃
  • 흐림정선군16.0℃
  • 흐림상주20.2℃
  • 구름많음강릉21.0℃
  • 구름많음북강릉20.6℃
  • 흐림남해22.7℃
  • 흐림문경18.6℃
  • 흐림장수18.1℃
  • 구름많음울산23.2℃
  • 2025.09.12 (금)

빅데이터를 이해하기 위해 알아야 할 3가지 정보

김수연 / 기사승인 : 2021-02-19 15:11:49
  • -
  • +
  • 인쇄

3가지 정보로 빅데이터 이해하기
- 3요소 : 빅데이터와 관련된 3가지 정보들에 대해 소개하고자 합니다.

빅데이터의 속성?
요즘에는 빅데이터의 중요성이 커짐에 따라 그만큼 이제는 대중적으로 많이 알려진 개념이기도 한 빅데이터! 오늘은 빅데이터의 속성을 설명하려고 합니다.

빅데이터란 아시다시피, 데이터의 생성 양·주기·형식 등이 기존 데이터보다 너무 크기 때문에, 종래의 방법으로는 수집·저장·검색·분석이 어려운 방대한 데이터를 말합니다.

위키피디아에서는 “기존 데이터베이스 관리 도구의 데이터 수집, 저장, 관리, 분석의 역량을 넘어서는 대량의 정형 또는 비정형 데이터 세트 및 이러한 데이터로부터 가치를 추출하고 결과를 분석하는 기술”로 정의하고 있어요.

이런 빅데이터의 특징, 혹은 속성으로 불리는 대표적인 3V로는 초대용량의 데이터양(volume), 다양한 형태(variety), 빠른 생성 속도(velocity)라는 뜻을 가지고 있으며, 네 번째 특징으로 가치(value)를 더해 4V라고 정의하기도 합니다.

빅데이터에서 가치가 중요 특징으로 등장한 것은 엄청난 규모뿐만 아니라 빅데이터의 대부분이 비정형적인 텍스트와 이미지 등으로 이루어져 있고, 이러한 데이터들은 시간이 지나면서 매우 빠르게 전파하며 변하기 때문인데요. 전체를 파악하고 일정한 패턴을 발견하기가 어렵게 되면서, 가치 창출의 중요성이 강조되고 있습니다.

더 나아가 정확성(veracity)이 추가돼, 5V로 표현하기도 하는데요, 빅데이터의 무궁무진함이 다양한 정의를 만들어내는 것 같습니다.

이러한 빅데이터의 종류를 분류한다면?

사람마다 빅데이터를 분류하는 기준은 다 다를 수 있겠지만 빅데이터를 구성하는 데이터의 형태에 따라서 정형, 비정형, 반정형데이터로 분류할 수 있습니다.

- 정형데이터(Structured data/formal data)
즉시 통계적 분석에 사용될 수 있을 만한 형태로 정리되고 가공된 데이터

고정된 필드에 저장된 데이터(관계형 데이터베이스, 스프레드시트 등)

정형 데이터는 보통 데이터베이스의 정해진 규칙에 맞게 데이터를 들어간 데이터 중에 수치 만으로 의미 파악이 쉬운 데이터들을 말합니다. 표를 그려 넣고 채워 넣는 형식의 데이터로 이름, 나이, 주민등록번호, 카드번호 등 주로 숫자와 짧은 단어로 구성된 데이터입니다.

- 반정형데이터(semi-structured data)
파일 형태, 메타데이터(데이터 내부에 정형 데이터의 스키마)

반정형 데이터의 반은 Semi를 의미하는 것인데요. 즉, 완전한 정형이 아니라 약한 정형 데이터라는 뜻을 담고 있습니다. 그렇기 때문에, 고정된 양식은 없으나 어느 정도 구조가 정해져 있는 데이터로, 반정형 데이터의 종류로는 로그 데이터, HTML, XML 등이 있습니다.

- 비정형데이터(Unstructured data)
데이터 세트가 아닌 하나의 데이터가 수집 데이터로 객체화

언어 분석이 가능한 텍스트 데이터, 멀티미디어 데이터 - 동영상, 이미지, 텍스트 등

비정형 데이터는 정형 데이터와 반대되는 단어로, 정해진 규칙이 없어서 값의 의미를 쉽게 파악하기 힘든 경우 비정형 데이터로 불립니다. 통제가 힘들거나 불가능한 데이터이기도 하며, 비정형 데이터는 글이나 이미지, 동영상, 음성과 같이 멀티미디어 데이터가 대표적입니다.

최근 이러한 비정형 데이터인 스마트폰과 CCTV, 블랙박스, 드론, 인공위성, 디지털카메라 등에서 수집되는 영상 데이터의 양이 엄청나게 증가했습니다.

그리고 이러한 빅데이터의 85%가량은 형태가 정해지지 않은 비정형 데이터라고 합니다. 또한 최근에는 비정형 데이터의 수가 훨씬 많아지고 있습니다.

빅데이터와 관련된 기술은?

빅데이터의 저장기술
기존의 데이터의 범위를 넘어서는 다양하고 많은 양의 빅데이터를 저장하고 관리하는 기술은 필수적인데요. 이러한 저장기술에는 대표적으로 하둡(Hadoop)과 NoSQL(Not Only SQL)이 있습니다. 특히, 두 기술은 비정형 데이터를 관리하는 데 뛰어난 평가를 받고 있다는 공통점이 있습니다.

하둡은 대용량 데이터를 분산 처리할 수 있는 자바 기반의 오픈 소스 프레임워크이며, NoSQL은 기존 관계 데이터베이스의 일관성이라는 특징보다는 가용성과 확장성에 중점을 둔 데이터베이스 시스템입니다.

비정형 데이터의 저장을 위해 유연한 데이터 모델 지원과 더 저렴한 비용으로 분산 처리와 병렬 처리가 가능하다는 특징을 갖고 있습니다.

빅데이터의 분석기술
비정형 데이터, 반정형 데이터가 정형 데이터보다 상대적으로 많이 증가하고 있는 추세이므로 이를 정확하게 분석하기 위한 기술이 크게 주목받고 있습니다. 통계학, 전산학 분야에서 쓰이는텍스트 마이닝(text mining), 기계 학습, 패턴 인식, 자연어 처리 등의 기술이 빅데이터의 분석기술에 해당합니다.

분석기술의 3가지만 간단히 소개해 드리자면 텍스트 마이닝과 오피니언 마이닝(opinion mining), 소셜 네트워크 분석(social network analysis)이 있는데요.

텍스트 마이닝은 반정형 또는 비정형 텍스트에서 자연어 처리 기술을 기반해 가치 있는 정보를 추출하고 가공하는 기술이며, 오피니언 마이닝은 SNS, 블로그 게시글 등에 기록되어있는 사용자들의 의견을 수집하여 제품이나 서비스에 대한 감성(긍정, 부정, 중립 등)을 파악하거나 유용한 정보로 재가공하는 기술입니다.

소셜 네트워크 분석은 소셜 네트워크상에서의 영향력인 사람이나 데이터 등 객체 간의 관계나 관계의 특성을 분석하고 시각화하는 측정 기법입니다. 빅데이터 이외에도 범죄 수사나, 조직 분석, 제약 연구 등 여러 분야에서 응용되는 기술이라고 해요.

이렇게 빅데이터의 3요소, 3종류, 관련 기술 3가지를 알아보았습니다. 빅데이터를 이해하는 데 조금이나마 도움이 되셨길 바라면서 이상 빅데이터의 정보와 소개를 마치겠습니다.

[저작권자ⓒ CWN(CHANGE WITH NEWS). 무단전재-재배포 금지]

최신기사

뉴스댓글 >

- 띄어 쓰기를 포함하여 250자 이내로 써주세요.
- 건전한 토론문화를 위해, 타인에게 불쾌감을 주는 욕설/비방/허위/명예훼손/도배 등의 댓글은 표시가 제한됩니다.

댓글 0

Today

Hot Issue