본문 바로가기
IT트렌드개념정리

빅데이터

by soso_쏘쏘 2025. 2. 22.
반응형

빅데이터란?

 

빅데이터는 주로 기존의 데이터 처리 응용 소프트웨어에서 다루기에는 너무 크거나 복잡하여 기존의 방법이나 도구로는 수집/저장/분석 등이 어려운 정형, 비정형 데이터들을 의미합니다. 세계적인 컨설팅 회사인 맥켄지(Mckinsey)에서는 빅데이터를 기존의 데이터 관리도구의 역량을 넘어서는 규모의 데이터로서 그 정의는 앞으로도 주관적이며 계속 변화할 것이라고 말한 바 있습니다. 또한 맥켄지는 빅데이터를 단순하게 데이터의 규모를 넘어서 비지니스 및 의사결정에 통찰력을 얻는 능력이라고 정의하기도 합니다. 

빅데이터는 기업들이 고객데이터를 수집하기 시작하며, 멀티미디어 콘텐츠 및 SNS 활성화 등의 영향으로 빠르게 확산되고 있습니다. 특히 기업들이 온라인과 오프라인 채널의 고객정보와 소비자 행동에 대한 정보를 적극적으로 수집함에 따라 더 많은 데이터 스토리지와 분석능력을 필요로 하게 되었습니다. 기업의 빅데이터 활용으로 사람들은 이제 무엇을 살지 고민하지 않아도 됩니다. 기업이 먼저 고객이 필요로 하는 것, 좋아하는 구매 패턴 등의 상황을 판단해서 알려주게 되었기 때문입니다.

 

 

빅데이터의 특징

빅데이터의 특징에는 Volume(규모), Velocity(속도), Variety(다양성), Veracity(진위성), Value(가치), Complexity(복잡성) 6가지가 있습니다. 규모는 일반적으로 수십 테라 바이트 혹은 수십 페타바이트 이상의 데이터 속성을 말합니다. 예를 들어, 다양한 웹 사이트에서 발생하는 로그 데이터, 센서 데이터, 소셜 미디어 데이터 등은 대량의 데이터를 생산합니다. 속도는 대용량의 데이터를 빠르게 처리하고 분석할 수 있는 속성이며, 온오프라인상에서 디지털 데이터는 매우 빠른 속도로 생산되므로 이를 실시간으로 수집, 저장, 유통, 분석이 가능한 성능을 의미합니다. 예를 들어, 금융거래, 소셜미디어 피드, 센서 데이터 등은 빠른 속도로 발생하기때문에 이를 빠르게 처리하는 것이 중요합니다. 다양성은 텍스트, 이미지, 음성, 비디오 등 다양한 종류의 데이터를 의미하며, 정형화의 수준에 따라 정형, 반정형, 비정형 데이터로 분류하기도 합니다. 진위성은 데이터의 진실성과 정확성과 관련된 속성이며, 중복이나 노이즈가 포함된 데이터를 처리하고 신뢰성 있는 결과물을 얻는 것을 중요하게 생각합니다. 가치는 데이터에서 가치있는 정보와 통찰력을 추출하는 것을 목표로 하고 있으며, 이를 통해 기업이 보다 효율적인 의사결정을 하도록 지원하는데 중점을 둡니다. 복잡성은 빅데이터 분석에 복잡한 시스템과 기술을 필요로 한다는 속성입니다. 데이터의 규모와 다양성으로 인해 고급 분석 기술과 알고리즘이 필요하며, 대용량 데이터를 처리하기 위한 고성능 하드웨어 및 분산 컴퓨팅 시스템이 갖추어져야 합니다. 

 

빅데이터 플랫폼

이처럼 다양한 데이터 소스에서 수집한 다양한 형태의 데이터를 처리, 분석하여 인사이트를 발견하고, 이를 바탕으로 보다 지능화된 서비스를 제공하는데 필요한 IT환경을 빅데이터 플랫폼이라고 합니다. 빅데이터를 분석하거나 활용하는데 필요한 필수 인프라(infrastructure)라고 할수 있습니다. 빅데이터 플랫폼은 확장가능한 대용량 데이터 처리능력, 이기종 데이터를 수집하고 통합하여 처리할수 있는 능력, 빠른 데이터 처리능력, 대용량의 데이터를 저장 및 관리할 수 있는 능력, 이를 원하는 수준으로 분석할 수 있는 능력 등을 갖추어야 합니다. 일반적으로 사용되고 있는 빅데애터 플랫폼에는 Apache Hadoop, Apache Spark, AWS EMR(Amazon Web Service, Elastic MapReduce), Google BigQuery, MS Azure HDInsight 등이 있습니다. 이러한 플랫폼은 기업과 조직이 대용량 데이터를 활용하여 비지니스 관점의 가치를 창출하고 의사결정을 하는데 중요한 역할을 수행합니다.

 

빅데이터 핵심기술

빅데이터의 핵심기술에는 여러가지가 있지만, 가장 대표적인 것이 분산시스템과 병렬처리 기술입니다. 분산 시스템은 여러 대의 컴퓨터나 서버로 이루어진 하나의 시스템으로, 대용량의 데이터를 처리할 때 이 데이터를 여러 서버로 분산하여 병렬로 처리하며, 이 때 노드 중 하나가 고장나더라도 시스템은 계속 유지되는 특징이 있습니다. 병렬 처리는 큰 규모의 작업을 작은 작업으로 나누고 이 작업들을 별개의 프로세서나 스레드에서 동시에 실행한 후, 이를 다시 취합하여 하나의 결과로 만드는 것을 뜻합니다. 이를 통해 작업 시간을 단축하고 성능을 향상시킬 수 있으며, 가장 널리 알려진 것은 아파치 하둡(Apache Hadoop)과 같은 Map-Reduce 방식의 분산 데이터 처리 프레임워크입니다.

 

전망

2023 국내 빅데이터 분석 도구 시장의 규모는 전년대비 11.1% 성장한 2 7054억원으로, 2027년까지 평균 10.6% 성장하여 매출 규모가 3 9771억원에 이를 것으로 예상되고 있습니다. 최근 개인과 기업의 데이터 소비 방식이 변화하며 데이터 플랫폼 솔루션을 활용하고자 하는 수요가 점점 증가하고 있습니다. 특히, 차별화된 고객 경험을 제공하기 위해 기업이 고객 데이터를 분석하고자 자체 데이터 플랫폼을 구축하는 사례가 늘어나며 시장의 규모는 예상보다 빠른 성장세를 보이고 있습니다. 또한 기업내 현업과 같은 많은 인력이 데이터를 활용하고자 하는 수요가 많아지면서 앞으로도 빅데이터 분석 시장의 전체적인 성장세가 지속될 것으로 전망됩니다.

반응형