본문 바로가기
IT트렌드개념정리

데이터 과학(Data Science)

by soso_쏘쏘 2025. 2. 22.
반응형

데이터 과학(Data Science)이란?

 

데이터 과학은 정형, 비정형 데이터 등의 다양한 유형의 데이터를 수집, 분석하여 유의미한 정보를 추출하고 활용하는 체계적인 이론과 기술들을 통칭합니다. 빅데이터(big data), 데이터 마이닝(data mining), 기계학습(ML : Machine Learning) 등이 데이터 과학의 범주 안에 들어갑니다.

 

데이터 과학이라는 용어는 1974년 덴마크의 페테르 나우르가 그의 논문 ‘Concise Survey of Computer Methods’에서 처음으로 언급하였습니다. 그는 데이터 과학을 정의하면서도 주로 데이터 수집, 저장, 조작 등 데이터 처리에 집중하였습니다. 이후 1990년대 말, 데이터베이스와 데이터마이닝 기술의 발전으로 데이터 과학이라는 용어가 주목을 받기 시작했습니다. 2000년대에는 빅데이터, 기계학습 등과 같은 데이터 분석 기술의 중요성이 대두되면서 데이터 분석을 포함하는 포괄적인 용어로 의미가 확장되었습니다. 

 

 

데이터 과학의 프로세스

 

  1. 비지니스 문제이해 : 데이터 과학의 프로세스는 해결해야할 조직의 비즈니스 적인 문제를 이해하는 것부터 시작됩니다. 광범위하고 모호한 질문보다는 비즈니스 문제를 연구 가능한 가설로 나누어야 합니다. 예를 들어, 단순한 “판매량을 늘리려면 어떻게 해야되나요?”라는 질문 보다는 “매출 증가에 기여되는 조건들은 어떤것들이 있는가?” 에 따른 작은 질문들을 이어나가야 합니다. 그 조건에 따른 매출의 추이가 어떻게 달라지는지, 이에 따라 앞으로의 매출은 어떻게 예측되는지 등 내려야할 비즈니스 의사결정을 바탕으로 이 문제들을 정의해나가야 합니다.
  2. 데이터 수집 및 통합 : 비즈니스 문제가 이해된 후에는 어떠한 데이터를 사용할 수 있는지 확인하고 이를 수집해야합니다. 필요한 경우에는 원시데이터를 특정 분석에 사용가능한 형태로 변환하는 작업도 있을 수 있습니다. 
  3. 데이터 탐색 : 데이터를 그래프 등으로 시각화 도구를 사용하여 일반적인 패턴과 데이터간의 상관관계, 이상치 등을 확인합니다. 여기서 데이터 분석가는 문제 해결에 도움이 될 수 있는 데이터의 요소들을 파악하기도 합니다. 데이터의 작동방식과 중요한 요소를 파악하면 데이터를 변환하고 이를 활용할 수 있도록 모델링을 준비합니다.
  4. 모델 테스트 및 배포 : 분석가는 머신러닝, 딥러닝 등의 기술을 사용하여 다양한 알고리즘과 모델을 테스트합니다. 최종적으로 의사결정을 내리기 위해 모델을 선택하고 이를 시각화하거나 비즈니스 시스템에 배포합니다.
  5. 모델 모니터링 후 관리 : 모델이 배포된 후에는 변화하는 데이터에 따라 모델이 수정되고 재학습 될 수 있도록 지속적인 모니터링과 관리가 필요합니다. 

 

 

데이터 과학 관련 직무

 

  • 데이터 과학자(Data Scientist) : 데이터 과학자는 데이터 분석기술과 통계적 모델링 기술을 모두 사용하여 당면한 비즈니스 문제를 파악하고 해결책을 제시합니다. 데이터 과학자는 데이터 추출, 전처리, 모델링 및 평가 과정을 수행하며, 그 결과를 시각화하여 도출해내기도 합니다. 분석을 수행하는 과정에서는 파이썬, R 등의 프로그래밍 언어와 분석 도구를 사용하고, 주로 머신러닝과 딥러닝 모델을 실행하여 결과 예측 및 해결책을 도출하게 됩니다. 
  • 데이터 분석가(Data Analyst) : 데이터 분석가는 조직이 당면한 비지니스적인 문제를 분석하기 위해 데이터를 수집하고 조작하는 일을 합니다. 데이터 분석가는 SQL, R, 파이썬 등의 분석 도구를 활용하여 데이터를 조작 및 추출하며, 시각화 도구를 활용하여 그 결과를 시각적으로 표현합니다. 주로 수집된 다양한 데이터로부터 인사이를 포착하고 이를 추출하여 조직의 의사결정을 지원합니다. DW(data warehouse)나 DM(data mart)의 데이터를 분석하기도 하고 BI 관련한 업무를 수행하기도 합니다.
  • 데이터 엔지니어(Data Engineer) : 데이터 엔지니어는 조직의 데이터 관련한 인프라를 설계하고 구축하며, 다양한 대량의 데이터를 수집, 저장, 처리를 하는 업무를 수행합니다. 또한 이를 자동화 하기 위한 데이터 파이프라인을 구축하여 조직의 데이터 분석과 의사결정을 지원합니다. 데이터 엔지니어는 데이터 아키텍처, 데이터베이스 관리, 분산 시스템, 클라우드 컴퓨팅 및 데이터 파이프라인 개발에 관련한 광범위한 기술적 지식을 필요로 합니다.

 

데이터 과학 vs. 데이터 마이닝

 

데이터 과학은 데이터에서 통찰력, 지식, 예측을 통한 실행가능한 정보를 추출하는 것을 포함합니다. 그러나 데이터 마이닝은 대규모의 데이터 내에서 데이터 간의 패턴, 관계, 숨겨진 정보를 찾는데 중점을 두는 데이터 과학의 하위 개념입니다. 여기에는 모델 알고리즘과 기술을 사용하는 것도 포함되며, 탐색적 데이터 분석(EDA) 단계에서 추가 분석 및  모델링을 하기 위한 작업에 사용됩니다.

데이터 과학과 데이터 마이닝 모두 통계적인 분석과 기계학습 알고리즘을 활용하지만, 데이터 마이닝은 특히 패턴을 찾고 패턴에서 어떠한 지식을 추출해내는 것에 집중합니다. 데이터 과학은 여기에 더해 다양한 기술과 방법론을 활용하여 인사이트를 도출하고 의사결정을 내리는 것에 목표를 둡니다. 분야는 모두 데이터 분석과 관련이 있지만 분석의 목표와 접근 방식에 차이가 있다고 있습니다.

반응형