빅데이터의 정의
빅데이터란 기존 데이터베이스 관리 도구의 능력을 넘어서는 대량의 정형 또는 비정형의 데이터 집합에서 가치를 추출하고 결과를 분석하는 기술을 말합니다. 데이터가 급증하면서 대용량 데이터를 활용하고 그 지식을 바탕으로 변화를 예측하기 위한 정보 기술입니다. 크기가 끊임없이 변하는 것이 특징이며 빅데이터의 고전적 사례로는 위키백과의 텍스트 및 이미지 자료를 들 수 있습니다.
빅데이터의 기초 단위인 데이터는 의미 있는 수치나 기호, 문자를 뜻합니다. 비정형화된 데이터란 가공되지 않고 표준화되지 않은 일상 언어나 대화와 같은 정보를 의미합니다. 카카오톡을 통해 주고받는 메시지, 인스타에 올리는 사진 등 일상생활의 비정형화된 데이터들이 최근 빅데이터의 확장된 범주 안에 들어갑니다. 이러한 비정형 데이터들은 마케팅과 같은 분야에 소비자 요구나 반응을 분석하는데에 쓰일 수 있어 충분한 가치를 가지고 있습니다.
빅데이터의 특징
2001년에 세계적 시장조사업체인 가트너가 내린 정의는 데이터의 양(Volume), 데이터 생성 속도(Velocity), 형태의 다양성(Varity)이었습니다. 2012년 가트너는 복잡성(Complexity) 속성을 더하여 빅데이터의 특징을 3VC로 새롭게 정의했습니다.
빅데이터의 새로운 3V는 정확성(Veracity), 가변성(Variability), 시간화(Visualization)입니다. 정보의 양이 많아지는 만큼 빅데이터 시대에는 데이터의 신뢰성이 떨어지기가 쉽습니다. 빅데이터를 분석할 때 기업이나 기관에 수집한 데이터가 정확한 것인지, 분석할 만한 가치가 있는지 등을 살펴야 하는 필요성이 있습니다. 그리고 데이터가 맥락에 따라 의미가 달라진다는 의미에서 가변성이 제시되었고 빅데이터는 정형 및 비정형 데이터를 수집하여 복잡한 분석을 실행한 후 용도에 맞게 정보를 가공하는 과정을 거칩니다. 이때 중요한 것은 정보 사용대상자의 이해 정도입니다.
빅데이터 처리 단계
빅데이터 처리 단계는 수집, 저장 관리, 처리, 분석 및 시각화, 폐기로 이루어져 있습니다. 먼저 수집은 데이터를 발견하고 분석하기 위해 맞는 형식으로 변환하는 과정입니다. 저장 관리는 수집한 데이터를 분석하기 전에 변질 위험이 없이 영구적으로 보관하는 것이고, 처리 과정에서는 단순 프로세싱 모델이 아닌 다양한 데이터 소스, 복잡한 로직 처리, 대용량 데이터를 처리합니다. 분석 및 시각화 단계에서는 데이터를 분석하여 해석가능한 상태로 만들고 폐기 때 개인정보와 같은 데이터나 가치없는 데이터를 폐기합니다.
빅데이터 사용분야
우리나라는 2000년부터 정보통신부의 산하단체로 사단법인 한국BI데이터마이닝학회가 설립되었습니다. 데이터 마이닝에 관한 학술과 기술을 보급하고 응용합니다. 데이터 마이닝에 대해 간단히 설명하자면 많은 데이터 가운데 숨겨져 있는 유용한 상관관계를 발견하여, 미래에 실행 가능한 정보를 추출해 내고 의사 결정에 이용하는 과정을 말합니다.
보건의료 계열에서는 국민건강보험공단에서 가입자의 자격, 진료, 투약내용, 건강검진 결과 및 생활 습관 정보 등을 2조 1천억 건, 92 테라바이트의 빅데이터를 보유해 사용하고 있고, 건강보험심사평가원에서도 마찬가지로 진료 내역, 투약 내용 등의 2조 2천억 건, 89 테라바이트의 데이터를 보유하고 있다고 합니다. 경제협력개발기구(OECD)에서는 한국의 건강보험 빅데이터 순위가 세계 2위라고 발표했습니다.
기업 경영에서는 데이터 품질을 높이고 방대한 데이터 처리를 돕는 데이터 통합이 중요하여 ETL 솔루션을 활용합니다. 이를 활용하면 일일이 수많은 데이터를 기업 데이터 포맷으로 코팅하지 않아도 데이터 품질을 제고할 수 있습니다.
이뿐만 아니라 생물정보학, 마케팅, 기상정보 분야에서도 사용됩니다.
빅데이터의 문제점
빅데이터의 문제점이라고 한다면 당연히 사생활 침해와 보안의 문제가 있습니다. 빅데이터를 수집, 분석할 때에 개인들의 사적인 정보까지 수집하여 관리하는 빅브라더의 모습이 될 가능성이 있습니다. 또 전례 없는 데이터의 홍수 또한 문제라고 볼 수 있습니다.
'A카테고리' 카테고리의 다른 글
기술철학, 기술낙관주의와 기술회의주의 (0) | 2023.01.03 |
---|---|
빅데이터와 인문학의 결합, 역할, 가치 (2) | 2023.01.03 |
고령 사회, 초고령 사회, 노인 문화, 노인 문학 (0) | 2023.01.02 |
생명공학과 유전공학, 수명과 노화 (0) | 2023.01.02 |
감시사회, 조지 오웰의 1984 (0) | 2022.12.31 |
댓글