데이터베이스 & 빅데이터 신기술
보안/신기술신기술 및 장비데이터베이스 신기술
읽는데 9분 소요
처음 쓰여진 날: 2025-10-10
마지막 수정일: 2025-10-10
조회수: 7
요약
정보처리기사 실기 시험 대비, 빅데이터와 데이터베이스 핵심 신기술(Hadoop, HDFS, 데이터 마이닝, 데이터 웨어하우스, 메타데이터, 마이데이터 등)을 근본 원리부터 완벽 정리합니다.
💡 신기술 파트 중 데이터 관련 기술은 정처기 실기에서 그간 다뤄지지 않은 부분입니다. 나온다면 가장 근본적으로 주요한 기술 용어가 출제될 것으로 예상합니다.
주요 데이터 신기술 요약표
분류 | 기술 | 핵심 키워드 |
---|---|---|
빅데이터 기반 | Hadoop | 분산 처리 프레임워크, HDFS + MapReduce, 에코시스템 |
HDFS | 분산 파일 시스템, 내고장성, Write-Once-Read-Many | |
데이터 수집/전송 | Chukwa | 대규모 로그 수집, 에이전트-컬렉터, HDFS 기반 |
Sqoop | RDBMS와 Hadoop 간 데이터 전송, Import/Export | |
스크래피(Scrapy) | 웹 크롤링 프레임워크, 파이썬, 자동화된 데이터 수집 | |
데이터 분석/활용 | 데이터 마이닝 | 패턴/규칙 발견, 분류, 군집, 연관 분석, 지식 추출 |
데이터 웨어하우스 | 의사결정 지원, 주제 중심, 통합, 시계열, 비휘발성 | |
데이터 마트 | 웨어하우스의 축소판, 특정 부서/주제, 신속한 구축 | |
데이터 관리 | 메타데이터 | 데이터에 대한 데이터, 데이터 관리의 핵심, 데이터 카탈로그 |
디지털 아카이빙 | 장기 보존, 진본성/무결성, 법적/역사적 가치 | |
마이데이터 | 정보 주권, 데이터 이동권, 개인 맞춤형 서비스 |
데이터 기술을 관통하는 기술
기술 | 핵심 원리 | 이 기술이 기반이 되는 것들 |
---|---|---|
Hadoop & 분산 기술 | 분산: 대용량 데이터를 여러 곳에 나눠 저장하고 처리 | 거의 모든 빅데이터 기술, 클라우드 스토리지, 대규모 AI 모델 학습 |
데이터 웨어하우스 & 마이닝 | 통합과 추출: 데이터를 모으고 정제하여 지식을 발견 | 비즈니스 인텔리전스(BI), 고객 관계 관리(CRM), 추천 시스템 |
Hadoop과 분산 기술 (분산)
'분산'을 통해 한계를 극복하고 대규모 데이터를 처리합니다.
- 개념: 하나의 고성능 컴퓨터가 아닌, 여러 대의 일반 컴퓨터를 묶어 마치 하나의 거대한 컴퓨터처럼 동작하게 만드는 원리입니다. 데이터는 여러 조각으로 나뉘어 각 컴퓨터에 저장(HDFS)되고, 계산 작업 또한 각 컴퓨터가 나눠서 동시에 처리(MapReduce)합니다.
- 왜 근본적인가?: 이 '분산' 패러다임이 없었다면 오늘날의 빅데이터, AI, 클라우드 기술은 존재할 수 없었습니다. 페타바이트급 데이터를 처리하고 수천억 개의 파라미터를 가진 AI 모델을 학습시키는 모든 작업의 기반이 됩니다.
데이터 웨어하우스와 데이터 마이닝 (통합과 추출)
'통합'과 '추출'을 통해 데이터에서 숨겨진 가치를 찾아냅니다.
- 개념:
- 데이터 웨어하우스: 여러 곳에 흩어져 있는 데이터(ERP, CRM, 로그 등)를 한 곳으로 모아 '통합' 하고, 분석하기 좋은 형태로 '정제' 하는 저장소입니다.
- 데이터 마이닝: 이렇게 잘 정제된 데이터 속에서 의미 있는 패턴과 규칙, 즉 '지식' 을 '추출' 하는 기술입니다.
- 왜 근본적인가?: 단순히 데이터를 쌓아두는 것을 넘어, 기업이 데이터 기반의 의사결정을 내릴 수 있게 하는 핵심 프로세스입니다. 모든 BI(Business Intelligence), CRM, 추천 시스템의 근간을 이룹니다.
빅데이터 기반 기술
Hadoop (하둡)
대용량 데이터를 분산 처리하기 위한 오픈 소스 프레임워크이자 빅데이터 생태계의 시작점입니다.
- 핵심 구성:
- HDFS (Hadoop Distributed File System): 데이터를 여러 서버에 분산하여 저장하는 파일 시스템.
- MapReduce: 분산된 데이터를 병렬로 처리하는 프로그래밍 모델.
- 특징: 저렴한 범용 하드웨어를 묶어 대규모 클러스터를 구성할 수 있어 비용 효율적입니다. 내고장성(Fault Tolerance)이 뛰어나 일부 서버에 장애가 발생해도 데이터 유실 없이 안정적으로 동작합니다.
HDFS (Hadoop Distributed File System)
하둡을 위해 설계된 대용량 파일의 분산 저장을 위한 파일 시스템입니다.
- 특징: 'Write-Once-Read-Many' 모델에 최적화되어 있어, 한 번 저장된 데이터는 수정하기보다 주로 읽는 용도로 사용됩니다. 데이터를 여러 블록으로 나누고, 각 블록을 복제하여 여러 서버에 저장함으로써 데이터의 안정성과 가용성을 높입니다.
데이터 수집 및 전송 기술
Chukwa (척와)
대규모 분산 시스템에서 발생하는 로그 데이터를 안정적으로 수집하기 위한 아파치 프로젝트입니다.
- 구조: 데이터를 수집하는 에이전트(Agent), 수집된 데이터를 받아 저장소로 전달하는 컬렉터(Collector) 로 구성됩니다.
- 특징: HDFS에 데이터를 저장하는 것을 기본으로 하며, 실시간 데이터 분석 및 모니터링 시스템 구축에 사용됩니다.
Sqoop (스쿱)
관계형 데이터베이스(RDBMS)와 하둡(HDFS, Hive 등) 간에 대량의 데이터를 효율적으로 전송하는 도구입니다.
- 주요 기능:
- Import: RDBMS에서 하둡으로 데이터를 가져옵니다.
- Export: 하둡에서 RDBMS로 데이터를 내보냅니다.
- 특징: MapReduce 작업을 생성하여 데이터를 병렬로 처리하므로 빠르고 안정적인 데이터 전송이 가능합니다.
스크래피 (Scrapy)
웹 사이트에서 구조화된 데이터를 추출(크롤링)하기 위한 파이썬 기반의 오픈 소스 프레임워크입니다.
- 특징: 비동기 처리 방식을 사용하여 매우 빠른 속도로 웹 페이지를 수집할 수 있습니다. 데이터 추출 규칙(Spider)을 정의하여 원하는 정보만 정확하게 가져올 수 있으며, 수집한 데이터는 JSON, CSV 등 다양한 형식으로 저장이 가능합니다.
데이터 분석 및 활용 기술
데이터 마이닝 (Data Mining)
대규모 데이터 속에서 의미 있는 패턴, 규칙, 관계를 찾아내어 가치 있는 정보로 만드는 과정입니다.
- 주요 기법:
- 분류(Classification): 데이터를 미리 정의된 그룹으로 나눕니다. (예: 스팸 메일 분류)
- 군집화(Clustering): 유사한 특성을 가진 데이터끼리 그룹을 만듭니다. (예: 고객 세분화)
- 연관 분석(Association): 데이터 항목 간의 관계를 찾습니다. (예: '기저귀'와 '맥주'의 연관성)
데이터 웨어하우스 (Data Warehouse)
기업의 의사결정을 지원하기 위해, 여러 시스템의 데이터를 주제 중심으로 통합하여 저장하는 데이터베이스입니다.
- 4대 특징:
- 주제 중심(Subject-Oriented): 고객, 제품 등 분석 주제별로 데이터를 구성합니다.
- 통합(Integrated): 데이터 형식을 일관되게 변환하여 저장합니다.
- 시계열(Time-Variant): 시간의 흐름에 따른 변화를 분석할 수 있도록 데이터를 저장합니다.
- 비휘발성(Non-Volatile): 데이터가 한 번 저장되면 삭제하거나 수정하지 않습니다.
데이터 마트 (Data Mart)
데이터 웨어하우스의 축소 버전으로, 특정 부서나 사용자 그룹의 요구에 맞춰진 소규모 데이터 저장소입니다.
- 특징: 특정 주제에 집중하므로 데이터 웨어하우스보다 빠르고 저렴하게 구축할 수 있습니다. 전사적인 분석보다는 특정 현업 부서의 분석 요구를 충족시키는 데 목적이 있습니다.
데이터 관리 기술
메타데이터 (Metadata)
'데이터에 대한 데이터'로, 데이터의 구조, 속성, 이력, 관계 등 모든 정보를 설명합니다.
- 중요성: 데이터의 출처, 의미, 형식을 명확히 하여 데이터의 가치를 높이고, 사용자가 데이터를 쉽게 찾고 이해하며 활용할 수 있도록 돕습니다. 데이터 거버넌스와 데이터 품질 관리의 핵심 요소입니다.
디지털 아카이빙 (Digital Archiving)
장기 보존 가치가 있는 디지털 정보를 체계적으로 수집, 관리, 보존하여 미래에 활용할 수 있도록 하는 활동입니다.
- 특징: 정보의 진본성, 무결성, 신뢰성을 보장하는 것이 핵심입니다. 법적 증거, 역사적 기록, 연구 데이터 등을 안전하게 보존하기 위해 사용됩니다.
마이데이터 (MyData)
정보 주체인 개인이 자신의 데이터에 대한 통제권을 가지고 직접 관리하고 활용하는 데이터 패러다임입니다.
- 핵심 권리: 개인신용정보 이동권을 통해 개인이 금융기관 등에 흩어져 있는 자신의 정보를 한 곳에 모아 관리하고, 이를 기반으로 맞춤형 자산관리, 신용관리 등의 서비스를 받을 수 있습니다.
정보처리기사 실기 대비 문제
문제를 불러오는 중...
문제를 불러오는 중...
문제를 불러오는 중...
문제를 불러오는 중...
문제를 불러오는 중...
문제를 불러오는 중...
문제를 불러오는 중...
문제를 불러오는 중...
문제를 불러오는 중...