정처기 감자
보안/신기술신기술 및 장비

검색

검색어를 입력해 개념, 문제, 필기를 찾습니다.

데이터베이스 & 빅데이터 신기술

보안/신기술신기술 및 장비데이터베이스 신기술
읽는데 11분 소요
처음 쓰여진 날: 2025-10-10
마지막 수정일: 2025-10-10
조회수: —

요약

정보처리기사 실기 시험 대비, 빅데이터와 데이터베이스 핵심 신기술(Hadoop, HDFS, 데이터 마이닝, 데이터 웨어하우스, 메타데이터, 마이데이터 등)을 근본 원리부터 완벽 정리합니다.

💡 신기술 파트 중 데이터 관련 기술은 정처기 실기에서 그간 다뤄지지 않은 부분입니다. 나온다면 가장 근본적으로 주요한 기술 용어가 출제될 것으로 예상합니다.

주요 데이터 신기술 요약표

분류기술핵심 키워드
빅데이터 기반Hadoop분산 처리 프레임워크, HDFS + MapReduce, 에코시스템
HDFS분산 파일 시스템, 내고장성, Write-Once-Read-Many
데이터 수집/전송Chukwa대규모 로그 수집, 에이전트-컬렉터, HDFS 기반
SqoopRDBMS와 Hadoop 간 데이터 전송, Import/Export
스크래피(Scrapy)웹 크롤링 프레임워크, 파이썬, 자동화된 데이터 수집
데이터 분석/활용데이터 마이닝패턴/규칙 발견, 분류, 군집, 연관 분석, 지식 추출
데이터 웨어하우스의사결정 지원, 주제 중심, 통합, 시계열, 비휘발성
데이터 마트웨어하우스의 축소판, 특정 부서/주제, 신속한 구축
데이터 관리메타데이터데이터에 대한 데이터, 데이터 관리의 핵심, 데이터 카탈로그
디지털 아카이빙장기 보존, 진본성/무결성, 법적/역사적 가치
마이데이터정보 주권, 데이터 이동권, 개인 맞춤형 서비스

데이터 기술을 관통하는 기술

기술핵심 원리이 기술이 기반이 되는 것들
Hadoop & 분산 기술분산: 대용량 데이터를 여러 곳에 나눠 저장하고 처리거의 모든 빅데이터 기술, 클라우드 스토리지, 대규모 AI 모델 학습
데이터 웨어하우스 & 마이닝통합과 추출: 데이터를 모으고 정제하여 지식을 발견비즈니스 인텔리전스(BI), 고객 관계 관리(CRM), 추천 시스템

Hadoop과 분산 기술 (분산)

'분산'을 통해 한계를 극복하고 대규모 데이터를 처리합니다.
  • 개념: 하나의 고성능 컴퓨터가 아닌, 여러 대의 일반 컴퓨터를 묶어 마치 하나의 거대한 컴퓨터처럼 동작하게 만드는 원리입니다. 데이터는 여러 조각으로 나뉘어 각 컴퓨터에 저장(HDFS)되고, 계산 작업 또한 각 컴퓨터가 나눠서 동시에 처리(MapReduce)합니다.
  • 왜 근본적인가?: 이 '분산' 패러다임이 없었다면 오늘날의 빅데이터, AI, 클라우드 기술은 존재할 수 없었습니다. 페타바이트급 데이터를 처리하고 수천억 개의 파라미터를 가진 AI 모델을 학습시키는 모든 작업의 기반이 됩니다.

데이터 웨어하우스와 데이터 마이닝 (통합과 추출)

'통합'과 '추출'을 통해 데이터에서 숨겨진 가치를 찾아냅니다.
  • 개념:
    • 데이터 웨어하우스: 여러 곳에 흩어져 있는 데이터(ERP, CRM, 로그 등)를 한 곳으로 모아 '통합' 하고, 분석하기 좋은 형태로 '정제' 하는 저장소입니다.
    • 데이터 마이닝: 이렇게 잘 정제된 데이터 속에서 의미 있는 패턴과 규칙, 즉 '지식' 을 '추출' 하는 기술입니다.
  • 왜 근본적인가?: 단순히 데이터를 쌓아두는 것을 넘어, 기업이 데이터 기반의 의사결정을 내릴 수 있게 하는 핵심 프로세스입니다. 모든 BI(Business Intelligence), CRM, 추천 시스템의 근간을 이룹니다.

빅데이터 기반 기술

Hadoop (하둡)

대용량 데이터를 분산 처리하기 위한 오픈 소스 프레임워크이자 빅데이터 생태계의 시작점입니다.
  • 핵심 구성:
    • HDFS (Hadoop Distributed File System): 데이터를 여러 서버에 분산하여 저장하는 파일 시스템.
    • MapReduce: 분산된 데이터를 병렬로 처리하는 프로그래밍 모델.
  • 특징: 저렴한 범용 하드웨어를 묶어 대규모 클러스터를 구성할 수 있어 비용 효율적입니다. 내고장성(Fault Tolerance)이 뛰어나 일부 서버에 장애가 발생해도 데이터 유실 없이 안정적으로 동작합니다.

HDFS (Hadoop Distributed File System)

하둡을 위해 설계된 대용량 파일의 분산 저장을 위한 파일 시스템입니다.
  • 특징: 'Write-Once-Read-Many' 모델에 최적화되어 있어, 한 번 저장된 데이터는 수정하기보다 주로 읽는 용도로 사용됩니다. 데이터를 여러 블록으로 나누고, 각 블록을 복제하여 여러 서버에 저장함으로써 데이터의 안정성과 가용성을 높입니다.

데이터 수집 및 전송 기술

Chukwa (척와)

대규모 분산 시스템에서 발생하는 로그 데이터를 안정적으로 수집하기 위한 아파치 프로젝트입니다.
  • 구조: 데이터를 수집하는 에이전트(Agent), 수집된 데이터를 받아 저장소로 전달하는 컬렉터(Collector) 로 구성됩니다.
  • 특징: HDFS에 데이터를 저장하는 것을 기본으로 하며, 실시간 데이터 분석 및 모니터링 시스템 구축에 사용됩니다.

Sqoop (스쿱)

관계형 데이터베이스(RDBMS)와 하둡(HDFS, Hive 등) 간에 대량의 데이터를 효율적으로 전송하는 도구입니다.
  • 주요 기능:
    • Import: RDBMS에서 하둡으로 데이터를 가져옵니다.
    • Export: 하둡에서 RDBMS로 데이터를 내보냅니다.
  • 특징: MapReduce 작업을 생성하여 데이터를 병렬로 처리하므로 빠르고 안정적인 데이터 전송이 가능합니다.

스크래피 (Scrapy)

웹 사이트에서 구조화된 데이터를 추출(크롤링)하기 위한 파이썬 기반의 오픈 소스 프레임워크입니다.
  • 특징: 비동기 처리 방식을 사용하여 매우 빠른 속도로 웹 페이지를 수집할 수 있습니다. 데이터 추출 규칙(Spider)을 정의하여 원하는 정보만 정확하게 가져올 수 있으며, 수집한 데이터는 JSON, CSV 등 다양한 형식으로 저장이 가능합니다.

데이터 분석 및 활용 기술

데이터 마이닝 (Data Mining)

대규모 데이터 속에서 의미 있는 패턴, 규칙, 관계를 찾아내어 가치 있는 정보로 만드는 과정입니다.
  • 주요 기법:
    • 분류(Classification): 데이터를 미리 정의된 그룹으로 나눕니다. (예: 스팸 메일 분류)
    • 군집화(Clustering): 유사한 특성을 가진 데이터끼리 그룹을 만듭니다. (예: 고객 세분화)
    • 연관 분석(Association): 데이터 항목 간의 관계를 찾습니다. (예: '기저귀'와 '맥주'의 연관성)

데이터 웨어하우스 (Data Warehouse)

기업의 의사결정을 지원하기 위해, 여러 시스템의 데이터를 주제 중심으로 통합하여 저장하는 데이터베이스입니다.
  • 4대 특징:
    • 주제 중심(Subject-Oriented): 고객, 제품 등 분석 주제별로 데이터를 구성합니다.
    • 통합(Integrated): 데이터 형식을 일관되게 변환하여 저장합니다.
    • 시계열(Time-Variant): 시간의 흐름에 따른 변화를 분석할 수 있도록 데이터를 저장합니다.
    • 비휘발성(Non-Volatile): 데이터가 한 번 저장되면 삭제하거나 수정하지 않습니다.

데이터 마트 (Data Mart)

데이터 웨어하우스의 축소 버전으로, 특정 부서나 사용자 그룹의 요구에 맞춰진 소규모 데이터 저장소입니다.
  • 특징: 특정 주제에 집중하므로 데이터 웨어하우스보다 빠르고 저렴하게 구축할 수 있습니다. 전사적인 분석보다는 특정 현업 부서의 분석 요구를 충족시키는 데 목적이 있습니다.

데이터 관리 기술

메타데이터 (Metadata)

'데이터에 대한 데이터'로, 데이터의 구조, 속성, 이력, 관계 등 모든 정보를 설명합니다.
  • 중요성: 데이터의 출처, 의미, 형식을 명확히 하여 데이터의 가치를 높이고, 사용자가 데이터를 쉽게 찾고 이해하며 활용할 수 있도록 돕습니다. 데이터 거버넌스와 데이터 품질 관리의 핵심 요소입니다.

디지털 아카이빙 (Digital Archiving)

장기 보존 가치가 있는 디지털 정보를 체계적으로 수집, 관리, 보존하여 미래에 활용할 수 있도록 하는 활동입니다.
  • 특징: 정보의 진본성, 무결성, 신뢰성을 보장하는 것이 핵심입니다. 법적 증거, 역사적 기록, 연구 데이터 등을 안전하게 보존하기 위해 사용됩니다.

마이데이터 (MyData)

정보 주체인 개인이 자신의 데이터에 대한 통제권을 가지고 직접 관리하고 활용하는 데이터 패러다임입니다.
  • 핵심 권리: 개인신용정보 이동권을 통해 개인이 금융기관 등에 흩어져 있는 자신의 정보를 한 곳에 모아 관리하고, 이를 기반으로 맞춤형 자산관리, 신용관리 등의 서비스를 받을 수 있습니다.

LOD (Linked Open Data)

LOD는 'Linked Data + Open Data'의 합성어로, 누구나 자유롭게 사용할 수 있도록 공개된 데이터를 표준화된 형식으로 서로 연결한 데이터망입니다.
  • 개념:
    • Open Data: 정부·공공기관·기업이 누구나 자유롭게 사용·재배포할 수 있도록 공개한 데이터
    • Linked Data: 데이터 항목마다 고유한 URI를 부여하고 RDF로 데이터 간 관계를 표현하여, 흩어진 데이터를 하나의 거대한 그래프로 연결하는 시맨틱 웹 기술
    • LOD: 둘을 결합한 개념으로, 공개된 데이터를 서로 연결하여 전 세계 데이터를 하나로 묶는 방식
  • 5-Star LOD: 팀 버너스리(Tim Berners-Lee)가 제안한 데이터 공개 등급. ★1(공개) → ★2(구조화) → ★3(개방 형식) → ★4(URI 식별) → ★5(다른 데이터와 연결)로 별점이 높을수록 활용도가 큽니다.
  • 활용: DBpedia(위키피디아 LOD화), 공공 데이터 포털, 시맨틱 웹 검색 등

다크 데이터 (Dark Data)

조직이 수집·저장은 했지만 분석·활용되지 않은 채 방치된 비구조화 데이터입니다.
  • 정의: 가트너(Gartner)가 정의한 용어로, 빅데이터와 비슷하면서도 구조화되어 있지 않고 더는 사용되지 않는 '죽은' 데이터를 의미합니다. 로그, 이메일 첨부파일, CCTV 영상, 백업본 등이 대표적입니다.
  • 문제점: 가치는 추출되지 않은 채 저장 비용·관리 부담만 발생시키며, 개인정보가 포함된 경우 유출·규제 리스크의 원인이 됩니다.
  • 대응: 데이터 거버넌스 관점에서 분류·태깅·생명주기 정책을 수립해 활용 가능한 데이터로 전환하거나 안전하게 폐기합니다.

정보처리기사 실기 대비 문제

메가커피와 함께, 홈페이지 개선에 참여하세요! ☕
혹시 이용에 불편한 점이나 개선이 필요한 부분을 발견하셨나요? 댓글로 알려주시면 더 나은 감자가 될 수 있어요! 🥔 제보해주신 모든 분께 메가커피 기프티콘을 드립니다! (본인 이메일로 댓글 달아주셔야해요~)

추천 개념

Beta

관련 글

(27개)
제목태그업데이트시험
클라우드 & 가상화 신기술(도커, 쿠버네티스, 서버리스)
클라우드 신기술보안/신기술신기술 및 장비클라우드 신기술
2025-10-10-
네트워크 신기술(애드혹, SDN, MQTT, MEC, NFV)
네트워크 신기술보안/신기술신기술 및 장비네트워크 신기술
2025-10-10-
신기술 및 장비 정보처리기사 실기 모의 시험
신기술 및 장비보안/신기술신기술 및 장비
2025-10-10응시
정처기 감자정처기 감자

정보처리기사 합격
도와줄라고 하는 감자

실기 이론

  • 이론 공부법
  • DB
  • 네트워크/OS
  • SW 설계
  • SW 개발
  • 보안/신기술

시험 응시

  • 시험장 찾기
  • 원서 접수
  • 응시자격 서류

요약 PDF

  • 26년 1회 이론 압축
  • 초압축 25년 3회
  • 압축 25년 3회

기출문제

  • 전체 기출문제
  • 25년 3회
  • 25년 2회
  • 문제 포럼

감자 이용권

  • 이용권 구매

실기 이론

  • 이론 공부법
  • DB
  • 네트워크/OS
  • SW 설계
  • SW 개발
  • 보안/신기술

시험 응시

  • 시험장 찾기
  • 원서 접수
  • 응시자격 서류

요약 PDF

  • 26년 1회 이론 압축
  • 초압축 25년 3회
  • 압축 25년 3회

기출문제

  • 전체 기출문제
  • 25년 3회
  • 25년 2회
  • 문제 포럼

감자 이용권

  • 이용권 구매
© 2025 재현기획개발. All rights reserved.
  • 정처기 감자의 시작
  • 업데이트 로그
  • 개인정보 처리방침
  • 이용약관
상호명 : 재현기획개발 / 주소: 서울특별시 영등포구 영등포로 150, 지하1층 108호 L145 가라지(당산동1가, 생각공장 당산) / 대표: 김재현 / 전화: 010-8158-7127 / 통신판매업신고: 제2025-서울영등포-1569호 / 이메일: contact@edugamja.com / 사업자등록번호: 573-51-00999