데이터 전처리 및 관련 기초 용어
데이터 전처리란 데이터베이스에 보관 불가능한 원시 데이터를 데이터베이스에 보관하고 관리하며 검색 가능한 가공 데이터로 바꾸는 과정입니다. 원시 데이터는 raw data, 즉 형식이 정리되지 않은 데이터입니다. 이 데이터를 사용하기 위해서는 먼저 전처리 작업이 필요합니다.
원시 데이터는 최초 현실에서 얻어진 데이터로, 예를 들어 영상, 사진 등이 될 수 있습니다. 이러한 데이터를 보관하기 위해서는 보관 가능한 형태로 가공해야 합니다. 이 때, 가공된 데이터를 중간 데이터라고 합니다. 예를 들어 명함 데이터를 수집할 때 명함1.jpg와 같은 파일이 중간 데이터에 해당합니다. 이 jpg 파일을 행렬로 분해하여 엑셀 파일에 넣거나 다른 방법으로 저장할 수 있습니다. 가공된 데이터를 가공 데이터라고 합니다.
데이터 전처리 순서는 다음과 같습니다:
- 자료 선택 및 제거
적절한 자료를 올바르게 선택하고, 부적절한 자료를 제거합니다. - 전산화 작업
전산화 작업은 컴퓨터가 인식할 수 있게 데이터를 임베딩하는 과정입니다. 예를 들어, OCR을 사용하여 기호화하는 작업입니다. - 구조화 혹은 정형화
비구조화된 데이터는 데이터베이스에 보관이 불가하므로, 이를 보관 가능한 형태로 구조화해야 합니다.
구조화란 데이터를 체계적으로 표기하는 것입니다. 사람이 1차원적으로 이해할 수 있는 형식보다는 컴퓨터가 쉽게 찾을 수 있는 형식으로 데이터를 만들어야 합니다. 예를 들어, 구조화된 데이터는 다음과 같습니다:
- 구조 정보가 없는 데이터
농구선수A
연세대학교
189cm
91kg - 구조 정보가 있는 데이터
<선수 이름> 농구선수A </선수 이름>
<대학교> 연세대학교 </대학교>
<키> 189cm </키>
<몸무게> 91kg </몸무게>
이렇게 구조화된 데이터는 관리와 검색이 용이해져 더욱 편리하게 다룰 수 있습니다. 이때 정형화는 구조 정보를 통일하여 표로 만드는 작업입니다.
데이터의 유형
- 비정형 데이터: 구조화 X, 정형화 X
- 반정형 데이터: 구조화 O, 정형화 X
- 정형 데이터: 구조화 O, 정형화 O
논리적 층위 표현 방식과 물리적 층위 표현 방식
- 논리적 층위 표현 방식
- 반정형 데이터의 논리적 표현 형식: 키-값, JSON
- 정형 데이터의 논리적 표현 형식: 테이블
- 물리적 층위 표현 형식
- 반정형 데이터의 물리적 표현 형식: JSON, XML
- 정형 데이터의 물리적 표현 형식: CSV, TSV, XLSX
'SQL' 카테고리의 다른 글
데이터베이스 구축과 설계 (2) | 2025.03.28 |
---|---|
SQLite 첫 걸음 (0) | 2025.03.15 |