영화 추천 알고리즘 시스템 데이터 수집
영화 추천 시스템을 구축하기 위한 데이터 수집 절차는 다음과 같습니다:
1. 목적 정의: 크롤링을 통해 얻고자 하는 목표를 명확히 설정합니다.
2. 데이터 선택: 수집할 데이터의 종류와 범위를 결정합니다.
3. 사이트 선정: 데이터를 수집할 웹사이트를 선정합니다.
4. 방법론 설계: 크롤링 방법, 도구, 주기 등을 설계합니다.
5. 법적 검토: 데이터 수집에 대한 법적 문제를 검토합니다.
데이터 크롤링 전략 수집.
1. 데이터 수집 할 대상 정하기 및 목표.
_목적 정의, 데이터 선택_
목적 정의 및 데이터 선택: 어떤 데이터를 어떻게 수집할지, 그리고 그 이유를 명확히 계획합니다
현재 보유한 영화 데이터 예시:
- Movies.csv
- Ratings.csv
가정: 영화 추천 알고리즘 시스템은 감독의 영향을 받는다.
가정: 영화 추천 알고리즘은 감독의 영향을 받는다고 판단하여, 각 영화에 대한 감독 정보를 수집하기로 결정했습니다. 약 80,000개의 감독 데이터가 필요하므로, 이를 수작업으로 수집하는 것은 비효율적입니다.
따라서 웹 크롤링을 통해 데이터를 수집하기로 했습니다.
목표: 각 영화에 대한 줄거리와 감독 정보를 크롤링하여 해당 파일에 저장하는 것입니다.
결국 이러한 계획을 기반으로 가정을 통해서 필요한 데이터를 정할 수 있었고 데이터 수집 방법을 크롤링으로 정할 수 있었습니다.
이를 통해 정한 목표는 다음과 같습니다.
목표: 각 영화에 대하여 줄거리, 감독을 크롤링 하여 해당 파일에 저장합니다.
1. 크롤링 할 사이트를 정하기.
_사이트 선정_
- 많은 영화 정보와 감독 정보와 관련한 데이터에 대한 정보를 모두 써칭 할 수 있고 신뢰있는 사이트를 찾아야 합니다.
- 해당 사이트에서는 변동성이 잦지 않아야 하며 크롤할 모든 정보를 가지고 있어야 합니다.
해당 사이트: IMDb: Ratings, Reviews, and Where to Watch the Best Movies & TV Shows
위 사이트는 영화, TV 프로그램, 배우, 제작진, 비디오 게임 등에 관한 정보를 제공하는 종합 온라인 데이터베이스 입니다.
위 사이트에서 영화를 검색 후 감독의 정보 줄거리를 제공하며 이를 크롤링 하여 가져올 수 있다고 판단했습니다.
'Web-Crawling' 카테고리의 다른 글
Personal Color Data gathering: Google Image || (2) | 2025.02.18 |
---|---|
Personal Color Data gathering: Google Image | (1) | 2025.02.18 |
Movie Recommendation Algorithm System Project Web-Crawling (4) | 2025.02.02 |