Crawling Scraping
Crawling Scraping
웹을 크롤링 한다는 표현은 많이 쓰이는데 크롤링과 더불어 스크래핑도 있다 두개의 차이점
웹 크롤링
웹 크롤링은 웹상의 정보들을 탐색하고 수집하는 동작이다 규칙에 따라 자동으로 웹 문서를 탐색하는 프로그램이 웹 크롤러이다
크롤러는 인터넷을 돌아다니며 여러 웹 사이트에 접속한다음 페이지의 내용과 링크의 복사본을 생성하고 요약본을 만든다
검색 포털이 웹 크롤러의 대표적인 예시이다 네이버나 구글에 검색을하면 해당 포털의 페이지 뿐만 아니라 외부 사이트의 url과 글 내용 일부가 보여진다 이 결과는 웹 크롤러가 수집한 데이터를 검색 알고리즘을 통해서 보여주는 것이다
웹 스크래핑
웹 스크래핑은 특정 페이지에서 필요한 데이터를 자동으로 추출하는것을 의미한다
- 해당 페이지의 콘텐츠를 다운 받기 위해 http get요청을 보낸다
- 스크래퍼는 html문서를 분석해서 원하는 데이터를 뽑아낸다
- 뽑아낸 데이터를 사용할 수 있도록 데이터베이스에 저장한다
차이점
| 크롤링 | 스크래핑 | |
|---|---|---|
| 역할 | 웹에서 페이지 및 링크 다운로드 | 웹을 포함한 다양한 소스에서 데이터 추출 |
| 중복 처리 | 동일한 콘텐츠가 여러 페이지에 업로드 된것을 인식 못함 중복 제거 필요 | 특정데이터를 추출하는것이라 중복 제거가 반드시 필요하지는 않다 |
[웹 스크래핑(웹 크롤링)의 기본원리{:target=”_blank”}
[비개발자가 쉽게 설명하는 웹 크롤링(Crawling)과 웹 스크래핑(Scraping)의 차이점{:target=”_blank”}
This post is licensed under CC BY 4.0 by the author.