Crawling Scraping

Posted Feb 9, 2023 Updated Mar 6, 2023

By minnnning

2 min read

Crawling Scraping

웹을 크롤링 한다는 표현은 많이 쓰이는데 크롤링과 더불어 스크래핑도 있다 두개의 차이점

웹 크롤링은 웹상의 정보들을 탐색하고 수집하는 동작이다 규칙에 따라 자동으로 웹 문서를 탐색하는 프로그램이 웹 크롤러이다

크롤러는 인터넷을 돌아다니며 여러 웹 사이트에 접속한다음 페이지의 내용과 링크의 복사본을 생성하고 요약본을 만든다

검색 포털이 웹 크롤러의 대표적인 예시이다 네이버나 구글에 검색을하면 해당 포털의 페이지 뿐만 아니라 외부 사이트의 url과 글 내용 일부가 보여진다 이 결과는 웹 크롤러가 수집한 데이터를 검색 알고리즘을 통해서 보여주는 것이다

웹 스크래핑은 특정 페이지에서 필요한 데이터를 자동으로 추출하는것을 의미한다

	크롤링	스크래핑
역할	웹에서 페이지 및 링크 다운로드	웹을 포함한 다양한 소스에서 데이터 추출
중복 처리	동일한 콘텐츠가 여러 페이지에 업로드 된것을 인식 못함 중복 제거 필요	특정데이터를 추출하는것이라 중복 제거가 반드시 필요하지는 않다

[웹 스크래핑(웹 크롤링)의 기본원리{:target=”_blank”}

[비개발자가 쉽게 설명하는 웹 크롤링(Crawling)과 웹 스크래핑(Scraping)의 차이점{:target=”_blank”}

This post is licensed under CC BY 4.0 by the author.

Trending Tags