카테고리 없음

데이터 크롤링의 세계

황성안 2021. 7. 30. 08:47
728x90

데이터 크롤링의 세계

인터넷에서 데이터를 수집하는 방법

OpenAPI 등 공개 API

  • 정제된 API 를 받을 수 있다.
  • 제일 쉬운 방법

HTTP Get Method

  • get으로 html 얻고 text 를 파싱
  • 대부분 언어 가능
  • 하지만 대부분 데이터는 어렵다.

셀레니움 웹 드라이버

웹브라우저 인스턴스를 생성해 실행 시킨 후 해당 인스턴스를 컨트롤

웹사이트 테스트 자동화 목적으로 개발

가상의 브라우저를 실행시키는 Headless Mode 등이 있음

?사람이 수작업 하는 방법


웹 크롤러 vs 웹 스크래퍼

웹크롤러

조직적 자동화 된 방법으로 웹을 탐색/수집하는 프로그램

웹스크래퍼

웹 사이트에서 정보를 추출하는 프로그램 -> 상품별 가격을 위해 페이즈에서 가격 추출

크롤러 보다는 대부분 단순 스크래퍼 개발 수요가 많음

많은 기업들이 의미 혼용

웹 크롤링은 불법인가?

  • robots.txt 파일을 열어보고 해당 사이트의 정책을 준수하지 않는다면 불법
  • 크롤링 데이터를 상업적으로 사용하면 불법
  • 예시> 다나와저작권 이슈가 있다. 하지만, 링크를 직접적으로 연결하여 해결원작자에게 불이익을 주면 불법
  • 비상업적인 용도라 하더라도 원작자에게 불이익을 주면 불법
  • 크롤러를 활용해 고의적으로 Abusing네이버는 이런 점들을 트랙킹을 해서 방지를 하려고 한다.

결론

잘 쓰면 웹 사이트 컨텐츠를 풍부하게 할 수 있지만 너무 매몰되면 안된다. 그래도 잘 사용하면 좋지 않을까?

셀레니움

자동화를 위한 툴

  • 데이터를 수집할 수 있는 영역으로 활용
  • 테스트 배드에서 웹드라이버를 구동해서 Firefox, edge, chrome 등으로 실행시키는 구조
  • HTTP Header 를 통해서 접속을 막을 수 있다.
  • GUITAR, SikuliX
  • RPA업무 자동화대량 이메일 발송 등,UI PASS 같은 도구(엔터프라이즈 급)가 따로 있다.
728x90