728x90
데이터 크롤링의 세계
인터넷에서 데이터를 수집하는 방법
OpenAPI 등 공개 API
- 정제된 API 를 받을 수 있다.
- 제일 쉬운 방법
HTTP Get Method
- get으로 html 얻고 text 를 파싱
- 대부분 언어 가능
- 하지만 대부분 데이터는 어렵다.
셀레니움 웹 드라이버
웹브라우저 인스턴스를 생성해 실행 시킨 후 해당 인스턴스를 컨트롤
웹사이트 테스트 자동화 목적으로 개발
가상의 브라우저를 실행시키는 Headless Mode 등이 있음
?사람이 수작업 하는 방법
웹 크롤러 vs 웹 스크래퍼
웹크롤러
조직적 자동화 된 방법으로 웹을 탐색/수집하는 프로그램
웹스크래퍼
웹 사이트에서 정보를 추출하는 프로그램 -> 상품별 가격을 위해 페이즈에서 가격 추출
크롤러 보다는 대부분 단순 스크래퍼 개발 수요가 많음
많은 기업들이 의미 혼용
웹 크롤링은 불법인가?
- robots.txt 파일을 열어보고 해당 사이트의 정책을 준수하지 않는다면 불법
- 크롤링 데이터를 상업적으로 사용하면 불법
- 예시> 다나와저작권 이슈가 있다. 하지만, 링크를 직접적으로 연결하여 해결원작자에게 불이익을 주면 불법
- 비상업적인 용도라 하더라도 원작자에게 불이익을 주면 불법
- 크롤러를 활용해 고의적으로 Abusing네이버는 이런 점들을 트랙킹을 해서 방지를 하려고 한다.
결론
잘 쓰면 웹 사이트 컨텐츠를 풍부하게 할 수 있지만 너무 매몰되면 안된다. 그래도 잘 사용하면 좋지 않을까?
셀레니움
자동화를 위한 툴
- 데이터를 수집할 수 있는 영역으로 활용
- 테스트 배드에서 웹드라이버를 구동해서 Firefox, edge, chrome 등으로 실행시키는 구조
- HTTP Header 를 통해서 접속을 막을 수 있다.
- GUITAR, SikuliX
- RPA업무 자동화대량 이메일 발송 등,UI PASS 같은 도구(엔터프라이즈 급)가 따로 있다.
728x90