멋쟁이 사자처럼 13회차 프로젝트 정리 및 발표
- 코스닥 정보 수집 코드
- 영화 댓글 수집 코드(코다)
- jupyter 기반 영화 댓글 수집 코드(스파이더맨)
- 스파이더맨 리뷰 csv
- jupyter 기반 스파이더맨 인포그래픽
- .csv 파일을 엑셀로 열면 인코딩 문제가 생긴다: 엑셀은 ANSI/EUC-KR를 사용하기 때문
- .csv 파일을 생성할 때, encoding='utf-8-sig' 파라미터를 이용하여 생성하면 문제 없이 읽을 수 있다.
- sig는 signiture를 의미한다. 우리는 읽을 수 없지만, 컴퓨터는 BOM을 이용하여 인코딩 방식을 인식한다.
- UTF-8은 BOM이 필요 없지만, 오류가 날 경우 일부러 표시해 줄 수 있다.
- utf-8-sig는 파일의 맨 처음에 16진수 EF BB BF를 표기하는 것과 동일한 효과이다.(20210910 추가)
- jupyter 기반 셀레니움 활용 기초
- jupyter 기반 셀레니움 활용 - 아마존 상품 정보 찾기
- 아마존 상품 리뷰 크롤링(실패)
- 아마존 정책
- 아마존은 고객 리뷰와 관련한 데이터를 대규모로 수집하는 것을 허용하지 않고 있다. (20210910 추가)
- 여러 페이지를 탐색할 때, 크롬을 켜지 않고 하는 것이 편리하다는 것을 알게 되었다.
- ChromeOptions에서 add_argument('headless')로 설정 가능 (20210910 추가)
- 크롤링과 관련된 법적 문제
- 모든 크롤링이 불법은 아니지만 불법의 소지가 있을 수 있다.
- 저작권 침해: 사이트에서 게재하는 웹프로그래밍 요소와 데이터는 소유주가 있으므로 저작권 침해 소지가 있다.
- 데이터베이스권 침해: 저작권과 다르게 데이터베이스권에는 창의성이 포함되지 않는다. 노력하여 모은 데이터베이스에 대해 재산권을 가진다는 개념이다. 이를 침해할 소지가 있다.
- 부정경쟁행위: 타인의 노력이 담긴 성과를 부정하게 무단으로 사용하는 경우 부정경쟁행위에 해당할 수 있다.
- 잡코리아와 사람인의 소송
- 잡코리아는 사람인이 웹 크롤링을 통해 채용공고를 무단 복제한 건에 대해 고소
- 이 건에서 대법원은 사람인이 부정경쟁행위를 저지르고 잡코리아의 데이터베이스권을 침해했다고 판단.
- 무단 복제한 채용공고 1건당 50만원의 배상(총 2억 원), 데이터베이스권 침해에 따른 2억 5천만원 배상 (20210912 추가)
- 잡코리아와 사람인의 소송
- 유튜브 댓글 크롤링
- 유튜브 댓글 수집 csv
- 유튜브처럼 스크롤을 내리면 컨텐츠를 로딩하는 경우 셀레니움을 이용해서 스크롤을 내린 다음 수집해야 한다.
- 구글에서는 Youtube Data Api를 정식으로 제공하고 있다. (20200914 추가)