Skip to content

KimJinYeon/LikeLion_13th_DataCourse

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

LikeLion_13th_DataCourse

멋쟁이 사자처럼 13회차 프로젝트 정리 및 발표


웹의 이해 및 HTML 기본 실습

HTML 기본 실습

CSS 기본 실습

웹 크롤링

셀레니움

  • jupyter 기반 셀레니움 활용 기초
  • jupyter 기반 셀레니움 활용 - 아마존 상품 정보 찾기
  • 아마존 상품 리뷰 크롤링(실패)
    • 아마존 정책
    • 아마존은 고객 리뷰와 관련한 데이터를 대규모로 수집하는 것을 허용하지 않고 있다. (20210910 추가)
    • 여러 페이지를 탐색할 때, 크롬을 켜지 않고 하는 것이 편리하다는 것을 알게 되었다.
      • ChromeOptions에서 add_argument('headless')로 설정 가능 (20210910 추가)
  • 크롤링과 관련된 법적 문제
    • 모든 크롤링이 불법은 아니지만 불법의 소지가 있을 수 있다.
    • 저작권 침해: 사이트에서 게재하는 웹프로그래밍 요소와 데이터는 소유주가 있으므로 저작권 침해 소지가 있다.
    • 데이터베이스권 침해: 저작권과 다르게 데이터베이스권에는 창의성이 포함되지 않는다. 노력하여 모은 데이터베이스에 대해 재산권을 가진다는 개념이다. 이를 침해할 소지가 있다.
    • 부정경쟁행위: 타인의 노력이 담긴 성과를 부정하게 무단으로 사용하는 경우 부정경쟁행위에 해당할 수 있다.
      • 잡코리아와 사람인의 소송
        • 잡코리아는 사람인이 웹 크롤링을 통해 채용공고를 무단 복제한 건에 대해 고소
        • 이 건에서 대법원은 사람인이 부정경쟁행위를 저지르고 잡코리아의 데이터베이스권을 침해했다고 판단.
        • 무단 복제한 채용공고 1건당 50만원의 배상(총 2억 원), 데이터베이스권 침해에 따른 2억 5천만원 배상 (20210912 추가)
  • 유튜브 댓글 크롤링
    • 유튜브 댓글 수집 csv
    • 유튜브처럼 스크롤을 내리면 컨텐츠를 로딩하는 경우 셀레니움을 이용해서 스크롤을 내린 다음 수집해야 한다.
    • 구글에서는 Youtube Data Api를 정식으로 제공하고 있다. (20200914 추가)

파이썬 라이브러리

케글

folium

About

멋쟁이 사자처럼 13회차 프로젝트 정리 및 발표

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published