Skip to content

refactor: 게시글 타입 별 크롤러를 통합 크롤러로 만든다. #79

@Laeng

Description

@Laeng

이슈 내용

현재 크롤러는 공홈 게시글 타입마다 크롤러를 만들 수 있도록 준비되어 있습니다.
각 게시글 타입마다 맞춤 크롤러를 만드는 것도 효과적인 방식이라는 것에 동의하나 우려스러운 점이 있습니다.

  • RSI 공홈은 점진적으로 개선 작업을 수행하는 것으로 보임, 원활한 크롤링을 위해 맞춤형 크롤러의 업데이트를 위한 꾸준한 모니터링 요구 발생
  • 게시글 타입별 맞춤형 크롤러 제작과 게시글 타입 분류 기능 제작 필요로 인한 공수 증가

저는 이러한 사항을 해소하고, 런칭 이후 운영 소요를 줄이고 싶어 다음과 같이 모든 게시글을 아우를 수 있는 크롤러를 만들고자 합니다.

  • 기존과 동일하게 Jsoup 활용
  • head 태그중 title 또는 open graph protocol 의 title 에서 추출
  • body 내 .page-wrapper 클래스 내부 요소 추출
  • serializable 가능한 객체 상태로 반환

이를 통해 content translation 시 텍스트를 쉽게 추출하고 주입할 수 있도록 하며, 반복적인 Jsoup 의 파싱 작업을 줄이고, 맞춤형 크롤러의 개발 공수 및 크롤러 타입 선택을 위한 기능 개발을 줄일 수 있을 것으로 예상합니다.

Metadata

Metadata

Assignees

Labels

Type

No type

Projects

No projects

Milestone

No milestone

Relationships

None yet

Development

No branches or pull requests

Issue actions