-
Notifications
You must be signed in to change notification settings - Fork 0
Open
Labels
뉴스뉴스 도메인뉴스 도메인💎 핵심기능핵심 기능에 관한 작업핵심 기능에 관한 작업🗣 회의회의에 관한 작업회의에 관한 작업🙋♀️ 제안제안에 관한 작업제안에 관한 작업🛠 수정수정에 관한 작업수정에 관한 작업
Description
이슈 내용
현재 크롤러는 공홈 게시글 타입마다 크롤러를 만들 수 있도록 준비되어 있습니다.
각 게시글 타입마다 맞춤 크롤러를 만드는 것도 효과적인 방식이라는 것에 동의하나 우려스러운 점이 있습니다.
- RSI 공홈은 점진적으로 개선 작업을 수행하는 것으로 보임, 원활한 크롤링을 위해 맞춤형 크롤러의 업데이트를 위한 꾸준한 모니터링 요구 발생
- 게시글 타입별 맞춤형 크롤러 제작과 게시글 타입 분류 기능 제작 필요로 인한 공수 증가
저는 이러한 사항을 해소하고, 런칭 이후 운영 소요를 줄이고 싶어 다음과 같이 모든 게시글을 아우를 수 있는 크롤러를 만들고자 합니다.
- 기존과 동일하게 Jsoup 활용
- head 태그중 title 또는 open graph protocol 의 title 에서 추출
- body 내 .page-wrapper 클래스 내부 요소 추출
- serializable 가능한 객체 상태로 반환
이를 통해 content translation 시 텍스트를 쉽게 추출하고 주입할 수 있도록 하며, 반복적인 Jsoup 의 파싱 작업을 줄이고, 맞춤형 크롤러의 개발 공수 및 크롤러 타입 선택을 위한 기능 개발을 줄일 수 있을 것으로 예상합니다.
seokjin8678
Metadata
Metadata
Assignees
Labels
뉴스뉴스 도메인뉴스 도메인💎 핵심기능핵심 기능에 관한 작업핵심 기능에 관한 작업🗣 회의회의에 관한 작업회의에 관한 작업🙋♀️ 제안제안에 관한 작업제안에 관한 작업🛠 수정수정에 관한 작업수정에 관한 작업