Skip to content

50thk/KoBertsumabs

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

59 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

KoBertsumabs

This code is for EMNLP 2019 paper Text Summarization with Pretrained Encoders

  • Using SKT KoBert

  • Ai hub 문서요약 텍스트 공개모델 활용

  • Kobertsum의 생성요약을 구현하여 소스코드 및 프로젝트를 오픈한 사례가 없어 참고하기에 어려움이 있었습니다.

  • 처음으로 오픈소스를 수정하며 프로젝트를 진행하였고, 배운 점이 많았습니다.

    • Dacon 대회에서 우수한 성적을 거둔 이야기연구소 주식회사의 raw data 전처리를 진행하는 코드를 가져와 사용하였고, 이를 검증해보았는데 문제점을 발견할 수 있었습니다. 이것을 통해 무작정 가져다 쓰는 것이 아닌 코드를 훑어보고, 이를 검증하는 것에 대한 중요성을 깨닫는 계기가 되었습니다.
    • padding의 길이값을 정해놓는 것이 아닌 이야기연구소 주식회사의 방식처럼 문장에 맞춰 padding의 길이를 맞추는 방식을 사용했으면 학습시간의 단축에 도움이 되었을 것이라고 예상합니다.
    • 컴퓨팅 자원이 부족해 10%의 데이터만을 이용해 프로젝트를 진행했습니다. 전체의 데이터 셋을 사용할 수 있었으면 더 좋은 결과가 나왔을 것 같아 아쉬움이 남습니다.

bertsum folder

  • train 및 test를 위한 lib, 해당 lib에 맞춰 data를 전처리하여 실행
  • 위 과정에서 오류가 나는 부분만 수정

bertsum_project folder

  • project 구현을 위해 기존의 lib을 대폭 수정해야했기 때문에 프로젝트에 맞춰 수정했습니다.

시연 예)

process result

About

Using SKT KoBert

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors