problem in reproduce ICDAR2015

Hello, Thanks for your amazing work :)

I tried to reproduce ICDAR 2015 result from paper.
But I can't get the result from paper with pre-trained weights.

I'm not changing any code. download dataset and pre-trained weights.
train with pre-trained weight. but I got loss almost 30.0~
it looks like not converge.

below is my log.


[07/25 14:21:07] detectron2 INFO: Rank of current process: 0. World size: 8
[07/25 14:21:11] detectron2 INFO: Environment info:
-------------------------------  ----------------------------------------------------------------
sys.platform                     linux
Python                           3.8.10 (default, Jun 22 2022, 20:18:18) [GCC 9.4.0]
numpy                            1.23.4
detectron2                       0.6 @/usr/local/lib/python3.8/dist-packages/detectron2
Compiler                         GCC 9.4
CUDA compiler                    CUDA 11.3
detectron2 arch flags            8.6
DETECTRON2_ENV_MODULE            <not set>
PyTorch                          1.12.1+cu113 @/usr/local/lib/python3.8/dist-packages/torch
PyTorch debug build              False
torch._C._GLIBCXX_USE_CXX11_ABI  False
GPU available                    Yes
GPU 0,1,2,3,4,5,6,7              Tesla T4 (arch=7.5)
Driver version                   450.80.02
CUDA_HOME                        /usr/local/cuda
Pillow                           9.2.0
torchvision                      0.13.1+cu113 @/usr/local/lib/python3.8/dist-packages/torchvision
torchvision arch flags           3.5, 5.0, 6.0, 7.0, 7.5, 8.0, 8.6
fvcore                           0.1.5.post20221221
iopath                           0.1.9
cv2                              4.1.2
-------------------------------  ----------------------------------------------------------------
PyTorch built with:
  - GCC 9.3
  - C++ Version: 201402
  - Intel(R) Math Kernel Library Version 2020.0.0 Product Build 20191122 for Intel(R) 64 architecture applications
  - Intel(R) MKL-DNN v2.6.0 (Git Hash 52b5f107dd9cf10910aaa19cb47f3abf9b349815)
  - OpenMP 201511 (a.k.a. OpenMP 4.5)
  - LAPACK is enabled (usually provided by MKL)
  - NNPACK is enabled
  - CPU capability usage: AVX2
  - CUDA Runtime 11.3
  - NVCC architecture flags: -gencode;arch=compute_37,code=sm_37;-gencode;arch=compute_50,code=sm_50;-gencode;arch=compute_60,code=sm_60;-gencode;arch=compute_70,code=sm_70;-gencode;arch=compute_75,code=sm_75;-gencode;arch=compute_80,code=sm_80;-gencode;arch=compute_86,code=sm_86
  - CuDNN 8.3.2  (built against CUDA 11.5)
  - Magma 2.5.2
  - Build settings: BLAS_INFO=mkl, BUILD_TYPE=Release, CUDA_VERSION=11.3, CUDNN_VERSION=8.3.2, CXX_COMPILER=/opt/rh/devtoolset-9/root/usr/bin/c++, CXX_FLAGS= -fabi-version=11 -Wno-deprecated -fvisibility-inlines-hidden -DUSE_PTHREADPOOL -fopenmp -DNDEBUG -DUSE_KINETO -DUSE_FBGEMM -DUSE_QNNPACK -DUSE_PYTORCH_QNNPACK -DUSE_XNNPACK -DSYMBOLICATE_MOBILE_DEBUG_HANDLE -DEDGE_PROFILER_USE_KINETO -O2 -fPIC -Wno-narrowing -Wall -Wextra -Werror=return-type -Wno-missing-field-initializers -Wno-type-limits -Wno-array-bounds -Wno-unknown-pragmas -Wno-unused-parameter -Wno-unused-function -Wno-unused-result -Wno-unused-local-typedefs -Wno-strict-overflow -Wno-strict-aliasing -Wno-error=deprecated-declarations -Wno-stringop-overflow -Wno-psabi -Wno-error=pedantic -Wno-error=redundant-decls -Wno-error=old-style-cast -fdiagnostics-color=always -faligned-new -Wno-unused-but-set-variable -Wno-maybe-uninitialized -fno-math-errno -fno-trapping-math -Werror=format -Werror=cast-function-type -Wno-stringop-overflow, LAPACK_INFO=mkl, PERF_WITH_AVX=1, PERF_WITH_AVX2=1, PERF_WITH_AVX512=1, TORCH_VERSION=1.12.1, USE_CUDA=ON, USE_CUDNN=ON, USE_EXCEPTION_PTR=1, USE_GFLAGS=OFF, USE_GLOG=OFF, USE_MKL=ON, USE_MKLDNN=OFF, USE_MPI=OFF, USE_NCCL=ON, USE_NNPACK=ON, USE_OPENMP=ON, USE_ROCM=OFF, 

[07/25 14:21:11] detectron2 INFO: Command line arguments: Namespace(config_file='configs/TESTR/ICDAR15/TESTR_R_50_Polygon.yaml', dist_url='tcp://127.0.0.1:59588', eval_only=False, machine_rank=0, num_gpus=8, num_machines=1, opts=[], resume=False)
[07/25 14:21:11] detectron2 INFO: Contents of args.config_file=configs/TESTR/ICDAR15/TESTR_R_50_Polygon.yaml:
_BASE_: "Base-ICDAR15-Polygon.yaml"
MODEL:
  WEIGHTS: "weights/TESTR/pretrain_testr_R_50_polygon.pth"
  RESNETS:
    DEPTH: 50
  TRANSFORMER:
    NUM_FEATURE_LEVELS: 4
    INFERENCE_TH_TEST: 0.3
    ENC_LAYERS: 6
    DEC_LAYERS: 6
    DIM_FEEDFORWARD: 1024
    HIDDEN_DIM: 256
    DROPOUT: 0.1
    NHEADS: 8
    NUM_QUERIES: 100
    ENC_N_POINTS: 4
    DEC_N_POINTS: 4
SOLVER:
  IMS_PER_BATCH: 8
  BASE_LR: 1e-5
  LR_BACKBONE: 1e-6
  WARMUP_ITERS: 0
  # STEPS: (200000,)
  MAX_ITER: 200000
  CHECKPOINT_PERIOD: 10000
TEST:
  EVAL_PERIOD: 10000
OUTPUT_DIR: "output/TESTR/icdar15/TESTR_R_50_Polygon"

[07/25 14:21:11] detectron2 INFO: Running with full config:
CUDNN_BENCHMARK: false
DATALOADER:
  ASPECT_RATIO_GROUPING: true
  FILTER_EMPTY_ANNOTATIONS: true
  NUM_WORKERS: 4
  REPEAT_THRESHOLD: 0.0
  SAMPLER_TRAIN: TrainingSampler
DATASETS:
  PRECOMPUTED_PROPOSAL_TOPK_TEST: 1000
  PRECOMPUTED_PROPOSAL_TOPK_TRAIN: 2000
  PROPOSAL_FILES_TEST: []
  PROPOSAL_FILES_TRAIN: []
  TEST:
  - icdar2015_test
  TRAIN:
  - icdar2015_train
GLOBAL:
  HACK: 1.0
INPUT:
  CROP:
    CROP_INSTANCE: false
    ENABLED: true
    SIZE:
    - 0.1
    - 0.1
    TYPE: relative_range
  FORMAT: RGB
  HFLIP_TRAIN: false
  MASK_FORMAT: polygon
  MAX_SIZE_TEST: 4000
  MAX_SIZE_TRAIN: 2333
  MIN_SIZE_TEST: 1440
  MIN_SIZE_TRAIN:
  - 800
  - 832
  - 864
  - 896
  - 1000
  - 1200
  - 1400
  MIN_SIZE_TRAIN_SAMPLING: choice
  RANDOM_FLIP: horizontal
MODEL:
  ANCHOR_GENERATOR:
    ANGLES:
    - - -90
      - 0
      - 90
    ASPECT_RATIOS:
    - - 0.5
      - 1.0
      - 2.0
    NAME: DefaultAnchorGenerator
    OFFSET: 0.0
    SIZES:
    - - 32
      - 64
      - 128
      - 256
      - 512
  BACKBONE:
    ANTI_ALIAS: false
    FREEZE_AT: 2
    NAME: build_resnet_backbone
  BASIS_MODULE:
    ANN_SET: coco
    COMMON_STRIDE: 8
    CONVS_DIM: 128
    IN_FEATURES:
    - p3
    - p4
    - p5
    LOSS_ON: false
    LOSS_WEIGHT: 0.3
    NAME: ProtoNet
    NORM: SyncBN
    NUM_BASES: 4
    NUM_CLASSES: 80
    NUM_CONVS: 3
  BATEXT:
    CANONICAL_SIZE: 96
    CONV_DIM: 256
    CUSTOM_DICT: ''
    IN_FEATURES:
    - p2
    - p3
    - p4
    NUM_CHARS: 25
    NUM_CONV: 2
    POOLER_RESOLUTION:
    - 8
    - 32
    POOLER_SCALES:
    - 0.25
    - 0.125
    - 0.0625
    RECOGNITION_LOSS: ctc
    RECOGNIZER: attn
    SAMPLING_RATIO: 1
    USE_AET: false
    USE_COORDCONV: false
    VOC_SIZE: 96
  BLENDMASK:
    ATTN_SIZE: 14
    BOTTOM_RESOLUTION: 56
    INSTANCE_LOSS_WEIGHT: 1.0
    POOLER_SAMPLING_RATIO: 1
    POOLER_SCALES:
    - 0.25
    POOLER_TYPE: ROIAlignV2
    TOP_INTERP: bilinear
    VISUALIZE: false
  BOXINST:
    BOTTOM_PIXELS_REMOVED: 10
    ENABLED: false
    PAIRWISE:
      COLOR_THRESH: 0.3
      DILATION: 2
      SIZE: 3
      WARMUP_ITERS: 10000
  BiFPN:
    IN_FEATURES:
    - res2
    - res3
    - res4
    - res5
    NORM: ''
    NUM_REPEATS: 6
    OUT_CHANNELS: 160
  CONDINST:
    BOTTOM_PIXELS_REMOVED: -1
    MASK_BRANCH:
      CHANNELS: 128
      IN_FEATURES:
      - p3
      - p4
      - p5
      NORM: BN
      NUM_CONVS: 4
      OUT_CHANNELS: 8
      SEMANTIC_LOSS_ON: false
    MASK_HEAD:
      CHANNELS: 8
      DISABLE_REL_COORDS: false
      NUM_LAYERS: 3
      USE_FP16: false
    MASK_OUT_STRIDE: 4
    MAX_PROPOSALS: -1
    TOPK_PROPOSALS_PER_IM: -1
  DEVICE: cuda
  DLA:
    CONV_BODY: DLA34
    NORM: FrozenBN
    OUT_FEATURES:
    - stage2
    - stage3
    - stage4
    - stage5
  FCOS:
    BOX_QUALITY: ctrness
    CENTER_SAMPLE: true
    FPN_STRIDES:
    - 8
    - 16
    - 32
    - 64
    - 128
    INFERENCE_TH_TEST: 0.05
    INFERENCE_TH_TRAIN: 0.05
    IN_FEATURES:
    - p3
    - p4
    - p5
    - p6
    - p7
    LOC_LOSS_TYPE: giou
    LOSS_ALPHA: 0.25
    LOSS_GAMMA: 2.0
    LOSS_NORMALIZER_CLS: fg
    LOSS_WEIGHT_CLS: 1.0
    NMS_TH: 0.6
    NORM: GN
    NUM_BOX_CONVS: 4
    NUM_CLASSES: 80
    NUM_CLS_CONVS: 4
    NUM_SHARE_CONVS: 0
    POST_NMS_TOPK_TEST: 100
    POST_NMS_TOPK_TRAIN: 100
    POS_RADIUS: 1.5
    PRE_NMS_TOPK_TEST: 1000
    PRE_NMS_TOPK_TRAIN: 1000
    PRIOR_PROB: 0.01
    SIZES_OF_INTEREST:
    - 64
    - 128
    - 256
    - 512
    THRESH_WITH_CTR: false
    TOP_LEVELS: 2
    USE_DEFORMABLE: false
    USE_RELU: true
    USE_SCALE: true
    YIELD_BOX_FEATURES: false
    YIELD_PROPOSAL: false
  FPN:
    FUSE_TYPE: sum
    IN_FEATURES: []
    NORM: ''
    OUT_CHANNELS: 256
  KEYPOINT_ON: false
  LOAD_PROPOSALS: false
  MASK_ON: false
  MEInst:
    AGNOSTIC: true
    CENTER_SAMPLE: true
    DIM_MASK: 60
    FLAG_PARAMETERS: false
    FPN_STRIDES:
    - 8
    - 16
    - 32
    - 64
    - 128
    GCN_KERNEL_SIZE: 9
    INFERENCE_TH_TEST: 0.05
    INFERENCE_TH_TRAIN: 0.05
    IN_FEATURES:
    - p3
    - p4
    - p5
    - p6
    - p7
    IOU_LABELS:
    - 0
    - 1
    IOU_THRESHOLDS:
    - 0.5
    LAST_DEFORMABLE: false
    LOC_LOSS_TYPE: giou
    LOSS_ALPHA: 0.25
    LOSS_GAMMA: 2.0
    LOSS_ON_MASK: false
    MASK_LOSS_TYPE: mse
    MASK_ON: true
    MASK_SIZE: 28
    NMS_TH: 0.6
    NORM: GN
    NUM_BOX_CONVS: 4
    NUM_CLASSES: 80
    NUM_CLS_CONVS: 4
    NUM_MASK_CONVS: 4
    NUM_SHARE_CONVS: 0
    PATH_COMPONENTS: datasets/coco/components/coco_2017_train_class_agnosticTrue_whitenTrue_sigmoidTrue_60.npz
    POST_NMS_TOPK_TEST: 100
    POST_NMS_TOPK_TRAIN: 100
    POS_RADIUS: 1.5
    PRE_NMS_TOPK_TEST: 1000
    PRE_NMS_TOPK_TRAIN: 1000
    PRIOR_PROB: 0.01
    SIGMOID: true
    SIZES_OF_INTEREST:
    - 64
    - 128
    - 256
    - 512
    THRESH_WITH_CTR: false
    TOP_LEVELS: 2
    TYPE_DEFORMABLE: DCNv1
    USE_DEFORMABLE: false
    USE_GCN_IN_MASK: false
    USE_RELU: true
    USE_SCALE: true
    WHITEN: true
  META_ARCHITECTURE: TransformerDetector
  MOBILENET: false
  PANOPTIC_FPN:
    COMBINE:
      ENABLED: true
      INSTANCES_CONFIDENCE_THRESH: 0.5
      OVERLAP_THRESH: 0.5
      STUFF_AREA_LIMIT: 4096
    INSTANCE_LOSS_WEIGHT: 1.0
  PIXEL_MEAN:
  - 123.675
  - 116.28
  - 103.53
  PIXEL_STD:
  - 58.395
  - 57.12
  - 57.375
  PROPOSAL_GENERATOR:
    MIN_SIZE: 0
    NAME: RPN
  RESNETS:
    DEFORM_INTERVAL: 1
    DEFORM_MODULATED: false
    DEFORM_NUM_GROUPS: 1
    DEFORM_ON_PER_STAGE:
    - false
    - false
    - false
    - false
    DEPTH: 50
    NORM: FrozenBN
    NUM_GROUPS: 1
    OUT_FEATURES:
    - res3
    - res4
    - res5
    RES2_OUT_CHANNELS: 256
    RES5_DILATION: 1
    STEM_OUT_CHANNELS: 64
    STRIDE_IN_1X1: false
    WIDTH_PER_GROUP: 64
  RETINANET:
    BBOX_REG_LOSS_TYPE: smooth_l1
    BBOX_REG_WEIGHTS: &id002
    - 1.0
    - 1.0
    - 1.0
    - 1.0
    FOCAL_LOSS_ALPHA: 0.25
    FOCAL_LOSS_GAMMA: 2.0
    IN_FEATURES:
    - p3
    - p4
    - p5
    - p6
    - p7
    IOU_LABELS:
    - 0
    - -1
    - 1
    IOU_THRESHOLDS:
    - 0.4
    - 0.5
    NMS_THRESH_TEST: 0.5
    NORM: ''
    NUM_CLASSES: 80
    NUM_CONVS: 4
    PRIOR_PROB: 0.01
    SCORE_THRESH_TEST: 0.05
    SMOOTH_L1_LOSS_BETA: 0.1
    TOPK_CANDIDATES_TEST: 1000
  ROI_BOX_CASCADE_HEAD:
    BBOX_REG_WEIGHTS:
    - &id001
      - 10.0
      - 10.0
      - 5.0
      - 5.0
    - - 20.0
      - 20.0
      - 10.0
      - 10.0
    - - 30.0
      - 30.0
      - 15.0
      - 15.0
    IOUS:
    - 0.5
    - 0.6
    - 0.7
  ROI_BOX_HEAD:
    BBOX_REG_LOSS_TYPE: smooth_l1
    BBOX_REG_LOSS_WEIGHT: 1.0
    BBOX_REG_WEIGHTS: *id001
    CLS_AGNOSTIC_BBOX_REG: false
    CONV_DIM: 256
    FC_DIM: 1024
    FED_LOSS_FREQ_WEIGHT_POWER: 0.5
    FED_LOSS_NUM_CLASSES: 50
    NAME: ''
    NORM: ''
    NUM_CONV: 0
    NUM_FC: 0
    POOLER_RESOLUTION: 14
    POOLER_SAMPLING_RATIO: 0
    POOLER_TYPE: ROIAlignV2
    SMOOTH_L1_BETA: 0.0
    TRAIN_ON_PRED_BOXES: false
    USE_FED_LOSS: false
    USE_SIGMOID_CE: false
  ROI_HEADS:
    BATCH_SIZE_PER_IMAGE: 512
    IN_FEATURES:
    - res4
    IOU_LABELS:
    - 0
    - 1
    IOU_THRESHOLDS:
    - 0.5
    NAME: Res5ROIHeads
    NMS_THRESH_TEST: 0.5
    NUM_CLASSES: 80
    POSITIVE_FRACTION: 0.25
    PROPOSAL_APPEND_GT: true
    SCORE_THRESH_TEST: 0.05
  ROI_KEYPOINT_HEAD:
    CONV_DIMS:
    - 512
    - 512
    - 512
    - 512
    - 512
    - 512
    - 512
    - 512
    LOSS_WEIGHT: 1.0
    MIN_KEYPOINTS_PER_IMAGE: 1
    NAME: KRCNNConvDeconvUpsampleHead
    NORMALIZE_LOSS_BY_VISIBLE_KEYPOINTS: true
    NUM_KEYPOINTS: 17
    POOLER_RESOLUTION: 14
    POOLER_SAMPLING_RATIO: 0
    POOLER_TYPE: ROIAlignV2
  ROI_MASK_HEAD:
    CLS_AGNOSTIC_MASK: false
    CONV_DIM: 256
    NAME: MaskRCNNConvUpsampleHead
    NORM: ''
    NUM_CONV: 0
    POOLER_RESOLUTION: 14
    POOLER_SAMPLING_RATIO: 0
    POOLER_TYPE: ROIAlignV2
  RPN:
    BATCH_SIZE_PER_IMAGE: 256
    BBOX_REG_LOSS_TYPE: smooth_l1
    BBOX_REG_LOSS_WEIGHT: 1.0
    BBOX_REG_WEIGHTS: *id002
    BOUNDARY_THRESH: -1
    CONV_DIMS:
    - -1
    HEAD_NAME: StandardRPNHead
    IN_FEATURES:
    - res4
    IOU_LABELS:
    - 0
    - -1
    - 1
    IOU_THRESHOLDS:
    - 0.3
    - 0.7
    LOSS_WEIGHT: 1.0
    NMS_THRESH: 0.7
    POSITIVE_FRACTION: 0.5
    POST_NMS_TOPK_TEST: 1000
    POST_NMS_TOPK_TRAIN: 2000
    PRE_NMS_TOPK_TEST: 6000
    PRE_NMS_TOPK_TRAIN: 12000
    SMOOTH_L1_BETA: 0.0
  SEM_SEG_HEAD:
    COMMON_STRIDE: 4
    CONVS_DIM: 128
    IGNORE_VALUE: 255
    IN_FEATURES:
    - p2
    - p3
    - p4
    - p5
    LOSS_WEIGHT: 1.0
    NAME: SemSegFPNHead
    NORM: GN
    NUM_CLASSES: 54
  SOLOV2:
    FPN_INSTANCE_STRIDES:
    - 8
    - 8
    - 16
    - 32
    - 32
    FPN_SCALE_RANGES:
    - - 1
      - 96
    - - 48
      - 192
    - - 96
      - 384
    - - 192
      - 768
    - - 384
      - 2048
    INSTANCE_CHANNELS: 512
    INSTANCE_IN_CHANNELS: 256
    INSTANCE_IN_FEATURES:
    - p2
    - p3
    - p4
    - p5
    - p6
    LOSS:
      DICE_WEIGHT: 3.0
      FOCAL_ALPHA: 0.25
      FOCAL_GAMMA: 2.0
      FOCAL_USE_SIGMOID: true
      FOCAL_WEIGHT: 1.0
    MASK_CHANNELS: 128
    MASK_IN_CHANNELS: 256
    MASK_IN_FEATURES:
    - p2
    - p3
    - p4
    - p5
    MASK_THR: 0.5
    MAX_PER_IMG: 100
    NMS_KERNEL: gaussian
    NMS_PRE: 500
    NMS_SIGMA: 2
    NMS_TYPE: matrix
    NORM: GN
    NUM_CLASSES: 80
    NUM_GRIDS:
    - 40
    - 36
    - 24
    - 16
    - 12
    NUM_INSTANCE_CONVS: 4
    NUM_KERNELS: 256
    NUM_MASKS: 256
    PRIOR_PROB: 0.01
    SCORE_THR: 0.1
    SIGMA: 0.2
    TYPE_DCN: DCN
    UPDATE_THR: 0.05
    USE_COORD_CONV: true
    USE_DCN_IN_INSTANCE: false
  TOP_MODULE:
    DIM: 16
    NAME: conv
  TRANSFORMER:
    AUX_LOSS: true
    DEC_LAYERS: 6
    DEC_N_POINTS: 4
    DIM_FEEDFORWARD: 1024
    DROPOUT: 0.1
    ENABLED: true
    ENC_LAYERS: 6
    ENC_N_POINTS: 4
    HIDDEN_DIM: 256
    INFERENCE_TH_TEST: 0.3
    LOSS:
      AUX_LOSS: true
      BOX_CLASS_WEIGHT: 2.0
      BOX_COORD_WEIGHT: 5.0
      BOX_GIOU_WEIGHT: 2.0
      FOCAL_ALPHA: 0.25
      FOCAL_GAMMA: 2.0
      POINT_CLASS_WEIGHT: 2.0
      POINT_COORD_WEIGHT: 5.0
      POINT_TEXT_WEIGHT: 4.0
    NHEADS: 8
    NUM_CHARS: 25
    NUM_CTRL_POINTS: 16
    NUM_FEATURE_LEVELS: 4
    NUM_QUERIES: 100
    POSITION_EMBEDDING_SCALE: 6.283185307179586
    USE_POLYGON: true
    VOC_SIZE: 96
  VOVNET:
    BACKBONE_OUT_CHANNELS: 256
    CONV_BODY: V-39-eSE
    NORM: FrozenBN
    OUT_CHANNELS: 256
    OUT_FEATURES:
    - stage2
    - stage3
    - stage4
    - stage5
  WEIGHTS: weights/TESTR/pretrain_testr_R_50_polygon.pth
OUTPUT_DIR: output/TESTR/icdar15/TESTR_R_50_Polygon
SEED: -1
SOLVER:
  AMP:
    ENABLED: false
  BASE_LR: 1.0e-05
  BASE_LR_END: 0.0
  BIAS_LR_FACTOR: 1.0
  CHECKPOINT_PERIOD: 10000
  CLIP_GRADIENTS:
    CLIP_TYPE: full_model
    CLIP_VALUE: 0.1
    ENABLED: true
    NORM_TYPE: 2.0
  GAMMA: 0.1
  IMS_PER_BATCH: 8
  LR_BACKBONE: 1.0e-06
  LR_BACKBONE_NAMES:
  - backbone.0
  LR_LINEAR_PROJ_MULT: 0.1
  LR_LINEAR_PROJ_NAMES:
  - reference_points
  - sampling_offsets
  LR_SCHEDULER_NAME: WarmupMultiStepLR
  MAX_ITER: 200000
  MOMENTUM: 0.9
  NESTEROV: false
  NUM_DECAYS: 3
  OPTIMIZER: ADAMW
  REFERENCE_WORLD_SIZE: 0
  RESCALE_INTERVAL: false
  STEPS:
  - 30000
  WARMUP_FACTOR: 0.001
  WARMUP_ITERS: 0
  WARMUP_METHOD: linear
  WEIGHT_DECAY: 0.0001
  WEIGHT_DECAY_BIAS: null
  WEIGHT_DECAY_NORM: 0.0
TEST:
  AUG:
    ENABLED: false
    FLIP: true
    MAX_SIZE: 4000
    MIN_SIZES:
    - 400
    - 500
    - 600
    - 700
    - 800
    - 900
    - 1000
    - 1100
    - 1200
  DETECTIONS_PER_IMAGE: 100
  EVAL_PERIOD: 10000
  EXPECTED_RESULTS: []
  KEYPOINT_OKS_SIGMAS: []
  LEXICON_TYPE: 3
  PRECISE_BN:
    ENABLED: false
    NUM_ITER: 200
  USE_LEXICON: true
  WEIGHTED_EDIT_DIST: true
VERSION: 2
VIS_PERIOD: 0

[07/25 14:21:11] detectron2 INFO: Full config saved to output/TESTR/icdar15/TESTR_R_50_Polygon/config.yaml
[07/25 14:21:11] d2.utils.env INFO: Using a generated random seed 11819301
[07/25 14:21:13] d2.engine.defaults INFO: Model:
TransformerDetector(
  (testr): TESTR(
    (backbone): Joiner(
      (0): MaskedBackbone(
        (backbone): ResNet(
          (stem): BasicStem(
            (conv1): Conv2d(
              3, 64, kernel_size=(7, 7), stride=(2, 2), padding=(3, 3), bias=False
              (norm): FrozenBatchNorm2d(num_features=64, eps=1e-05)
            )
          )
          (res2): Sequential(
            (0): BottleneckBlock(
              (shortcut): Conv2d(
                64, 256, kernel_size=(1, 1), stride=(1, 1), bias=False
                (norm): FrozenBatchNorm2d(num_features=256, eps=1e-05)
              )
              (conv1): Conv2d(
                64, 64, kernel_size=(1, 1), stride=(1, 1), bias=False
                (norm): FrozenBatchNorm2d(num_features=64, eps=1e-05)
              )
              (conv2): Conv2d(
                64, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False
                (norm): FrozenBatchNorm2d(num_features=64, eps=1e-05)
              )
              (conv3): Conv2d(
                64, 256, kernel_size=(1, 1), stride=(1, 1), bias=False
                (norm): FrozenBatchNorm2d(num_features=256, eps=1e-05)
              )
            )
            (1): BottleneckBlock(
              (conv1): Conv2d(
                256, 64, kernel_size=(1, 1), stride=(1, 1), bias=False
                (norm): FrozenBatchNorm2d(num_features=64, eps=1e-05)
              )
              (conv2): Conv2d(
                64, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False
                (norm): FrozenBatchNorm2d(num_features=64, eps=1e-05)
              )
              (conv3): Conv2d(
                64, 256, kernel_size=(1, 1), stride=(1, 1), bias=False
                (norm): FrozenBatchNorm2d(num_features=256, eps=1e-05)
              )
            )
            (2): BottleneckBlock(
              (conv1): Conv2d(
                256, 64, kernel_size=(1, 1), stride=(1, 1), bias=False
                (norm): FrozenBatchNorm2d(num_features=64, eps=1e-05)
              )
              (conv2): Conv2d(
                64, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False
                (norm): FrozenBatchNorm2d(num_features=64, eps=1e-05)
              )
              (conv3): Conv2d(
                64, 256, kernel_size=(1, 1), stride=(1, 1), bias=False
                (norm): FrozenBatchNorm2d(num_features=256, eps=1e-05)
              )
            )
          )
          (res3): Sequential(
            (0): BottleneckBlock(
              (shortcut): Conv2d(
                256, 512, kernel_size=(1, 1), stride=(2, 2), bias=False
                (norm): FrozenBatchNorm2d(num_features=512, eps=1e-05)
              )
              (conv1): Conv2d(
                256, 128, kernel_size=(1, 1), stride=(1, 1), bias=False
                (norm): FrozenBatchNorm2d(num_features=128, eps=1e-05)
              )
              (conv2): Conv2d(
                128, 128, kernel_size=(3, 3), stride=(2, 2), padding=(1, 1), bias=False
                (norm): FrozenBatchNorm2d(num_features=128, eps=1e-05)
              )
              (conv3): Conv2d(
                128, 512, kernel_size=(1, 1), stride=(1, 1), bias=False
                (norm): FrozenBatchNorm2d(num_features=512, eps=1e-05)
              )
            )
            (1): BottleneckBlock(
              (conv1): Conv2d(
                512, 128, kernel_size=(1, 1), stride=(1, 1), bias=False
                (norm): FrozenBatchNorm2d(num_features=128, eps=1e-05)
              )
              (conv2): Conv2d(
                128, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False
                (norm): FrozenBatchNorm2d(num_features=128, eps=1e-05)
              )
              (conv3): Conv2d(
                128, 512, kernel_size=(1, 1), stride=(1, 1), bias=False
                (norm): FrozenBatchNorm2d(num_features=512, eps=1e-05)
              )
            )
            (2): BottleneckBlock(
              (conv1): Conv2d(
                512, 128, kernel_size=(1, 1), stride=(1, 1), bias=False
                (norm): FrozenBatchNorm2d(num_features=128, eps=1e-05)
              )
              (conv2): Conv2d(
                128, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False
                (norm): FrozenBatchNorm2d(num_features=128, eps=1e-05)
              )
              (conv3): Conv2d(
                128, 512, kernel_size=(1, 1), stride=(1, 1), bias=False
                (norm): FrozenBatchNorm2d(num_features=512, eps=1e-05)
              )
            )
            (3): BottleneckBlock(
              (conv1): Conv2d(
                512, 128, kernel_size=(1, 1), stride=(1, 1), bias=False
                (norm): FrozenBatchNorm2d(num_features=128, eps=1e-05)
              )
              (conv2): Conv2d(
                128, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False
                (norm): FrozenBatchNorm2d(num_features=128, eps=1e-05)
              )
              (conv3): Conv2d(
                128, 512, kernel_size=(1, 1), stride=(1, 1), bias=False
                (norm): FrozenBatchNorm2d(num_features=512, eps=1e-05)
              )
            )
          )
          (res4): Sequential(
            (0): BottleneckBlock(
              (shortcut): Conv2d(
                512, 1024, kernel_size=(1, 1), stride=(2, 2), bias=False
                (norm): FrozenBatchNorm2d(num_features=1024, eps=1e-05)
              )
              (conv1): Conv2d(
                512, 256, kernel_size=(1, 1), stride=(1, 1), bias=False
                (norm): FrozenBatchNorm2d(num_features=256, eps=1e-05)
              )
              (conv2): Conv2d(
                256, 256, kernel_size=(3, 3), stride=(2, 2), padding=(1, 1), bias=False
                (norm): FrozenBatchNorm2d(num_features=256, eps=1e-05)
              )
              (conv3): Conv2d(
                256, 1024, kernel_size=(1, 1), stride=(1, 1), bias=False
                (norm): FrozenBatchNorm2d(num_features=1024, eps=1e-05)
              )
            )
            (1): BottleneckBlock(
              (conv1): Conv2d(
                1024, 256, kernel_size=(1, 1), stride=(1, 1), bias=False
                (norm): FrozenBatchNorm2d(num_features=256, eps=1e-05)
              )
              (conv2): Conv2d(
                256, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False
                (norm): FrozenBatchNorm2d(num_features=256, eps=1e-05)
              )
              (conv3): Conv2d(
                256, 1024, kernel_size=(1, 1), stride=(1, 1), bias=False
                (norm): FrozenBatchNorm2d(num_features=1024, eps=1e-05)
              )
            )
            (2): BottleneckBlock(
              (conv1): Conv2d(
                1024, 256, kernel_size=(1, 1), stride=(1, 1), bias=False
                (norm): FrozenBatchNorm2d(num_features=256, eps=1e-05)
              )
              (conv2): Conv2d(
                256, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False
                (norm): FrozenBatchNorm2d(num_features=256, eps=1e-05)
              )
              (conv3): Conv2d(
                256, 1024, kernel_size=(1, 1), stride=(1, 1), bias=False
                (norm): FrozenBatchNorm2d(num_features=1024, eps=1e-05)
              )
            )
            (3): BottleneckBlock(
              (conv1): Conv2d(
                1024, 256, kernel_size=(1, 1), stride=(1, 1), bias=False
                (norm): FrozenBatchNorm2d(num_features=256, eps=1e-05)
              )
              (conv2): Conv2d(
                256, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False
                (norm): FrozenBatchNorm2d(num_features=256, eps=1e-05)
              )
              (conv3): Conv2d(
                256, 1024, kernel_size=(1, 1), stride=(1, 1), bias=False
                (norm): FrozenBatchNorm2d(num_features=1024, eps=1e-05)
              )
            )
            (4): BottleneckBlock(
              (conv1): Conv2d(
                1024, 256, kernel_size=(1, 1), stride=(1, 1), bias=False
                (norm): FrozenBatchNorm2d(num_features=256, eps=1e-05)
              )
              (conv2): Conv2d(
                256, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False
                (norm): FrozenBatchNorm2d(num_features=256, eps=1e-05)
              )
              (conv3): Conv2d(
                256, 1024, kernel_size=(1, 1), stride=(1, 1), bias=False
                (norm): FrozenBatchNorm2d(num_features=1024, eps=1e-05)
              )
            )
            (5): BottleneckBlock(
              (conv1): Conv2d(
                1024, 256, kernel_size=(1, 1), stride=(1, 1), bias=False
                (norm): FrozenBatchNorm2d(num_features=256, eps=1e-05)
              )
              (conv2): Conv2d(
                256, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False
                (norm): FrozenBatchNorm2d(num_features=256, eps=1e-05)
              )
              (conv3): Conv2d(
                256, 1024, kernel_size=(1, 1), stride=(1, 1), bias=False
                (norm): FrozenBatchNorm2d(num_features=1024, eps=1e-05)
              )
            )
          )
          (res5): Sequential(
            (0): BottleneckBlock(
              (shortcut): Conv2d(
                1024, 2048, kernel_size=(1, 1), stride=(2, 2), bias=False
                (norm): FrozenBatchNorm2d(num_features=2048, eps=1e-05)
              )
              (conv1): Conv2d(
                1024, 512, kernel_size=(1, 1), stride=(1, 1), bias=False
                (norm): FrozenBatchNorm2d(num_features=512, eps=1e-05)
              )
              (conv2): Conv2d(
                512, 512, kernel_size=(3, 3), stride=(2, 2), padding=(1, 1), bias=False
                (norm): FrozenBatchNorm2d(num_features=512, eps=1e-05)
              )
              (conv3): Conv2d(
                512, 2048, kernel_size=(1, 1), stride=(1, 1), bias=False
                (norm): FrozenBatchNorm2d(num_features=2048, eps=1e-05)
              )
            )
            (1): BottleneckBlock(
              (conv1): Conv2d(
                2048, 512, kernel_size=(1, 1), stride=(1, 1), bias=False
                (norm): FrozenBatchNorm2d(num_features=512, eps=1e-05)
              )
              (conv2): Conv2d(
                512, 512, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False
                (norm): FrozenBatchNorm2d(num_features=512, eps=1e-05)
              )
              (conv3): Conv2d(
                512, 2048, kernel_size=(1, 1), stride=(1, 1), bias=False
                (norm): FrozenBatchNorm2d(num_features=2048, eps=1e-05)
              )
            )
            (2): BottleneckBlock(
              (conv1): Conv2d(
                2048, 512, kernel_size=(1, 1), stride=(1, 1), bias=False
                (norm): FrozenBatchNorm2d(num_features=512, eps=1e-05)
              )
              (conv2): Conv2d(
                512, 512, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False
                (norm): FrozenBatchNorm2d(num_features=512, eps=1e-05)
              )
              (conv3): Conv2d(
                512, 2048, kernel_size=(1, 1), stride=(1, 1), bias=False
                (norm): FrozenBatchNorm2d(num_features=2048, eps=1e-05)
              )
            )
          )
        )
      )
      (1): PositionalEncoding2D()
    )
    (text_pos_embed): PositionalEncoding1D()
    (transformer): DeformableTransformer(
      (encoder): DeformableTransformerEncoder(
        (layers): ModuleList(
          (0): DeformableTransformerEncoderLayer(
            (self_attn): MSDeformAttn(
              (sampling_offsets): Linear(in_features=256, out_features=256, bias=True)
              (attention_weights): Linear(in_features=256, out_features=128, bias=True)
              (value_proj): Linear(in_features=256, out_features=256, bias=True)
              (output_proj): Linear(in_features=256, out_features=256, bias=True)
            )
            (dropout1): Dropout(p=0.1, inplace=False)
            (norm1): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
            (linear1): Linear(in_features=256, out_features=1024, bias=True)
            (dropout2): Dropout(p=0.1, inplace=False)
            (linear2): Linear(in_features=1024, out_features=256, bias=True)
            (dropout3): Dropout(p=0.1, inplace=False)
            (norm2): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
          )
          (1): DeformableTransformerEncoderLayer(
            (self_attn): MSDeformAttn(
              (sampling_offsets): Linear(in_features=256, out_features=256, bias=True)
              (attention_weights): Linear(in_features=256, out_features=128, bias=True)
              (value_proj): Linear(in_features=256, out_features=256, bias=True)
              (output_proj): Linear(in_features=256, out_features=256, bias=True)
            )
            (dropout1): Dropout(p=0.1, inplace=False)
            (norm1): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
            (linear1): Linear(in_features=256, out_features=1024, bias=True)
            (dropout2): Dropout(p=0.1, inplace=False)
            (linear2): Linear(in_features=1024, out_features=256, bias=True)
            (dropout3): Dropout(p=0.1, inplace=False)
            (norm2): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
          )
          (2): DeformableTransformerEncoderLayer(
            (self_attn): MSDeformAttn(
              (sampling_offsets): Linear(in_features=256, out_features=256, bias=True)
              (attention_weights): Linear(in_features=256, out_features=128, bias=True)
              (value_proj): Linear(in_features=256, out_features=256, bias=True)
              (output_proj): Linear(in_features=256, out_features=256, bias=True)
            )
            (dropout1): Dropout(p=0.1, inplace=False)
            (norm1): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
            (linear1): Linear(in_features=256, out_features=1024, bias=True)
            (dropout2): Dropout(p=0.1, inplace=False)
            (linear2): Linear(in_features=1024, out_features=256, bias=True)
            (dropout3): Dropout(p=0.1, inplace=False)
            (norm2): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
          )
          (3): DeformableTransformerEncoderLayer(
            (self_attn): MSDeformAttn(
              (sampling_offsets): Linear(in_features=256, out_features=256, bias=True)
              (attention_weights): Linear(in_features=256, out_features=128, bias=True)
              (value_proj): Linear(in_features=256, out_features=256, bias=True)
              (output_proj): Linear(in_features=256, out_features=256, bias=True)
            )
            (dropout1): Dropout(p=0.1, inplace=False)
            (norm1): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
            (linear1): Linear(in_features=256, out_features=1024, bias=True)
            (dropout2): Dropout(p=0.1, inplace=False)
            (linear2): Linear(in_features=1024, out_features=256, bias=True)
            (dropout3): Dropout(p=0.1, inplace=False)
            (norm2): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
          )
          (4): DeformableTransformerEncoderLayer(
            (self_attn): MSDeformAttn(
              (sampling_offsets): Linear(in_features=256, out_features=256, bias=True)
              (attention_weights): Linear(in_features=256, out_features=128, bias=True)
              (value_proj): Linear(in_features=256, out_features=256, bias=True)
              (output_proj): Linear(in_features=256, out_features=256, bias=True)
            )
            (dropout1): Dropout(p=0.1, inplace=False)
            (norm1): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
            (linear1): Linear(in_features=256, out_features=1024, bias=True)
            (dropout2): Dropout(p=0.1, inplace=False)
            (linear2): Linear(in_features=1024, out_features=256, bias=True)
            (dropout3): Dropout(p=0.1, inplace=False)
            (norm2): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
          )
          (5): DeformableTransformerEncoderLayer(
            (self_attn): MSDeformAttn(
              (sampling_offsets): Linear(in_features=256, out_features=256, bias=True)
              (attention_weights): Linear(in_features=256, out_features=128, bias=True)
              (value_proj): Linear(in_features=256, out_features=256, bias=True)
              (output_proj): Linear(in_features=256, out_features=256, bias=True)
            )
            (dropout1): Dropout(p=0.1, inplace=False)
            (norm1): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
            (linear1): Linear(in_features=256, out_features=1024, bias=True)
            (dropout2): Dropout(p=0.1, inplace=False)
            (linear2): Linear(in_features=1024, out_features=256, bias=True)
            (dropout3): Dropout(p=0.1, inplace=False)
            (norm2): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
          )
        )
      )
      (decoder): DeformableCompositeTransformerDecoder(
        (layers): ModuleList(
          (0): DeformableCompositeTransformerDecoderLayer(
            (attn_cross): MSDeformAttn(
              (sampling_offsets): Linear(in_features=256, out_features=256, bias=True)
              (attention_weights): Linear(in_features=256, out_features=128, bias=True)
              (value_proj): Linear(in_features=256, out_features=256, bias=True)
              (output_proj): Linear(in_features=256, out_features=256, bias=True)
            )
            (dropout_cross): Dropout(p=0.1, inplace=False)
            (norm_cross): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
            (attn_intra): MultiheadAttention(
              (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
            )
            (dropout_intra): Dropout(p=0.1, inplace=False)
            (norm_intra): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
            (attn_inter): MultiheadAttention(
              (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
            )
            (dropout_inter): Dropout(p=0.1, inplace=False)
            (norm_inter): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
            (linear1): Linear(in_features=256, out_features=1024, bias=True)
            (dropout3): Dropout(p=0.1, inplace=False)
            (linear2): Linear(in_features=1024, out_features=256, bias=True)
            (dropout4): Dropout(p=0.1, inplace=False)
            (norm3): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
            (attn_intra_text): MultiheadAttention(
              (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
            )
            (dropout_intra_text): Dropout(p=0.1, inplace=False)
            (norm_intra_text): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
            (attn_inter_text): MultiheadAttention(
              (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
            )
            (dropout_inter_text): Dropout(p=0.1, inplace=False)
            (norm_inter_text): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
            (attn_cross_text): MSDeformAttn(
              (sampling_offsets): Linear(in_features=256, out_features=256, bias=True)
              (attention_weights): Linear(in_features=256, out_features=128, bias=True)
              (value_proj): Linear(in_features=256, out_features=256, bias=True)
              (output_proj): Linear(in_features=256, out_features=256, bias=True)
            )
            (dropout_cross_text): Dropout(p=0.1, inplace=False)
            (norm_cross_text): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
            (linear1_text): Linear(in_features=256, out_features=1024, bias=True)
            (dropout3_text): Dropout(p=0.1, inplace=False)
            (linear2_text): Linear(in_features=1024, out_features=256, bias=True)
            (dropout4_text): Dropout(p=0.1, inplace=False)
            (norm3_text): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
          )
          (1): DeformableCompositeTransformerDecoderLayer(
            (attn_cross): MSDeformAttn(
              (sampling_offsets): Linear(in_features=256, out_features=256, bias=True)
              (attention_weights): Linear(in_features=256, out_features=128, bias=True)
              (value_proj): Linear(in_features=256, out_features=256, bias=True)
              (output_proj): Linear(in_features=256, out_features=256, bias=True)
            )
            (dropout_cross): Dropout(p=0.1, inplace=False)
            (norm_cross): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
            (attn_intra): MultiheadAttention(
              (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
            )
            (dropout_intra): Dropout(p=0.1, inplace=False)
            (norm_intra): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
            (attn_inter): MultiheadAttention(
              (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
            )
            (dropout_inter): Dropout(p=0.1, inplace=False)
            (norm_inter): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
            (linear1): Linear(in_features=256, out_features=1024, bias=True)
            (dropout3): Dropout(p=0.1, inplace=False)
            (linear2): Linear(in_features=1024, out_features=256, bias=True)
            (dropout4): Dropout(p=0.1, inplace=False)
            (norm3): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
            (attn_intra_text): MultiheadAttention(
              (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
            )
            (dropout_intra_text): Dropout(p=0.1, inplace=False)
            (norm_intra_text): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
            (attn_inter_text): MultiheadAttention(
              (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
            )
            (dropout_inter_text): Dropout(p=0.1, inplace=False)
            (norm_inter_text): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
            (attn_cross_text): MSDeformAttn(
              (sampling_offsets): Linear(in_features=256, out_features=256, bias=True)
              (attention_weights): Linear(in_features=256, out_features=128, bias=True)
              (value_proj): Linear(in_features=256, out_features=256, bias=True)
              (output_proj): Linear(in_features=256, out_features=256, bias=True)
            )
            (dropout_cross_text): Dropout(p=0.1, inplace=False)
            (norm_cross_text): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
            (linear1_text): Linear(in_features=256, out_features=1024, bias=True)
            (dropout3_text): Dropout(p=0.1, inplace=False)
            (linear2_text): Linear(in_features=1024, out_features=256, bias=True)
            (dropout4_text): Dropout(p=0.1, inplace=False)
            (norm3_text): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
          )
          (2): DeformableCompositeTransformerDecoderLayer(
            (attn_cross): MSDeformAttn(
              (sampling_offsets): Linear(in_features=256, out_features=256, bias=True)
              (attention_weights): Linear(in_features=256, out_features=128, bias=True)
              (value_proj): Linear(in_features=256, out_features=256, bias=True)
              (output_proj): Linear(in_features=256, out_features=256, bias=True)
            )
            (dropout_cross): Dropout(p=0.1, inplace=False)
            (norm_cross): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
            (attn_intra): MultiheadAttention(
              (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
            )
            (dropout_intra): Dropout(p=0.1, inplace=False)
            (norm_intra): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
            (attn_inter): MultiheadAttention(
              (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
            )
            (dropout_inter): Dropout(p=0.1, inplace=False)
            (norm_inter): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
            (linear1): Linear(in_features=256, out_features=1024, bias=True)
            (dropout3): Dropout(p=0.1, inplace=False)
            (linear2): Linear(in_features=1024, out_features=256, bias=True)
            (dropout4): Dropout(p=0.1, inplace=False)
            (norm3): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
            (attn_intra_text): MultiheadAttention(
              (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
            )
            (dropout_intra_text): Dropout(p=0.1, inplace=False)
            (norm_intra_text): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
            (attn_inter_text): MultiheadAttention(
              (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
            )
            (dropout_inter_text): Dropout(p=0.1, inplace=False)
            (norm_inter_text): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
            (attn_cross_text): MSDeformAttn(
              (sampling_offsets): Linear(in_features=256, out_features=256, bias=True)
              (attention_weights): Linear(in_features=256, out_features=128, bias=True)
              (value_proj): Linear(in_features=256, out_features=256, bias=True)
              (output_proj): Linear(in_features=256, out_features=256, bias=True)
            )
            (dropout_cross_text): Dropout(p=0.1, inplace=False)
            (norm_cross_text): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
            (linear1_text): Linear(in_features=256, out_features=1024, bias=True)
            (dropout3_text): Dropout(p=0.1, inplace=False)
            (linear2_text): Linear(in_features=1024, out_features=256, bias=True)
            (dropout4_text): Dropout(p=0.1, inplace=False)
            (norm3_text): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
          )
          (3): DeformableCompositeTransformerDecoderLayer(
            (attn_cross): MSDeformAttn(
              (sampling_offsets): Linear(in_features=256, out_features=256, bias=True)
              (attention_weights): Linear(in_features=256, out_features=128, bias=True)
              (value_proj): Linear(in_features=256, out_features=256, bias=True)
              (output_proj): Linear(in_features=256, out_features=256, bias=True)
            )
            (dropout_cross): Dropout(p=0.1, inplace=False)
            (norm_cross): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
            (attn_intra): MultiheadAttention(
              (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
            )
            (dropout_intra): Dropout(p=0.1, inplace=False)
            (norm_intra): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
            (attn_inter): MultiheadAttention(
              (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
            )
            (dropout_inter): Dropout(p=0.1, inplace=False)
            (norm_inter): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
            (linear1): Linear(in_features=256, out_features=1024, bias=True)
            (dropout3): Dropout(p=0.1, inplace=False)
            (linear2): Linear(in_features=1024, out_features=256, bias=True)
            (dropout4): Dropout(p=0.1, inplace=False)
            (norm3): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
            (attn_intra_text): MultiheadAttention(
              (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
            )
            (dropout_intra_text): Dropout(p=0.1, inplace=False)
            (norm_intra_text): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
            (attn_inter_text): MultiheadAttention(
              (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
            )
            (dropout_inter_text): Dropout(p=0.1, inplace=False)
            (norm_inter_text): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
            (attn_cross_text): MSDeformAttn(
              (sampling_offsets): Linear(in_features=256, out_features=256, bias=True)
              (attention_weights): Linear(in_features=256, out_features=128, bias=True)
              (value_proj): Linear(in_features=256, out_features=256, bias=True)
              (output_proj): Linear(in_features=256, out_features=256, bias=True)
            )
            (dropout_cross_text): Dropout(p=0.1, inplace=False)
            (norm_cross_text): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
            (linear1_text): Linear(in_features=256, out_features=1024, bias=True)
            (dropout3_text): Dropout(p=0.1, inplace=False)
            (linear2_text): Linear(in_features=1024, out_features=256, bias=True)
            (dropout4_text): Dropout(p=0.1, inplace=False)
            (norm3_text): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
          )
          (4): DeformableCompositeTransformerDecoderLayer(
            (attn_cross): MSDeformAttn(
              (sampling_offsets): Linear(in_features=256, out_features=256, bias=True)
              (attention_weights): Linear(in_features=256, out_features=128, bias=True)
              (value_proj): Linear(in_features=256, out_features=256, bias=True)
              (output_proj): Linear(in_features=256, out_features=256, bias=True)
            )
            (dropout_cross): Dropout(p=0.1, inplace=False)
            (norm_cross): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
            (attn_intra): MultiheadAttention(
              (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
            )
            (dropout_intra): Dropout(p=0.1, inplace=False)
            (norm_intra): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
            (attn_inter): MultiheadAttention(
              (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
            )
            (dropout_inter): Dropout(p=0.1, inplace=False)
            (norm_inter): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
            (linear1): Linear(in_features=256, out_features=1024, bias=True)
            (dropout3): Dropout(p=0.1, inplace=False)
            (linear2): Linear(in_features=1024, out_features=256, bias=True)
            (dropout4): Dropout(p=0.1, inplace=False)
            (norm3): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
            (attn_intra_text): MultiheadAttention(
              (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
            )
            (dropout_intra_text): Dropout(p=0.1, inplace=False)
            (norm_intra_text): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
            (attn_inter_text): MultiheadAttention(
              (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
            )
            (dropout_inter_text): Dropout(p=0.1, inplace=False)
            (norm_inter_text): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
            (attn_cross_text): MSDeformAttn(
              (sampling_offsets): Linear(in_features=256, out_features=256, bias=True)
              (attention_weights): Linear(in_features=256, out_features=128, bias=True)
              (value_proj): Linear(in_features=256, out_features=256, bias=True)
              (output_proj): Linear(in_features=256, out_features=256, bias=True)
            )
            (dropout_cross_text): Dropout(p=0.1, inplace=False)
            (norm_cross_text): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
            (linear1_text): Linear(in_features=256, out_features=1024, bias=True)
            (dropout3_text): Dropout(p=0.1, inplace=False)
            (linear2_text): Linear(in_features=1024, out_features=256, bias=True)
            (dropout4_text): Dropout(p=0.1, inplace=False)
            (norm3_text): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
          )
          (5): DeformableCompositeTransformerDecoderLayer(
            (attn_cross): MSDeformAttn(
              (sampling_offsets): Linear(in_features=256, out_features=256, bias=True)
              (attention_weights): Linear(in_features=256, out_features=128, bias=True)
              (value_proj): Linear(in_features=256, out_features=256, bias=True)
              (output_proj): Linear(in_features=256, out_features=256, bias=True)
            )
            (dropout_cross): Dropout(p=0.1, inplace=False)
            (norm_cross): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
            (attn_intra): MultiheadAttention(
              (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
            )
            (dropout_intra): Dropout(p=0.1, inplace=False)
            (norm_intra): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
            (attn_inter): MultiheadAttention(
              (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
            )
            (dropout_inter): Dropout(p=0.1, inplace=False)
            (norm_inter): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
            (linear1): Linear(in_features=256, out_features=1024, bias=True)
            (dropout3): Dropout(p=0.1, inplace=False)
            (linear2): Linear(in_features=1024, out_features=256, bias=True)
            (dropout4): Dropout(p=0.1, inplace=False)
            (norm3): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
            (attn_intra_text): MultiheadAttention(
              (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
            )
            (dropout_intra_text): Dropout(p=0.1, inplace=False)
            (norm_intra_text): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
            (attn_inter_text): MultiheadAttention(
              (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
            )
            (dropout_inter_text): Dropout(p=0.1, inplace=False)
            (norm_inter_text): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
            (attn_cross_text): MSDeformAttn(
              (sampling_offsets): Linear(in_features=256, out_features=256, bias=True)
              (attention_weights): Linear(in_features=256, out_features=128, bias=True)
              (value_proj): Linear(in_features=256, out_features=256, bias=True)
              (output_proj): Linear(in_features=256, out_features=256, bias=True)
            )
            (dropout_cross_text): Dropout(p=0.1, inplace=False)
            (norm_cross_text): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
            (linear1_text): Linear(in_features=256, out_features=1024, bias=True)
            (dropout3_text): Dropout(p=0.1, inplace=False)
            (linear2_text): Linear(in_features=1024, out_features=256, bias=True)
            (dropout4_text): Dropout(p=0.1, inplace=False)
            (norm3_text): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
          )
        )
      )
      (enc_output): Linear(in_features=256, out_features=256, bias=True)
      (enc_output_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
      (pos_trans): Linear(in_features=256, out_features=256, bias=True)
      (pos_trans_norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
      (bbox_class_embed): Linear(in_features=256, out_features=1, bias=True)
      (bbox_embed): MLP(
        (layers): ModuleList(
          (0): Linear(in_features=256, out_features=256, bias=True)
          (1): Linear(in_features=256, out_features=256, bias=True)
          (2): Linear(in_features=256, out_features=4, bias=True)
        )
      )
    )
    (ctrl_point_class): ModuleList(
      (0): Linear(in_features=256, out_features=1, bias=True)
      (1): Linear(in_features=256, out_features=1, bias=True)
      (2): Linear(in_features=256, out_features=1, bias=True)
      (3): Linear(in_features=256, out_features=1, bias=True)
      (4): Linear(in_features=256, out_features=1, bias=True)
      (5): Linear(in_features=256, out_features=1, bias=True)
    )
    (ctrl_point_coord): ModuleList(
      (0): MLP(
        (layers): ModuleList(
          (0): Linear(in_features=256, out_features=256, bias=True)
          (1): Linear(in_features=256, out_features=256, bias=True)
          (2): Linear(in_features=256, out_features=2, bias=True)
        )
      )
      (1): MLP(
        (layers): ModuleList(
          (0): Linear(in_features=256, out_features=256, bias=True)
          (1): Linear(in_features=256, out_features=256, bias=True)
          (2): Linear(in_features=256, out_features=2, bias=True)
        )
      )
      (2): MLP(
        (layers): ModuleList(
          (0): Linear(in_features=256, out_features=256, bias=True)
          (1): Linear(in_features=256, out_features=256, bias=True)
          (2): Linear(in_features=256, out_features=2, bias=True)
        )
      )
      (3): MLP(
        (layers): ModuleList(
          (0): Linear(in_features=256, out_features=256, bias=True)
          (1): Linear(in_features=256, out_features=256, bias=True)
          (2): Linear(in_features=256, out_features=2, bias=True)
        )
      )
      (4): MLP(
        (layers): ModuleList(
          (0): Linear(in_features=256, out_features=256, bias=True)
          (1): Linear(in_features=256, out_features=256, bias=True)
          (2): Linear(in_features=256, out_features=2, bias=True)
        )
      )
      (5): MLP(
        (layers): ModuleList(
          (0): Linear(in_features=256, out_features=256, bias=True)
          (1): Linear(in_features=256, out_features=256, bias=True)
          (2): Linear(in_features=256, out_features=2, bias=True)
        )
      )
    )
    (bbox_coord): MLP(
      (layers): ModuleList(
        (0): Linear(in_features=256, out_features=256, bias=True)
        (1): Linear(in_features=256, out_features=256, bias=True)
        (2): Linear(in_features=256, out_features=4, bias=True)
      )
    )
    (bbox_class): Linear(in_features=256, out_features=1, bias=True)
    (text_class): Linear(in_features=256, out_features=97, bias=True)
    (ctrl_point_embed): Embedding(16, 256)
    (text_embed): Embedding(25, 256)
    (input_proj): ModuleList(
      (0): Sequential(
        (0): Conv2d(512, 256, kernel_size=(1, 1), stride=(1, 1))
        (1): GroupNorm(32, 256, eps=1e-05, affine=True)
      )
      (1): Sequential(
        (0): Conv2d(1024, 256, kernel_size=(1, 1), stride=(1, 1))
        (1): GroupNorm(32, 256, eps=1e-05, affine=True)
      )
      (2): Sequential(
        (0): Conv2d(2048, 256, kernel_size=(1, 1), stride=(1, 1))
        (1): GroupNorm(32, 256, eps=1e-05, affine=True)
      )
      (3): Sequential(
        (0): Conv2d(2048, 256, kernel_size=(3, 3), stride=(2, 2), padding=(1, 1))
        (1): GroupNorm(32, 256, eps=1e-05, affine=True)
      )
    )
  )
  (criterion): SetCriterion(
    (enc_matcher): BoxHungarianMatcher()
    (dec_matcher): CtrlPointHungarianMatcher()
  )
)
[07/25 14:21:13] d2.data.dataset_mapper INFO: [DatasetMapper] Augmentations used in training: [RandomCrop(crop_type='relative_range', crop_size=[0.1, 0.1]), ResizeShortestEdge(short_edge_length=(800, 832, 864, 896, 1000, 1200, 1400), max_size=2333, sample_style='choice'), RandomFlip()]
[07/25 14:21:13] adet.data.dataset_mapper INFO: Rebuilding the augmentations. The previous augmentations will be overridden.
[07/25 14:21:13] adet.data.detection_utils INFO: Augmentations used in training: [ResizeShortestEdge(short_edge_length=(800, 832, 864, 896, 1000, 1200, 1400), max_size=2333, sample_style='choice')]
[07/25 14:21:13] adet.data.dataset_mapper INFO: Cropping used in training: RandomCropWithInstance(crop_type='relative_range', crop_size=[0.1, 0.1], crop_instance=False)
[07/25 14:21:13] adet.data.datasets.text INFO: Loaded 1000 images in COCO format from datasets/icdar2015/train_poly.json
[07/25 14:21:13] d2.data.build INFO: Removed 21 images with no usable annotations. 979 images left.
[07/25 14:21:13] d2.data.build INFO: Distribution of instances among all 1 categories:
[36m|  category  | #instances   |
|:----------:|:-------------|
|    text    | 4468         |
|            |              |[0m
[07/25 14:21:13] d2.data.build INFO: Using training sampler TrainingSampler
[07/25 14:21:13] d2.data.common INFO: Serializing the dataset using: <class 'detectron2.data.common._TorchSerializedList'>
[07/25 14:21:13] d2.data.common INFO: Serializing 979 elements to byte tensors and concatenating them all ...
[07/25 14:21:13] d2.data.common INFO: Serialized dataset takes 1.64 MiB
[07/25 14:21:13] d2.checkpoint.detection_checkpoint INFO: [DetectionCheckpointer] Loading from weights/TESTR/pretrain_testr_R_50_polygon.pth ...
[07/25 14:21:13] fvcore.common.checkpoint INFO: [Checkpointer] Loading from weights/TESTR/pretrain_testr_R_50_polygon.pth ...
[07/25 14:21:14] adet.trainer INFO: Starting training from iteration 0
[07/25 17:20:06] d2.utils.events INFO:  eta: 2 days, 13:01:22  iter: 9359  total_loss: 44.08  loss_ce: 0.783  loss_ctrl_points: 2.31  loss_texts: 3.764  loss_ce_0: 0.8143  loss_ctrl_points_0: 2.423  loss_texts_0: 3.801  loss_ce_1: 0.8142  loss_ctrl_points_1: 2.4  loss_texts_1: 3.759  loss_ce_2: 0.8032  loss_ctrl_points_2: 2.351  loss_texts_2: 3.756  loss_ce_3: 0.7866  loss_ctrl_points_3: 2.334  loss_texts_3: 3.758  loss_ce_4: 0.7786  loss_ctrl_points_4: 2.311  loss_texts_4: 3.77  loss_ce_enc: 0.8066  loss_bbox_enc: 0.3008  loss_giou_enc: 0.7569    time: 1.1431  last_time: 0.8115  data_time: 0.0088  last_data_time: 0.0066   lr: 1e-05  max_mem: 12183M
[07/25 17:20:28] d2.utils.events INFO:  eta: 2 days, 13:02:11  iter: 9379  total_loss: 42.63  loss_ce: 0.7653  loss_ctrl_points: 2.407  loss_texts: 3.758  loss_ce_0: 0.8062  loss_ctrl_points_0: 2.635  loss_texts_0: 3.792  loss_ce_1: 0.7863  loss_ctrl_points_1: 2.568  loss_texts_1: 3.736  loss_ce_2: 0.7788  loss_ctrl_points_2: 2.537  loss_texts_2: 3.737  loss_ce_3: 0.77  loss_ctrl_points_3: 2.508  loss_texts_3: 3.748  loss_ce_4: 0.7641  loss_ctrl_points_4: 2.456  loss_texts_4: 3.748  loss_ce_enc: 0.7962  loss_bbox_enc: 0.2918  loss_giou_enc: 0.73    time: 1.1431  last_time: 0.9134  data_time: 0.0084  last_data_time: 0.0075   lr: 1e-05  max_mem: 12183M
[07/25 17:20:51] d2.utils.events INFO:  eta: 2 days, 13:05:45  iter: 9399  total_loss: 44.09  loss_ce: 0.7944  loss_ctrl_points: 2.32  loss_texts: 3.633  loss_ce_0: 0.8154  loss_ctrl_points_0: 2.634  loss_texts_0: 3.668  loss_ce_1: 0.802  loss_ctrl_points_1: 2.506  loss_texts_1: 3.633  loss_ce_2: 0.8023  loss_ctrl_points_2: 2.369  loss_texts_2: 3.626  loss_ce_3: 0.7987  loss_ctrl_points_3: 2.281  loss_texts_3: 3.624  loss_ce_4: 0.7966  loss_ctrl_points_4: 2.309  loss_texts_4: 3.62  loss_ce_enc: 0.8003  loss_bbox_enc: 0.2937  loss_giou_enc: 0.7454    time: 1.1431  last_time: 1.1894  data_time: 0.0081  last_data_time: 0.0227   lr: 1e-05  max_

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

problem in reproduce ICDAR2015 #24

STEPS: (200000,)

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

problem in reproduce ICDAR2015 #24

Description

STEPS: (200000,)

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions