Clone Benchmarking: ASTNN vs. CodeBERT

Identificación de clones de código mediante árboles de sintaxis frente a transformers.

Repositorio utilizado para la ejecución del benchmark entre la arquitectura ad-hoc de ASTNN frente a un transformer preentrenado con código como lo es CodeBERT. El análisis experimental y conceptual del flujo de trabajo se encuentra en nuestra memoria de trabajo: "Más Allá de la Sintaxis: Evaluación de CodeBERT frente a Métodos Basados en AST en BigCloneBench" disponible aquí.

🚀 Guía de Inicio Rápido

1. Preparación de los datos

Descarga el dataset: Enlace a Google Drive

Añádelos al proyecto: Descomprime los archivos y añádelos a las siguientes carpetas del directorio:

Clone_Benchmarking/
│
├── astnn/
│   ├── ...
│   ├── bcb_funcs_all.tsv       <- Enlace
│   ├── bcb_pair_ids.pkl        <- Enlace
│   ├── ast.pkl                 <- Enlace
│   └── data
│       └── train
│           ├── blocks.pkl      <- Enlace
│           └── train_.pkl      <- Enlace
│
└── codebert/
    └── codebert_train_10.csv   <- Enlace

2. Crear entorno virtual (recomendado)

En la terminal Windows, dentro de la carpeta del proyecto:

python -m venv venv
venv\Scripts\activate

En la terminal Linux o Mac, dentro de la carpeta del proyecto:

python3 -m venv venv
source venv/bin/activate

3. Instalación de dependencias

pip install -r requirements.txt

4. Ejecuta el benchmarking

python3 evaluation.py

📂 Estructura del proyecto

    Clone_Benchmarking/
    │
    ├── README.md
    ├── requirements.txt
    ├── evaluation.py
    ├── resultados_benchmarking.txt         <- Generado con evaluation.py
    ├── .gitignore
    ├── LICENSE
    │
    ├── data_scripts/
    │   ├── reduce_dataset.py
    │   └── README.md
    │
    ├── astnn/
    │   ├── model.py
    │   ├── train.py
    │   ├── pipeline.py
    │   ├── tree.py
    │   ├── utils.py
    │   ├── config.py
    │   ├── bcb_funcs_all.tsv               <- Enlace
    │   ├── bcb_pair_ids.pkl                <- Enlace
    │   ├── ast.pkl                         <- Enlace
    │   └── data
    │       └── train
    │           ├── blocks_10percent.pkl    <- Enlace
    │           └── train_.pkl              <- Enlace
    │
    └── codebert/
        ├── train_codebert.py
        └── codebert_train_10.csv           <- Enlace

🏷️ Créditos

@inproceedings{zhang2019novel,
title={A novel neural source code representation based on abstract syntax tree},
author={Zhang, Jian and Wang, Xu and Zhang, Hongyu and Sun, Hailong and Wang, Kaixuan and Liu, Xudong},
booktitle={Proceedings of the 41st International Conference on Software Engineering},
pages={783--794},
year={2019},
organization={IEEE Press}
}

Autores: Miguel Gallego, Andrea Mejía e Isabel Escribano

Fecha: 26 Jan 2026

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Clone Benchmarking: ASTNN vs. CodeBERT

🚀 Guía de Inicio Rápido

1. Preparación de los datos

2. Crear entorno virtual (recomendado)

3. Instalación de dependencias

4. Ejecuta el benchmarking

📂 Estructura del proyecto

🏷️ Créditos

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 16 Commits
astnn		astnn
codebert		codebert
data_scripts		data_scripts
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
evaluation.py		evaluation.py
requirements.txt		requirements.txt

Folders and files

Latest commit

History

Repository files navigation

Clone Benchmarking: ASTNN vs. CodeBERT

🚀 Guía de Inicio Rápido

1. Preparación de los datos

2. Crear entorno virtual (recomendado)

3. Instalación de dependencias

4. Ejecuta el benchmarking

📂 Estructura del proyecto

🏷️ Créditos

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages