-
Notifications
You must be signed in to change notification settings - Fork 0
Expand file tree
/
Copy pathoutputs-alignment.pl
More file actions
109 lines (86 loc) · 3.46 KB
/
outputs-alignment.pl
File metadata and controls
109 lines (86 loc) · 3.46 KB
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
#!/usr/bin/perl
# Pour un fichier texte et plusieurs versions annotées (sorties de
# différents systèmes) au format BRAT, aligne les annotations
# produites pour établir un ROVER.
# perl outputs-alignment.pl texte.txt systeme1.ann systeme2.ann systeme3.ann ...
# perl outputs-alignment.pl ref/363052.txt sys1/363052.ann sys2/363052.ann sys3/363052.ann
# La version actuelle du script ne permet pas de gérer plusieurs
# annotations sur la même portion à l'intérieur d'un fichier.
# Pour un traitement du texte caractère par caractère, ce qui permet
# de mieux gérer les début et fin de portions annotées, utiliser la
# commande suivante dans &traiteTexte() : my @tokens=split(//,$texte);
#
# Pour une tokénisation classique : my @tokens=split(/\s/,$texte);
# mais cette solution est déconseillée pour deux raisons : (1) la
# tokénisation est réalisée sur l'espace, sans que les ponctuations ne
# soient décollées des tokens pour éviter un décalage d'offsets, ce
# qui engendre des portions avec les ponctuations intégrées dans
# l'annotation, et (2) le calcul de l'offset de la fin de portion est
# plus complexe à déterminer.
# Auteur : Cyril Grouin, novembre 2020.
use utf8;
use strict;
binmode STDOUT, ":encoding(utf8)";
my @fichiers=@ARGV;
my %tabulaire=();
my $ref;
###
# Programme
foreach my $fichier (@fichiers) {
$ref=&traiteTexte($fichier) if ($fichier=~/txt$/);
&traiteAnnot($fichier) if ($fichier=~/ann$/);
}
&genereTabulaire();
###
# Routines
sub traiteTexte() {
my $f=shift; my $texte=""; my %cont=();
# Récupération du texte intégral
open(E,'<:utf8',$f) or die "Impossible d'ouvrir $f\n";
while (my $ligne=<E>) { $texte.=$ligne; }
close(E);
# Tokénisation et calcul d'index
my @tokens=split(//,$texte); my $last=0;
foreach my $token (@tokens) {
my $idx=index($texte,$token,$last);
my $cle; if ($idx<10) { $cle="000000$idx"; } elsif ($idx<100) { $cle="00000$idx"; } elsif ($idx<1000) { $cle="0000$idx"; } elsif ($idx<10000) { $cle="000$idx"; } elsif ($idx<100000) { $cle="00$idx"; } elsif ($idx<1000000) { $cle="0$idx"; } else { $cle=$idx; }
$cont{$cle}=$token;
$last=$idx+length($token);
}
return \%cont;
}
sub traiteAnnot() {
my ($f,$n)=@_;
my %annotations=();
my %debutAnnot=();
# Récupération des annotations
open(E,'<:utf8',$f) or die "Impossible d'ouvrir $f\n";
while (my $ligne=<E>) {
chomp $ligne;
my ($id,$infos,$texte)=split(/\t/,$ligne);
my ($label,$debut,$fin)=split(/ /,$infos);
if (!exists $debutAnnot{$debut}) { $debutAnnot{$debut}="B-$label"; }
for (my $j=$debut;$j<$fin;$j++) {
if (!exists $annotations{$j}) { $annotations{$j}="I-$label"; }
#else { warn "Annotation existante en position $j : $annotations{$j} vs. I-$label\n"; }
}
}
close(E);
# Production du tabulaire annoté
foreach my $cle (sort keys %{$ref}) {
my $offset=$cle; $offset=~s/^0*(\d)/$1/;
my $tag="O"; if (exists $annotations{$offset}) { $tag=$annotations{$offset}; }
if (exists $debutAnnot{$offset}) { $tag=$debutAnnot{$offset}; }
#print "$offset\t${$ref}{$cle}\t$tag\n";
$tabulaire{$cle}.="\t$tag";
}
}
sub genereTabulaire() {
# Génère le tabulaire avec une colonne d'offsets de caractère, le
# token, et autant de colonnes que de fichiers d'annotations
foreach my $cle (sort keys %tabulaire) {
my $offset=$cle; $offset=~s/^0*(\d)/$1/;
my $token=${$ref}{$cle}; $token=~s/\n/LINE/; $token=~s/ /SPACE/;
print "$offset\t$token$tabulaire{$cle}\n";
}
}