READ-BioMed
diff --git a/‎pom.xml
Lines changed: 6 additions & 0 deletions b/‎pom.xml
Lines changed: 6 additions & 0 deletions
diff --git a/‎src/main/java/readbiomed/annotators/characterization/BMIPDocumentNotRelevantAnnotator.java
Lines changed: 54 additions & 0 deletions b/‎src/main/java/readbiomed/annotators/characterization/BMIPDocumentNotRelevantAnnotator.java
Lines changed: 54 additions & 0 deletions
diff --git a/‎src/main/java/readbiomed/annotators/characterization/BMIPPathogenNotRelevantAnnotator.java
Lines changed: 103 additions & 0 deletions b/‎src/main/java/readbiomed/annotators/characterization/BMIPPathogenNotRelevantAnnotator.java
Lines changed: 103 additions & 0 deletions
diff --git a/‎src/main/java/readbiomed/annotators/characterization/PathogenAnnotator.java
Lines changed: 0 additions & 5 deletions b/‎src/main/java/readbiomed/annotators/characterization/PathogenAnnotator.java
Lines changed: 0 additions & 5 deletions
diff --git a/‎src/main/java/readbiomed/annotators/characterization/PathogenCharacterizationAnnotator.java
Lines changed: 29 additions & 0 deletions b/‎src/main/java/readbiomed/annotators/characterization/PathogenCharacterizationAnnotator.java
Lines changed: 29 additions & 0 deletions
diff --git a/‎src/main/java/readbiomed/annotators/characterization/PathogenExperimenter.java
Lines changed: 75 additions & 32 deletions b/‎src/main/java/readbiomed/annotators/characterization/PathogenExperimenter.java
Lines changed: 75 additions & 32 deletions
@@ -147,5 +147,11 @@
 			<artifactId>nlp-pipelines-conceptmapper</artifactId>
 			<version>0.5.4</version>
 		</dependency>
+		<dependency>
+			<groupId>au.com.nicta.csp</groupId>
+			<artifactId>MTIMLExtension</artifactId>
+			<version>0.0.1-SNAPSHOT</version>
+			<packaging>jar</packaging>
+		</dependency>
 	</dependencies>
 </project>
@@ -0,0 +1,54 @@
+package readbiomed.annotators.characterization;
+
+import java.util.ArrayList;
+
+import org.apache.uima.UimaContext;
+import org.apache.uima.analysis_engine.AnalysisEngineDescription;
+import org.apache.uima.analysis_engine.AnalysisEngineProcessException;
+import org.apache.uima.fit.factory.AnalysisEngineFactory;
+import org.apache.uima.fit.util.JCasUtil;
+import org.apache.uima.jcas.JCas;
+import org.apache.uima.resource.ResourceInitializationException;
+import org.cleartk.ne.type.NamedEntityMention;
+import org.cleartk.util.ViewUriUtil;
+
+import gov.nih.nlm.nls.mti.documents.Document;
+import gov.nih.nlm.nls.mti.instances.Instance;
+import readbiomed.annotators.ml.mtiml.MTIMLAnnotator;
+
+public class BMIPDocumentNotRelevantAnnotator extends MTIMLAnnotator {
+
+	public void initialize(UimaContext context) throws ResourceInitializationException {
+		super.initialize(context);
+	}
+
+	@Override
+	public void process(JCas jCas) throws AnalysisEngineProcessException {
+		Document d = new Document();
+		d.addField("TEXT", jCas.getDocumentText());
+
+		Instance i = getFeatureExtractor().prepareInstance(d);
+
+		String pmid = ViewUriUtil.getURI(jCas).toString();
+		System.out.println(pmid);
+
+		// Remove all pathogen mentions if document classified as not relevant
+		System.out.println("Predicted " + getClassifier().predict(i));
+
+		if (((readbiomed.mme.classifiers.SGD)getClassifier()).predictProbability(i).getConfidence() < 0.4) {
+			new ArrayList<NamedEntityMention>(JCasUtil.select(jCas, NamedEntityMention.class)).stream()
+					// Remove only NCBI annotations
+					.filter(e -> e.getMentionType().contentEquals("pathogen") && e.getMentionId().startsWith("ncbi-"))
+					.forEach(e -> e.removeFromIndexes());
+		}
+	}
+
+	public static AnalysisEngineDescription getDescription(String trieFileName, String classifiersFileName,
+			String featureExtractorClassName, String featureExtractorParameters)
+			throws ResourceInitializationException {
+		return AnalysisEngineFactory.createEngineDescription(BMIPDocumentNotRelevantAnnotator.class,
+				PARAM_TRIE_FILE_NAME, trieFileName, PARAM_CLASSIFIERS_FILE_NAME, classifiersFileName,
+				PARAM_FEATURE_EXTRACTOR_CLASS_NAME, featureExtractorClassName, PARAM_FEATURE_EXTRACTOR_PARAMETERS,
+				featureExtractorParameters);
+	}
+}
@@ -0,0 +1,103 @@
+package readbiomed.annotators.characterization;
+
+import java.util.ArrayList;
+import java.util.Collections;
+import java.util.HashSet;
+import java.util.List;
+import java.util.Set;
+
+import org.apache.uima.UimaContext;
+import org.apache.uima.analysis_engine.AnalysisEngineDescription;
+import org.apache.uima.analysis_engine.AnalysisEngineProcessException;
+import org.apache.uima.fit.factory.AnalysisEngineFactory;
+import org.apache.uima.fit.util.JCasUtil;
+import org.apache.uima.jcas.JCas;
+import org.apache.uima.resource.ResourceInitializationException;
+import org.cleartk.ne.type.NamedEntityMention;
+import org.cleartk.util.ViewUriUtil;
+
+import gov.nih.nlm.nls.mti.documents.Document;
+import gov.nih.nlm.nls.mti.instances.Instance;
+import readbiomed.annotators.ml.mtiml.MTIMLAnnotator;
+
+public class BMIPPathogenNotRelevantAnnotator extends MTIMLAnnotator {
+
+	public void initialize(UimaContext context) throws ResourceInitializationException {
+		super.initialize(context);
+	}
+
+	@Override
+	public void process(JCas jCas) throws AnalysisEngineProcessException {
+		List<NamedEntityMention> list = new ArrayList<>();
+		Set<String> ids = new HashSet<>();
+
+		for (NamedEntityMention ne : JCasUtil.select(jCas, NamedEntityMention.class)) {
+			ids.add(ne.getMentionId());
+			list.add(ne);
+		}
+
+		String pmid = ViewUriUtil.getURI(jCas).toString();
+		System.out.println(pmid);
+
+		Set<NamedEntityMention> removal = new HashSet<>();
+
+		// Remove potential overlapping mentions of the same pathogen
+		for (NamedEntityMention ne : list) {
+			for (NamedEntityMention neIn : list) {
+				if (ne != neIn) {
+					if (ne.getMentionId().equals(neIn.getMentionId())) {
+						if (ne.getBegin() == neIn.getBegin() || ne.getEnd() == neIn.getEnd()) {
+							if (!(removal.contains(ne) || removal.contains(neIn))) {
+								removal.add(ne);
+							}
+						}
+					}
+				}
+
+			}
+		}
+
+		for (NamedEntityMention ne : removal) {
+			list.remove(ne);
+		}
+
+		Collections.sort(list, new RelevantPathogenSet().new SortNamedEntityMentions());
+
+		for (String id : ids) {
+
+			String text = jCas.getDocumentText();
+
+			for (NamedEntityMention ne : list) {
+				if (ne.getMentionId().contentEquals(id)) {
+					if (ne.getMentionId().equals(id)) {
+						text = text.substring(0, ne.getBegin()) + "@PATHOGEN$" + text.substring(ne.getEnd());
+					}
+				}
+			}
+
+			Document d = new Document();
+			d.addField("TEXT", text);
+
+			Instance i = getFeatureExtractor().prepareInstance(d);
+
+			System.out.println("Predicted " + ((readbiomed.mme.classifiers.AdaBoostM1)getClassifier()).predictProbability(i).getConfidence() + " for " + id);
+			// Remove all pathogen mentions if document classified as not relevant and it is
+			// an NCBI pathogen
+			if (((readbiomed.mme.classifiers.AdaBoostM1)getClassifier()).predictProbability(i).getConfidence() < 0.1) {
+				new ArrayList<NamedEntityMention>(JCasUtil.select(jCas, NamedEntityMention.class)).stream()
+						.filter(e -> e.getMentionId().equals(id) && e.getMentionId().startsWith("ncbi"))
+						.forEach(ne -> ne.removeFromIndexes());
+				;
+			}
+		}
+	}
+
+	public static AnalysisEngineDescription getDescription(String trieFileName, String classifiersFileName,
+			String featureExtractorClassName, String featureExtractorParameters)
+			throws ResourceInitializationException {
+		return AnalysisEngineFactory.createEngineDescription(BMIPPathogenNotRelevantAnnotator.class,
+				PARAM_TRIE_FILE_NAME, trieFileName, PARAM_CLASSIFIERS_FILE_NAME, classifiersFileName,
+				PARAM_FEATURE_EXTRACTOR_CLASS_NAME, featureExtractorClassName, PARAM_FEATURE_EXTRACTOR_PARAMETERS,
+				featureExtractorParameters);
+	}
+}
@@ -0,0 +1,29 @@
+package readbiomed.annotators.characterization;
+
+import java.io.IOException;
+
+import org.apache.uima.fit.factory.AggregateBuilder;
+import org.apache.uima.resource.ResourceInitializationException;
+import org.apache.uima.util.InvalidXMLException;
+import org.xml.sax.SAXException;
+
+import readbiomed.annotators.dictionary.pathogens.PathogenDictionaryAnnotator;
+
+public class PathogenCharacterizationAnnotator {
+	public static AggregateBuilder getPipeline(String dictFileName)
+			throws InvalidXMLException, ResourceInitializationException, IOException, SAXException {
+		AggregateBuilder builder = new AggregateBuilder();
+		builder.add(PathogenDictionaryAnnotator.getPipeline(dictFileName).createAggregateDescription());
+
+		/*				builder.add(BMIPPathogenNotRelevantAnnotator.getDescription("/home/antonio/Downloads/mti-ml/MTI_ML/trie.gz",
+				"/home/antonio/Downloads/mti-ml/MTI_ML/classifiers.gz",
+				"gov.nih.nlm.nls.mti.featuresextractors.BinaryFeatureExtractor", "-l -n -c"));
+*/				
+				builder.add(
+				BMIPDocumentNotRelevantAnnotator.getDescription("/home/antonio/Downloads/mti-ml/MTI_ML/trie.excel.gz",
+						"/home/antonio/Downloads/mti-ml/MTI_ML/classifiers.excel.gz",
+						"gov.nih.nlm.nls.mti.featuresextractors.BinaryFeatureExtractor", "-l -n -c"));
+
+		return builder;
+	}
+}
@@ -2,63 +2,106 @@
 
 import java.io.File;
 import java.io.IOException;
+import java.net.URI;
+import java.net.URISyntaxException;
+import java.nio.file.Files;
+import java.util.HashMap;
+import java.util.HashSet;
+import java.util.Map;
+import java.util.Set;
+import java.util.stream.Collectors;
 
+import org.apache.commons.io.FileUtils;
 import org.apache.uima.UIMAException;
 import org.apache.uima.analysis_engine.AnalysisEngine;
-import org.apache.uima.fit.component.JCasCollectionReader_ImplBase;
 import org.apache.uima.fit.factory.AggregateBuilder;
 import org.apache.uima.fit.factory.AnalysisEngineFactory;
 import org.apache.uima.fit.factory.JCasFactory;
 import org.apache.uima.fit.util.JCasUtil;
 import org.apache.uima.jcas.JCas;
 import org.cleartk.ne.type.NamedEntityMention;
-import org.cleartk.opennlp.tools.SentenceAnnotator;
 import org.cleartk.util.ViewUriUtil;
 import org.xml.sax.SAXException;
 
-import readbiomed.annotators.dictionary.pathogens.PathogenAnnotator;
-import readbiomed.annotators.discourse.sdt.SDTAnnotator;
-import readbiomed.document.SDTSentence;
-import readbiomed.document.Section;
-import readbiomed.readers.medline.MedlineReader;
+import readbiomed.annotators.dictionary.utils.CharacterizationEvaluation;
+import readbiomed.annotators.dictionary.utils.TextFileFilter;
 
 public class PathogenExperimenter {
-	public static void main(String[] argc) throws IOException, SAXException, UIMAException {
+
+	private static void evaluate(Map<String, Set<String>> gt, Map<String, Set<String>> predictions) {
+		double tps = 0.0;
+		double fns = 0.0;
+		double fps = 0.0;
+
+		// Compare GT
+		for (Map.Entry<String, Set<String>> entry : gt.entrySet()) {
+			long common = entry.getValue().stream()
+					.filter(predictions.computeIfAbsent(entry.getKey(), o -> new HashSet<>())::contains).count();
+
+			Set<String> fp = predictions.computeIfAbsent(entry.getKey(), o -> new HashSet<>()).stream()
+					.filter(e -> !entry.getValue().contains(e)).collect(Collectors.toSet());
+
+			Set<String> fn = entry.getValue().stream()
+					.filter(e -> !predictions.computeIfAbsent(entry.getKey(), o -> new HashSet<>()).contains(e))
+					.collect(Collectors.toSet());
+
+			System.out.println(entry.getKey() + "|" + common + "|" + entry.getValue().size() + "|"
+					+ predictions.get(entry.getKey()).size());
+
+			double recall = common / (double) (common + fn.size());
+			double precision = common / (double) (common + fp.size());
+			double f1 = (2 * precision * recall) / (precision + recall);
+
+			tps += common;
+			fns += fn.size();
+			fps += fp.size();
+
+			System.out.println(entry.getKey() + "|" + precision + "|" + recall + "|" + f1);
+			System.out.println("FP:" + fp);
+			System.out.println("FN:" + fn);
+		}
+
+		double recalls = tps / (tps + fns);
+		double precisions = tps / (tps + fps);
+		double f1s = (2 * precisions * recalls) / (precisions + recalls);
+
+		System.out.println("Overall recall: " + recalls);
+		System.out.println("Overall precision: " + precisions);
+		System.out.println("Overall f1: " + f1s);
+	}
+
+	public static void main(String[] argc) throws IOException, SAXException, UIMAException, URISyntaxException {
 		String inputFolderName = argc[0];
 		String dictionaryFileName = argc[1];
 		String SDTPredictionFolderName = argc[2];
 
-		AggregateBuilder pa = PathogenAnnotator.getPipeline(dictionaryFileName);
-		pa.add(SentenceAnnotator.getDescription());
-		pa.add(SDTAnnotator.getDescription(SDTPredictionFolderName));
+		Map<String, Set<String>> gt = CharacterizationEvaluation.getGT(
+				"/home/antonio/Documents/git/readbiomed-bmip-datasets/manual-set/ground-truth/manual-annotation-gt.csv");
 
-		AnalysisEngine ae = AnalysisEngineFactory.createEngine(pa.createAggregateDescription());
-
-		JCas jCas = JCasFactory.createJCas();
+		Map<String, Set<String>> predictions = new HashMap<>();
 
-		for (File file : new File(inputFolderName).listFiles()) {
-			JCasCollectionReader_ImplBase cr = (JCasCollectionReader_ImplBase) org.apache.uima.fit.factory.CollectionReaderFactory
-					.createReader(MedlineReader.getDescriptionFromFiles(file.getAbsolutePath()));
+		AggregateBuilder pa = PathogenCharacterizationAnnotator.getPipeline(dictionaryFileName);
+		// pa.add(SentenceAnnotator.getDescription());
+		// pa.add(SDTAnnotator.getDescription(SDTPredictionFolderName));
 
-			while (cr.hasNext()) {
-				cr.getNext(jCas);
-				ae.process(jCas);
+		AnalysisEngine ae = AnalysisEngineFactory.createEngine(pa.createAggregateDescription());
 
-				String pmid = ViewUriUtil.getURI(jCas).toString();
+		for (File file : FileUtils.listFiles(new File(
+				"/home/antonio/Downloads/bmip/readbiomed-bmip-8648708be55b/data/corpora/bmip-pubmed-corpus/articles-txt-format"),
+				new TextFileFilter(), null)) {
+			String fileName = file.getName().replaceAll(".txt$", "");
 
-				JCasUtil.select(jCas, Section.class).forEach(e -> {
-					if (e.getSectionType().equalsIgnoreCase("title"))
-						System.out.println(pmid + "|" + e.getCoveredText() + "|" + e.getSectionType());
-					JCasUtil.selectCovered(jCas, NamedEntityMention.class, e).forEach(ne -> System.out.println(ne));
-				});
+			JCas jCas = JCasFactory.createText(Files.readString(file.toPath()));
+			ViewUriUtil.setURI(jCas, new URI(file.getName()));
 
-				JCasUtil.select(jCas, SDTSentence.class).forEach(e -> {
-					System.out.println(pmid + "|" + e.getCoveredText() + "|" + e.getSdtType());
-					JCasUtil.selectCovered(jCas, NamedEntityMention.class, e).forEach(ne -> System.out.println(ne));
-				});
+			ae.process(jCas);
 
-				jCas.reset();
-			}
+			predictions.put(fileName,
+					JCasUtil.select(jCas, NamedEntityMention.class).stream()
+							.filter(e -> e.getMentionType().equals("pathogen")).map(e -> e.getMentionId())
+							.collect(Collectors.toSet()));
 		}
+
+		evaluate(gt, predictions);
 	}
 }