oeuvres
diff --git a/‎analysis/src/java/com/github/oeuvres/alix/lucene/analysis/AnalyzerCloud.java‎
Lines changed: 2 additions & 2 deletions b/‎analysis/src/java/com/github/oeuvres/alix/lucene/analysis/AnalyzerCloud.java‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎analysis/src/java/com/github/oeuvres/alix/lucene/analysis/AnalyzerFind.java‎
Lines changed: 2 additions & 2 deletions b/‎analysis/src/java/com/github/oeuvres/alix/lucene/analysis/AnalyzerFind.java‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎analysis/src/java/com/github/oeuvres/alix/lucene/analysis/AnalyzerMeta.java‎
Lines changed: 2 additions & 2 deletions b/‎analysis/src/java/com/github/oeuvres/alix/lucene/analysis/AnalyzerMeta.java‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎analysis/src/java/com/github/oeuvres/alix/lucene/analysis/AnalyzerOrth.java‎
Lines changed: 2 additions & 2 deletions b/‎analysis/src/java/com/github/oeuvres/alix/lucene/analysis/AnalyzerOrth.java‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎analysis/src/java/com/github/oeuvres/alix/lucene/analysis/AnalyzerPos.java‎
Lines changed: 2 additions & 2 deletions b/‎analysis/src/java/com/github/oeuvres/alix/lucene/analysis/AnalyzerPos.java‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎analysis/src/java/com/github/oeuvres/alix/lucene/analysis/AnalyzerQuery.java‎
Lines changed: 1 addition & 1 deletion b/‎analysis/src/java/com/github/oeuvres/alix/lucene/analysis/AnalyzerQuery.java‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎analysis/src/java/com/github/oeuvres/alix/lucene/analysis/Lexicons.java‎
Lines changed: 48 additions & 5 deletions b/‎analysis/src/java/com/github/oeuvres/alix/lucene/analysis/Lexicons.java‎
Lines changed: 48 additions & 5 deletions
diff --git a/‎…res/alix/lucene/analysis/FilterHTML.java‎ ‎…uvres/alix/lucene/analysis/MLFilter.java‎analysis/src/java/com/github/oeuvres/alix/lucene/analysis/FilterHTML.java renamed to analysis/src/java/com/github/oeuvres/alix/lucene/analysis/MLFilter.java
Lines changed: 2 additions & 2 deletions b/‎…res/alix/lucene/analysis/FilterHTML.java‎ ‎…uvres/alix/lucene/analysis/MLFilter.java‎analysis/src/java/com/github/oeuvres/alix/lucene/analysis/FilterHTML.java renamed to analysis/src/java/com/github/oeuvres/alix/lucene/analysis/MLFilter.java
Lines changed: 2 additions & 2 deletions
diff --git a/‎…es/alix/lucene/analysis/TokenizerML.java‎ ‎…es/alix/lucene/analysis/MLTokenizer.java‎analysis/src/java/com/github/oeuvres/alix/lucene/analysis/TokenizerML.java renamed to analysis/src/java/com/github/oeuvres/alix/lucene/analysis/MLTokenizer.java
Lines changed: 78 additions & 35 deletions b/‎…es/alix/lucene/analysis/TokenizerML.java‎ ‎…es/alix/lucene/analysis/MLTokenizer.java‎analysis/src/java/com/github/oeuvres/alix/lucene/analysis/TokenizerML.java renamed to analysis/src/java/com/github/oeuvres/alix/lucene/analysis/MLTokenizer.java
Lines changed: 78 additions & 35 deletions
diff --git a/‎analysis/src/java/com/github/oeuvres/alix/lucene/analysis/fr/FrLexicons.java‎
Lines changed: 27 additions & 2 deletions b/‎analysis/src/java/com/github/oeuvres/alix/lucene/analysis/fr/FrLexicons.java‎
Lines changed: 27 additions & 2 deletions
@@ -54,10 +54,10 @@ public AnalyzerCloud()
     @Override
     public TokenStreamComponents createComponents(String field)
     {
-        final Tokenizer tokenizer = new TokenizerML();
+        final Tokenizer tokenizer = new MLTokenizer();
         TokenStream ts = tokenizer; // segment words
         // interpret html tags as token events like para or section
-        ts = new FilterHTML(ts);
+        ts = new MLFilter(ts);
         // fr split on ’ and -
         ts = new FilterAposHyphenFr(ts);
         // pos tagging before lemmatize
 
@@ -55,9 +55,9 @@ public AnalyzerFind()
     @Override
     public TokenStreamComponents createComponents(String field)
     {
-        final Tokenizer tokenizer = new TokenizerML(); // segment words
+        final Tokenizer tokenizer = new MLTokenizer(); // segment words
         TokenStream ts = tokenizer;
-        ts = new FilterHTML(ts); // interpret tags
+        ts = new MLFilter(ts); // interpret tags
         ts = new FilterAposHyphenFr(ts); // fr split on ’ and -
         ts = new FilterLemmatize(ts); // provide lemma+pos
         ts = new FilterFind(ts); // orthographic form and lemma as term to index
 
@@ -54,9 +54,9 @@ public AnalyzerMeta()
     @Override
     protected TokenStreamComponents createComponents(String fieldName)
     {
-        final Tokenizer tokenizer = new TokenizerML(); // segment words
+        final Tokenizer tokenizer = new MLTokenizer(); // segment words
         TokenStream ts = tokenizer;
-        ts = new FilterHTML(ts); // strip tags
+        ts = new MLFilter(ts); // strip tags
         ts = new FilterAposHyphenFr(ts); // fr split on ’ and -
         ts = new ASCIIFoldingFilter(ts); // no accents
         return new TokenStreamComponents(tokenizer, ts);
 
@@ -54,11 +54,11 @@ public AnalyzerOrth()
     @Override
     public TokenStreamComponents createComponents(String field)
     {
-        final Tokenizer tokenizer = new TokenizerML();
+        final Tokenizer tokenizer = new MLTokenizer();
         // segment words
         TokenStream ts = tokenizer;
         // interpret html tags as token events like para or section
-        ts = new FilterHTML(ts);
+        ts = new MLFilter(ts);
         // fr split on ’ and -
         ts = new FilterAposHyphenFr(ts);
         // provide lemma+pos
 
@@ -54,10 +54,10 @@ public AnalyzerPos()
     @Override
     public TokenStreamComponents createComponents(String field)
     {
-        final Tokenizer tokenizer = new TokenizerML();
+        final Tokenizer tokenizer = new MLTokenizer();
         TokenStream ts = tokenizer; // segment words
         // interpret html tags as token events like para or section
-        ts = new FilterHTML(ts);
+        ts = new MLFilter(ts);
         // fr split on ’ and -
         ts = new FilterAposHyphenFr(ts);
         // pos tagging before lemmatize
 
@@ -55,7 +55,7 @@ public AnalyzerQuery()
     @Override
     public TokenStreamComponents createComponents(String field)
     {
-        final Tokenizer tokenizer = new TokenizerML(); // segment words, keep '*'
+        final Tokenizer tokenizer = new MLTokenizer(); // segment words, keep '*'
         TokenStream result = new FilterLemmatize(tokenizer); // provide lemma+pos
         result = new FilterFind(result); // orthographic form (not lemma) as term to index
         result = new ASCIIFoldingFilter(result); // no accents
 
@@ -4,6 +4,7 @@
 import java.nio.file.Path;
 
 import org.apache.lucene.analysis.CharArrayMap;
+import org.apache.lucene.analysis.CharArraySet;
 import org.slf4j.Logger;
 import org.slf4j.LoggerFactory;
 
@@ -18,22 +19,22 @@ public abstract class Lexicons
     protected Lexicons() {}
 
 
-    static public void fillPairs(CharArrayMap<char[]> map, final Class<?> anchor,
+    static public void fillMap(CharArrayMap<char[]> map, final Class<?> anchor,
             final String resourcePath, boolean replace) throws IOException
     {
         try (CSVReader csv = new CSVReader(anchor, resourcePath, ',', 2)) {
-            fillPairs(map, csv, replace);
+            fillMap(map, csv, replace);
         }
     }
 
-    static public void  fillPairs(CharArrayMap<char[]> map, final Path file, final boolean replace) throws IOException
+    static public void  fillMap(CharArrayMap<char[]> map, final Path file, final boolean replace) throws IOException
     {
         try (CSVReader csv = new CSVReader(file, ',', 2)) {
-            fillPairs(map, csv, replace);
+            fillMap(map, csv, replace);
         }
     }
 
-    static public void  fillPairs(CharArrayMap<char[]> map, final CSVReader csv, final boolean replace) throws IOException
+    static public void  fillMap(CharArrayMap<char[]> map, final CSVReader csv, final boolean replace) throws IOException
     {
         final int cols = 2;
         // what Exception to send if map is null?
@@ -49,5 +50,47 @@ static public void  fillPairs(CharArrayMap<char[]> map, final CSVReader csv, fin
             map.put(key, csv.getCellToCharArray(1));
         }
     }
+    
+    static public void fillSet(CharArraySet set, final Class<?> anchor,
+            final String resourcePath, final int col, final String rtrim) throws IOException
+    {
+        try (CSVReader csv = new CSVReader(anchor, resourcePath, ',', 2)) {
+            fillSet(set, csv, col, rtrim);
+        }
+    }
+    
+    
+    static public void  fillSet(CharArraySet set, final Path file, final int col, final String rtrim) throws IOException
+    {
+        try (CSVReader csv = new CSVReader(file, ',', 2)) {
+            fillSet(set, csv, col, rtrim);
+        }
+    }
+    
+    static public void  fillSet(CharArraySet set, final CSVReader csv, final int col, final String rtrim) throws IOException
+    {
+        // pass first line
+        if(!csv.readRow()) return;
+        while (csv.readRow()) {
+            if (csv.getCellCount() < col + 1)
+                continue;
+            StringBuilder word = csv.getCell(col);
+            if (word.length() < 1) continue;
+            if (word.charAt(0) == '#') continue;
+            rtrim(word, rtrim);
+            set.add(word);
+        }
+    }
+    
+    public static void rtrim(StringBuilder sb, String stripChars) {
+        if (stripChars == null || stripChars.length() < 1) return;
+        int len = sb.length();
+        while (len > 0) {
+            char c = sb.charAt(len - 1);
+            if (stripChars.indexOf(c) < 0) break;
+            len--;
+        }
+        sb.setLength(len);
+    }
 
 }
@@ -51,7 +51,7 @@
  * tokens are deleted. This allows simple computation of a token context (ex:
  * span queries, co-occurrences).
  */
-public class FilterHTML extends TokenFilter
+public class MLFilter extends TokenFilter
 {
     /** The term provided by the Tokenizer */
     private final CharTermAttribute termAtt = addAttribute(CharTermAttribute.class);
@@ -98,7 +98,7 @@ public class FilterHTML extends TokenFilter
      * Default constructor.
      * @param input previous filter.
      */
-    public FilterHTML(TokenStream input) {
+    public MLFilter(TokenStream input) {
         super(input);
         skip = 0;
     }
 
@@ -26,7 +26,7 @@
  * - No buffer backtracking; uses a one-char pushback slot.
  * - Sentence punctuation token cannot absorb following letters (e.g., "!Word" no longer possible).
  */
-public class TokenizerML extends Tokenizer
+public class MLTokenizer extends Tokenizer
 {
     /** Max size of a word-like token (not tags). */
     private static final int TOKEN_MAX_SIZE = 256;
@@ -54,11 +54,11 @@ public class TokenizerML extends Tokenizer
     private int pendingChar = -1;          // 0..65535, or -1
     private int pendingCharOffset = -1;    // offset where pendingChar occurs
 
-    public TokenizerML() { 
+    public MLTokenizer() { 
         this(CharArraySet.EMPTY_SET);
     }
 
-    public TokenizerML(final CharArraySet keepTrailingDot) { 
+    public MLTokenizer(final CharArraySet keepTrailingDot) { 
         super();
         // Lucene-style: accept null as “no config”
         this.keepTrailingDot = (keepTrailingDot == null) ? CharArraySet.EMPTY_SET : keepTrailingDot;
@@ -135,35 +135,38 @@ public final boolean incrementToken() throws IOException
                 continue;
             }
 
-            // Abbrev-dot resolution: previous char appended '.' after a letter.
-            // Decide whether '.' stays with the token (internal) or becomes punctuation.
-            if (abbrevDot) {
-                if (!Char.isLetter(c)) {
-                    
-                    // 1) keep dot for 1-letter abbreviation ("M.") — existing policy
-                    final boolean oneLetterAbbrev = (termLen == 2 && Char.isLetter(termBuf[0]));
-                    
-                    // 2) optional: keep dot for configured abbreviations (termBuf ends with '.')
-                    //    test WITHOUT the final dot: [0, termLen-1)
-                    final boolean listedAbbrev =
-                            !oneLetterAbbrev
-                            && keepTrailingDot != CharArraySet.EMPTY_SET
-                            && keepTrailingDot.contains(termBuf, 0, termLen - 1);
-                    
-                    if (!oneLetterAbbrev && !listedAbbrev) {
-                        // detach '.' and re-emit as punctuation
-                        termLen--;
-                        pendingChar = '.';
-                        pendingCharOffset = off - 1; // '.' already consumed
-                        tokenEndOff = off - 1;       // token ends before '.'
-                        abbrevDot = false;
-                        break;
-                    }
-                    // else: keep the dot in the token; the delimiter will end the token naturally
-                }
-                // internal dot case: next char is a letter => keep dot, continue normally
-                abbrevDot = false;
-            }
+         // Abbrev-dot resolution: previous char appended '.' after a letter.
+         // Decide whether '.' stays with the token (internal) or becomes punctuation.
+         if (abbrevDot) {
+             if (!Char.isLetter(c)) {
+
+                 // 1) keep dot for 1-letter abbreviation ("M.")
+                 final boolean oneLetterAbbrev = (termLen == 2 && Char.isLetter(termBuf[0]));
+
+                 // 2) keep dot for dotted abbreviations/initialisms ("U.S.A.", "Ph.D.")
+                 final boolean dottedAbbrev = !oneLetterAbbrev && looksLikeDottedAbbrev(termBuf, termLen);
+
+                 // 3) optional: keep dot for configured abbreviations (termBuf ends with '.')
+                 //    test WITHOUT the final dot: [0, termLen-1)
+                 final boolean listedAbbrev =
+                         !oneLetterAbbrev
+                         && keepTrailingDot != CharArraySet.EMPTY_SET
+                         && keepTrailingDot.contains(termBuf, 0, termLen - 1);
+
+                 if (!oneLetterAbbrev && !dottedAbbrev && !listedAbbrev) {
+                     // detach '.' and re-emit as punctuation
+                     termLen--;
+                     pendingChar = '.';
+                     pendingCharOffset = off - 1; // '.' already consumed
+                     tokenEndOff = off - 1;       // token ends before '.'
+                     abbrevDot = false;
+                     break;
+                 }
+                 // else: keep the dot in the token; the delimiter will end the token naturally
+             }
+             // internal dot case: next char is a letter => keep dot, continue normally
+             abbrevDot = false;
+         }
 
             // Start of tag '<'
             if (c == '<') {
@@ -277,15 +280,15 @@ else if (nameLen == 3) {
                 return true;
             }
 
-            // Dot after a letter: may be abbrev/internal dot. Append now; decide next char whether to detach.
-            if (c == '.' && termLen > 0 && Char.isLetter(c)) {
+         // Dot after a letter: may be abbrev/internal dot. Append now; decide next char whether to detach.
+            if (c == '.' && termLen > 0 && Char.isLetter(termBuf[termLen - 1])) {
                 if (termLen == termBuf.length) termBuf = termAtt.resizeBuffer(termLen + 1);
                 termBuf[termLen++] = '.';
                 bi++; off++; lastChar = '.';
                 abbrevDot = true;
                 continue;
             }
-
+            
             // Sentence punctuation: standalone run token
             if (isSentencePunct(c)) {
                 if (termLen > 0) break; // emit pending token; punctuation next call
@@ -333,6 +336,22 @@ else if (nameLen == 3) {
             if (termLen > 0) break;   // emit current token; do not consume delimiter
             bi++; off++; lastChar = c; // skip delimiter and continue
         }
+        
+     // EOF-safe abbrev-dot resolution: the loop may end without peeking the next char.
+        if (abbrevDot) {
+            final boolean oneLetterAbbrev = (termLen == 2 && Char.isLetter(termBuf[0]));
+            final boolean dottedAbbrev = !oneLetterAbbrev && looksLikeDottedAbbrev(termBuf, termLen);
+            final boolean listedAbbrev =
+                    !oneLetterAbbrev
+                    && keepTrailingDot != CharArraySet.EMPTY_SET
+                    && keepTrailingDot.contains(termBuf, 0, termLen - 1);
+            if (!oneLetterAbbrev && !dottedAbbrev && !listedAbbrev) {
+                termLen--;
+                pendingChar = '.';
+                pendingCharOffset = off - 1;
+                tokenEndOff = off - 1;
+            }
+        }
 
         // Finalize token built in this call
         termAtt.setLength(termLen);
@@ -347,6 +366,30 @@ else if (nameLen == 3) {
 
         return true;
     }
+    
+    /**
+     * Heuristic: token currently ends with '.' and also contains internal dots separating short letter-only segments.
+     * Examples: "U.S.A.", "e.g.", "Ph.D.".
+     */
+    private static boolean looksLikeDottedAbbrev(final char[] buf, final int len)
+    {
+        if (len < 4 || buf[len - 1] != '.') return false; // at least "A.B."
+        int segLen = 0;
+        boolean hasInternalDot = false;
+        for (int i = 0; i < len - 1; i++) { // exclude trailing '.'
+            final char c = buf[i];
+            if (c == '.') {
+                if (segLen == 0 || segLen > 3) return false;
+                hasInternalDot = true;
+                segLen = 0;
+                continue;
+            }
+            if (!Char.isLetter(c)) return false;
+            segLen++;
+            if (segLen > 3) return false;
+        }
+        return hasInternalDot && segLen > 0 && segLen <= 3;
+    }
 
     private boolean emitPendingPunct() throws IOException
     {
 
@@ -6,6 +6,7 @@
 import java.util.List;
 
 import org.apache.lucene.analysis.CharArrayMap;
+import org.apache.lucene.analysis.CharArraySet;
 
 import com.github.oeuvres.alix.lucene.analysis.Lexicons;
 import com.github.oeuvres.alix.util.Cache;
@@ -15,6 +16,30 @@ public class FrLexicons
     private FrLexicons()
     {
     }
+    
+    public static CharArraySet getDotEndingWords(String... localFiles)
+    {
+        CharArraySet m = (CharArraySet) Cache.get(CharArraySet.class, FrLexicons.class, 
+         p -> {
+            try {
+                return dotEndingWords(p);
+            } catch (IOException e) {
+                throw new UncheckedIOException(e);
+            }
+        }, localFiles);
+        return m;
+    }
+
+    private static CharArraySet dotEndingWords(List<String> localFiles) throws IOException
+    {
+        // set ignore case
+        CharArraySet map = new CharArraySet(100, true);
+        Lexicons.fillSet(map, Lexicons.class, "/com/github/oeuvres/alix/fr/brevidot.csv", 0, ".");
+        for (String file : localFiles) {
+            Lexicons.fillSet(map, Path.of(file), 0, ".");
+        }
+        return map;
+    }
 
     static CharArrayMap<char[]> getTermMapping(String... localFiles)
     {
@@ -32,9 +57,9 @@ static CharArrayMap<char[]> getTermMapping(String... localFiles)
     private static CharArrayMap<char[]> termMapping(List<String> localFiles) throws IOException
     {
         CharArrayMap<char[]> map = new CharArrayMap<char[]>(2000, false);
-        Lexicons.fillPairs(map, Lexicons.class, "/com/github/oeuvres/alix/fr/norm.csv", false);
+        Lexicons.fillMap(map, Lexicons.class, "/com/github/oeuvres/alix/fr/norm.csv", false);
         for (String file : localFiles) {
-            Lexicons.fillPairs(map, Path.of(file), true);
+            Lexicons.fillMap(map, Path.of(file), true);
         }
         return map;
     }
Original file line number	Diff line number	Diff line change
`@@ -55,7 +55,7 @@ public AnalyzerQuery()`
`55`	`55`	`@Override`
`56`	`56`	`public TokenStreamComponents createComponents(String field)`
`57`	`57`	`{`
`58`		`- final Tokenizer tokenizer = new TokenizerML(); // segment words, keep '*'`
	`58`	`+ final Tokenizer tokenizer = new MLTokenizer(); // segment words, keep '*'`
`59`	`59`	`TokenStream result = new FilterLemmatize(tokenizer); // provide lemma+pos`
`60`	`60`	`result = new FilterFind(result); // orthographic form (not lemma) as term to index`
`61`	`61`	`result = new ASCIIFoldingFilter(result); // no accents`