castorini
diff --git a/‎src/main/java/io/anserini/search/SearchCollection.java‎
Lines changed: 1 addition & 1 deletion b/‎src/main/java/io/anserini/search/SearchCollection.java‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎src/main/java/io/anserini/search/SimpleImpactSearcher.java‎
Lines changed: 3 additions & 2 deletions b/‎src/main/java/io/anserini/search/SimpleImpactSearcher.java‎
Lines changed: 3 additions & 2 deletions
diff --git a/‎src/main/java/io/anserini/search/SimpleSearcher.java‎
Lines changed: 2 additions & 1 deletion b/‎src/main/java/io/anserini/search/SimpleSearcher.java‎
Lines changed: 2 additions & 1 deletion
diff --git a/‎src/test/java/io/anserini/collection/FineWebCollectionTest.java‎
Lines changed: 37 additions & 2 deletions b/‎src/test/java/io/anserini/collection/FineWebCollectionTest.java‎
Lines changed: 37 additions & 2 deletions
diff --git a/‎src/test/java/io/anserini/integration/AclAnthologyEndToEndTest.java‎
Lines changed: 3 additions & 3 deletions b/‎src/test/java/io/anserini/integration/AclAnthologyEndToEndTest.java‎
Lines changed: 3 additions & 3 deletions
diff --git a/‎src/test/java/io/anserini/integration/BibtexEndToEndTest.java‎
Lines changed: 4 additions & 4 deletions b/‎src/test/java/io/anserini/integration/BibtexEndToEndTest.java‎
Lines changed: 4 additions & 4 deletions
diff --git a/‎src/test/java/io/anserini/integration/C4EndToEndTest.java‎
Lines changed: 3 additions & 3 deletions b/‎src/test/java/io/anserini/integration/C4EndToEndTest.java‎
Lines changed: 3 additions & 3 deletions
diff --git a/‎src/test/java/io/anserini/integration/CoreEndToEndTest.java‎
Lines changed: 5 additions & 5 deletions b/‎src/test/java/io/anserini/integration/CoreEndToEndTest.java‎
Lines changed: 5 additions & 5 deletions
diff --git a/‎src/test/java/io/anserini/integration/EndToEndTest.java‎
Lines changed: 5 additions & 0 deletions b/‎src/test/java/io/anserini/integration/EndToEndTest.java‎
Lines changed: 5 additions & 0 deletions
diff --git a/‎src/test/java/io/anserini/integration/FineWebEndToEndTest.java‎
Lines changed: 24 additions & 10 deletions b/‎src/test/java/io/anserini/integration/FineWebEndToEndTest.java‎
Lines changed: 24 additions & 10 deletions
@@ -1071,7 +1071,7 @@ public SearchCollection(Args args) throws IOException {
     // Fix for index compatibility issue between Lucene 8 and 9: https://github.com/castorini/anserini/issues/1952
     // If we detect an older index version, we turn off consistent tie-breaking, which avoids accessing docvalues,
     // which is the source of the incompatibility.
-    if (!reader.toString().contains("lucene.version=9")) {
+    if (!reader.toString().contains("lucene.version=9") && !reader.toString().contains("lucene.version=10")) {
       args.arbitraryScoreTieBreak = true;
       args.axiom_deterministic = false;
     }
 
@@ -135,7 +135,8 @@ public SimpleImpactSearcher(String indexDir, Analyzer analyzer) throws IOExcepti
     // Fix for index compatibility issue between Lucene 8 and 9: https://github.com/castorini/anserini/issues/1952
     // If we detect an older index version, we turn off consistent tie-breaking, which avoids accessing docvalues,
     // which is the source of the incompatibility.
-    this.backwardsCompatibilityLucene8 = !reader.toString().contains("lucene.version=9");
+    this.backwardsCompatibilityLucene8 = !reader.toString().contains("lucene.version=9")
+        && !reader.toString().contains("lucene.version=10");
 
     // Default to using ImpactSimilarity.
     this.similarity = new ImpactSimilarity();
@@ -725,4 +726,4 @@ public String doc_raw(String docid) {
     return IndexReaderUtils.documentRaw(reader, docid);
   }
 }
-  
+  
@@ -134,7 +134,8 @@ public SimpleSearcher(String indexDir, Analyzer analyzer) throws IOException {
     // Fix for index compatibility issue between Lucene 8 and 9: https://github.com/castorini/anserini/issues/1952
     // If we detect an older index version, we turn off consistent tie-breaking, which avoids accessing docvalues,
     // which is the source of the incompatibility.
-    this.backwardsCompatibilityLucene8 = !reader.toString().contains("lucene.version=9");
+    this.backwardsCompatibilityLucene8 = !reader.toString().contains("lucene.version=9")
+        && !reader.toString().contains("lucene.version=10");
 
     // Default to using BM25.
     this.similarity = new BM25Similarity(Float.parseFloat(defaults.bm25_k1[0]), Float.parseFloat(defaults.bm25_b[0]));
 
@@ -192,10 +192,11 @@ public void testReadStandardParquetFile() throws IOException {
     }
 
     // Verify we read 3 documents
-    assertEquals("Should read 2 documents from parquet file", 2, docs.size());
+    assertEquals("Should read 3 documents from parquet file", 3, docs.size());
 
     // Verify document IDs
     assertTrue("Should contain fineweb-doc-001", docContents.containsKey("fineweb-doc-001"));
+    assertTrue("Should contain fineweb-doc-002", docContents.containsKey("fineweb-doc-002"));
     assertTrue("Should contain fineweb-doc-003", docContents.containsKey("fineweb-doc-003"));
 
     // Verify content of first document
@@ -249,6 +250,40 @@ public void testReadParquetWithAlternativeFieldNames() throws IOException {
     assertEquals("crawl", docs.get(1).fields().get("source"));
   }
 
+  @Test
+  public void testReadParquetWithAutoGeneratedIds() throws IOException {
+    // This parquet file has no ID field - IDs should be auto-generated
+    Path parquetPath = Paths.get("src/test/resources/sample_docs/fineweb/fineweb_no_id.parquet");
+    FineWebCollection collection = new FineWebCollection(parquetPath);
+
+    List<FineWebCollection.Document> docs = new ArrayList<>();
+    for (FileSegment<FineWebCollection.Document> segment : collection) {
+      for (FineWebCollection.Document doc : segment) {
+        docs.add(doc);
+      }
+    }
+
+    // Verify we read 3 documents
+    assertEquals("Should read 3 documents from parquet file", 3, docs.size());
+
+    // All IDs should be auto-generated in format: filename_rownum
+    for (int i = 0; i < docs.size(); i++) {
+      String expectedIdPrefix = "fineweb_no_id_";
+      assertTrue(
+          "Auto-generated ID should start with '" + expectedIdPrefix + "', got: " + docs.get(i).id(),
+          docs.get(i).id().startsWith(expectedIdPrefix));
+    }
+
+    // Verify contents are still readable
+    assertTrue(docs.get(0).contents().contains("auto-generate"));
+    assertTrue(docs.get(1).contents().contains("auto-generated ID"));
+
+    // Verify metadata (domain field)
+    assertEquals("example.com", docs.get(0).fields().get("domain"));
+    assertEquals("test.org", docs.get(1).fields().get("domain"));
+    assertEquals("sample.net", docs.get(2).fields().get("domain"));
+  }
+
   @Test
   public void testCollectionIteration() throws IOException {
     // Test that we can iterate through all segments properly
@@ -272,7 +307,7 @@ public void testCollectionIteration() throws IOException {
     }
 
     assertEquals("Should have 1 segment (1 parquet file)", 1, segmentCount);
-    assertEquals("Should have 2 documents total", 2, totalDocCount);
+    assertEquals("Should have 3 documents total", 3, totalDocCount);
   }
 
   @Test
 
@@ -86,8 +86,8 @@ protected void setSearchGroundTruth() {
 
     testQueries.put("bm25", createDefaultSearchArgs().bm25());
     referenceRunOutput.put("bm25", new String[]{
-        "1 Q0 C00-1007 1 0.293992 Anserini",
-        "1 Q0 E17-1003 2 0.186060 Anserini",
-        "2 Q0 C00-1003 1 0.622663 Anserini"});
+        "1 Q0 C00-1007 1 0.294000 Anserini",
+        "1 Q0 E17-1003 2 0.186100 Anserini",
+        "2 Q0 C00-1003 1 0.622700 Anserini"});
   }
 }
@@ -64,9 +64,9 @@ protected void setSearchGroundTruth() {
 
     testQueries.put("bm25", createDefaultSearchArgs().bm25());
     referenceRunOutput.put("bm25", new String[]{
-        "1 Q0 article-id 1 0.073774 Anserini",
-        "1 Q0 proceedings-id 2 0.073774 Anserini",
-        "1 Q0 inproceedings-id 3 0.064198 Anserini",
-        "2 Q0 inproceedings-id 1 0.471553 Anserini"});
+        "1 Q0 article-id 1 0.073800 Anserini",
+        "1 Q0 proceedings-id 2 0.073799 Anserini",
+        "1 Q0 inproceedings-id 3 0.064200 Anserini",
+        "2 Q0 inproceedings-id 1 0.471600 Anserini"});
   }
 }
@@ -16,12 +16,12 @@
 
 package io.anserini.integration;
 
-import java.util.Map;
-
 import io.anserini.collection.C4Collection;
 import io.anserini.index.IndexCollection;
 import io.anserini.index.generator.C4Generator;
 
+import java.util.Map;
+
 public class C4EndToEndTest extends EndToEndTest {
   @Override
   protected IndexCollection.Args getIndexArgs() {
@@ -71,6 +71,6 @@ protected void setSearchGroundTruth() {
 
     testQueries.put("bm25", createDefaultSearchArgs().bm25());
     referenceRunOutput.put("bm25", new String[]{
-            "1 Q0 c4-0001-000000 1 0.364814 Anserini"});
+            "1 Q0 c4-0001-000000 1 0.364800 Anserini"});
   }
 }
@@ -74,10 +74,10 @@ protected void setSearchGroundTruth() {
 
     testQueries.put("bm25", createDefaultSearchArgs().bm25());
     referenceRunOutput.put("bm25", new String[]{
-        "1 Q0 coreDoc1 1 0.243182 Anserini",
-        "1 Q0 doi2 2 0.243182 Anserini",
-        "2 Q0 coreDoc1 1 0.243182 Anserini",
-        "2 Q0 doi2 2 0.243182 Anserini",
-        "3 Q0 fullCoreDoc 1 0.534644 Anserini"});
+        "1 Q0 coreDoc1 1 0.243200 Anserini",
+        "1 Q0 doi2 2 0.243199 Anserini",
+        "2 Q0 coreDoc1 1 0.243200 Anserini",
+        "2 Q0 doi2 2 0.243199 Anserini",
+        "3 Q0 fullCoreDoc 1 0.534600 Anserini"});
   }
 }
@@ -252,14 +252,19 @@ public void checkIndex() throws IOException {
     assertTrue(seg.openReaderPassed);
 
     assertNotNull(seg.diagnostics);
+
     assertNotNull(seg.fieldNormStatus);
     assertNull(seg.fieldNormStatus.error);
     assertEquals(this.fieldNormStatusTotalFields, seg.fieldNormStatus.totFields);
 
+    assertNotNull(seg.termIndexStatus);
+    assertNull(seg.termIndexStatus.error);
     assertEquals(this.termIndexStatusTermCount, seg.termIndexStatus.termCount);
     assertEquals(this.termIndexStatusTotFreq, seg.termIndexStatus.totFreq);
     assertEquals(this.termIndexStatusTotPos, seg.termIndexStatus.totPos);
 
+    assertNotNull(seg.storedFieldStatus);
+    assertNull(seg.storedFieldStatus.error);
     assertEquals(this.storedFieldStatusTotalDocCounts, seg.storedFieldStatus.docCount);
     assertEquals(this.storedFieldStatusTotFields, seg.storedFieldStatus.totFields);
 
 
@@ -34,12 +34,14 @@ protected IndexCollection.Args getIndexArgs() {
 
   @Override
   protected void setCheckIndexGroundTruth() {
-    docCount = 4;
+    docCount = 8;
     docFieldCount = -1; // Variable field counts across documents
 
     // Documents from fineweb_standard.parquet
     referenceDocs.put("fineweb-doc-001", Map.of(
         "contents", "This is the first test document for FineWeb collection testing."));
+    referenceDocs.put("fineweb-doc-002", Map.of(
+        "contents", "Second document contains different content for verification."));
     referenceDocs.put("fineweb-doc-003", Map.of(
         "contents", "Third document with special characters: café, naïve, 日本語."));
 
@@ -49,12 +51,20 @@ protected void setCheckIndexGroundTruth() {
     referenceDocs.put("alt-doc-002", Map.of(
         "contents", "Another document with docid field instead of id."));
 
+    // Documents from fineweb_no_id.parquet (auto-generated IDs)
+    referenceDocs.put("fineweb_no_id_0", Map.of(
+        "contents", "Document without an ID field - should auto-generate."));
+    referenceDocs.put("fineweb_no_id_1", Map.of(
+        "contents", "Another document that needs an auto-generated ID."));
+    referenceDocs.put("fineweb_no_id_2", Map.of(
+        "contents", "Third document also missing ID field."));
+
     fieldNormStatusTotalFields = 1;
-    termIndexStatusTermCount = 26;
-    termIndexStatusTotFreq = 31;
-    storedFieldStatusTotalDocCounts = 4;
-    termIndexStatusTotPos = 32;
-    storedFieldStatusTotFields = 12;
+    termIndexStatusTermCount = 41;
+    termIndexStatusTotFreq = 60;
+    storedFieldStatusTotalDocCounts = 8;
+    termIndexStatusTotPos = 61;
+    storedFieldStatusTotFields = 24;
   }
 
   @Override
@@ -64,9 +74,13 @@ protected void setSearchGroundTruth() {
 
     testQueries.put("bm25", createDefaultSearchArgs().bm25());
     referenceRunOutput.put("bm25", new String[]{
-        "1 Q0 fineweb-doc-001 1 2.204911 Anserini",
-        "1 Q0 alt-doc-002 2 0.056996 Anserini",
-        "1 Q0 alt-doc-001 3 0.055453 Anserini",
-        "1 Q0 fineweb-doc-003 4 0.052605 Anserini"});
+        "1 Q0 fineweb-doc-001 1 3.201400 Anserini",
+        "1 Q0 alt-doc-002 2 0.030600 Anserini",
+        "1 Q0 fineweb-doc-002 3 0.030599 Anserini",
+        "1 Q0 fineweb_no_id_1 4 0.030598 Anserini",
+        "1 Q0 fineweb_no_id_2 5 0.030597 Anserini",
+        "1 Q0 alt-doc-001 6 0.029800 Anserini",
+        "1 Q0 fineweb_no_id_0 7 0.029799 Anserini",
+        "1 Q0 fineweb-doc-003 8 0.028200 Anserini"});
   }
 }
Original file line number	Diff line number	Diff line change
`@@ -1071,7 +1071,7 @@ public SearchCollection(Args args) throws IOException {`
`1071`	`1071`	`// Fix for index compatibility issue between Lucene 8 and 9: https://github.com/castorini/anserini/issues/1952`
`1072`	`1072`	`// If we detect an older index version, we turn off consistent tie-breaking, which avoids accessing docvalues,`
`1073`	`1073`	`// which is the source of the incompatibility.`
`1074`		`- if (!reader.toString().contains("lucene.version=9")) {`
	`1074`	`+ if (!reader.toString().contains("lucene.version=9") && !reader.toString().contains("lucene.version=10")) {`
`1075`	`1075`	`args.arbitraryScoreTieBreak = true;`
`1076`	`1076`	`args.axiom_deterministic = false;`
`1077`	`1077`	`}`
Original file line number	Diff line number	Diff line change
`@@ -135,7 +135,8 @@ public SimpleImpactSearcher(String indexDir, Analyzer analyzer) throws IOExcepti`
`135`	`135`	`// Fix for index compatibility issue between Lucene 8 and 9: https://github.com/castorini/anserini/issues/1952`
`136`	`136`	`// If we detect an older index version, we turn off consistent tie-breaking, which avoids accessing docvalues,`
`137`	`137`	`// which is the source of the incompatibility.`
`138`		`- this.backwardsCompatibilityLucene8 = !reader.toString().contains("lucene.version=9");`
	`138`	`+ this.backwardsCompatibilityLucene8 = !reader.toString().contains("lucene.version=9")`
	`139`	`+ && !reader.toString().contains("lucene.version=10");`
`139`	`140`
`140`	`141`	`// Default to using ImpactSimilarity.`
`141`	`142`	`this.similarity = new ImpactSimilarity();`
`@@ -725,4 +726,4 @@ public String doc_raw(String docid) {`
`725`	`726`	`return IndexReaderUtils.documentRaw(reader, docid);`
`726`	`727`	`}`
`727`	`728`	`}`
`728`		`-`
	`729`	`+`
Original file line number	Diff line number	Diff line change
`@@ -86,8 +86,8 @@ protected void setSearchGroundTruth() {`
`86`	`86`
`87`	`87`	`testQueries.put("bm25", createDefaultSearchArgs().bm25());`
`88`	`88`	`referenceRunOutput.put("bm25", new String[]{`
`89`		`- "1 Q0 C00-1007 1 0.293992 Anserini",`
`90`		`- "1 Q0 E17-1003 2 0.186060 Anserini",`
`91`		`- "2 Q0 C00-1003 1 0.622663 Anserini"});`
	`89`	`+ "1 Q0 C00-1007 1 0.294000 Anserini",`
	`90`	`+ "1 Q0 E17-1003 2 0.186100 Anserini",`
	`91`	`+ "2 Q0 C00-1003 1 0.622700 Anserini"});`
`92`	`92`	`}`
`93`	`93`	`}`
Original file line number	Diff line number	Diff line change
`@@ -64,9 +64,9 @@ protected void setSearchGroundTruth() {`
`64`	`64`
`65`	`65`	`testQueries.put("bm25", createDefaultSearchArgs().bm25());`
`66`	`66`	`referenceRunOutput.put("bm25", new String[]{`
`67`		`- "1 Q0 article-id 1 0.073774 Anserini",`
`68`		`- "1 Q0 proceedings-id 2 0.073774 Anserini",`
`69`		`- "1 Q0 inproceedings-id 3 0.064198 Anserini",`
`70`		`- "2 Q0 inproceedings-id 1 0.471553 Anserini"});`
	`67`	`+ "1 Q0 article-id 1 0.073800 Anserini",`
	`68`	`+ "1 Q0 proceedings-id 2 0.073799 Anserini",`
	`69`	`+ "1 Q0 inproceedings-id 3 0.064200 Anserini",`
	`70`	`+ "2 Q0 inproceedings-id 1 0.471600 Anserini"});`
`71`	`71`	`}`
`72`	`72`	`}`