apache · SchwingSK · Jul 10, 2023
diff --git a/tika-core/src/main/resources/org/apache/tika/mime/tika-mimetypes.xml b/tika-core/src/main/resources/org/apache/tika/mime/tika-mimetypes.xml
@@ -755,8 +755,8 @@
     <magic priority="20">
       <!-- Low priority match for %PDF-#.# near the start of the file -->
       <!-- Can trigger false positives, so set the priority rather low here -->
-      <match value="%PDF-1." type="string" offset="1:512"/>
-      <match value="%PDF-2." type="string" offset="1:512"/>
+      <match value="%PDF-1." type="string" offset="1:768"/>
+      <match value="%PDF-2." type="string" offset="1:768"/>
     </magic>
     <glob pattern="*.pdf"/>
   </mime-type>

diff --git a/...odules/tika-parser-pdf-module/src/test/java/org/apache/tika/parser/pdf/PDFParserTest.java b/...odules/tika-parser-pdf-module/src/test/java/org/apache/tika/parser/pdf/PDFParserTest.java
@@ -140,9 +140,15 @@ public void testFontNameExtraction() throws Exception {
         assertContains("ABCDEE+Calibri", r.metadata.get(Font.FONT_NAME));
     }
 
+    @Test
+    public void testGarbageBeforeHeader() throws Exception {
+        Metadata metadata = getXML("testPDF_garbageBeforeHeader.pdf").metadata;
+        assertEquals("application/pdf", metadata.get(Metadata.CONTENT_TYPE));
+    }
+
     @Test
     public void testPdfParsingMetadataOnly() throws Exception {
-
+    
         Metadata metadata = getXML("testPDF.pdf").metadata;
         assertEquals("application/pdf", metadata.get(Metadata.CONTENT_TYPE));
         assertEquals("Bertrand Delacr\u00e9taz", metadata.get(TikaCoreProperties.CREATOR));

diff --git a/.../tika-parser-pdf-module/src/test/resources/test-documents/testPDF_garbageBeforeHeader.pdf b/.../tika-parser-pdf-module/src/test/resources/test-documents/testPDF_garbageBeforeHeader.pdf