wow

montyvesselinov · montyvesselinov · commit 4e368684faed · 2026-02-21T14:07:28.000-07:00
diff --git a/.gitignore b/.gitignore
@@ -7,6 +7,9 @@ node_modules/
 out/
 .vercel/
 
+# Generated content
+app/papers/papers.generated.json
+
 # Logs
 npm-debug.log*
 yarn-debug.log*
diff --git a/app/page.tsx b/app/page.tsx
@@ -210,9 +210,9 @@ export default function HomePage() {
             <Button variant="contained" href="#downloads">
               Downloads
             </Button>
-            <Button variant="outlined" href="/papers/" target="_blank" rel="noreferrer">
-              Papers folder
-            </Button>
+              <Button variant="outlined" href="/papers" target="_blank" rel="noreferrer">
+                Papers
+              </Button>
             <Button variant="outlined" href="/presentations/" target="_blank" rel="noreferrer">
               Presentations folder
             </Button>
diff --git a/app/papers/page.tsx b/app/papers/page.tsx
@@ -0,0 +1,79 @@
+"use client";
+
+import {
+  AppBar,
+  Box,
+  Container,
+  Divider,
+  Link,
+  Stack,
+  Toolbar,
+  Typography,
+} from "@mui/material";
+
+import papersIndex from "./papers.generated.json";
+
+type PaperItem = {
+  fileName: string;
+  href: string;
+  title: string;
+  authors: string | null;
+  bytes: number | null;
+  error?: string;
+};
+
+type PapersIndex = {
+  generatedAt: string;
+  items: PaperItem[];
+};
+
+const data = papersIndex as PapersIndex;
+
+export default function PapersPage() {
+  return (
+    <Box>
+      <AppBar position="sticky" color="default" elevation={0}>
+        <Toolbar>
+          <Container maxWidth="lg" sx={{ px: { xs: 0, sm: 2 } }}>
+            <Stack direction="row" alignItems="baseline" justifyContent="space-between">
+              <Typography variant="h5" component="h1">
+                Papers
+              </Typography>
+              <Link href="/" underline="hover" color="inherit">
+                Home
+              </Link>
+            </Stack>
+          </Container>
+        </Toolbar>
+      </AppBar>
+
+      <Container maxWidth="lg" sx={{ py: { xs: 4, md: 6 } }}>
+        <Typography color="text.secondary" sx={{ mb: 3 }}>
+          {data.items.length} PDFs indexed (generated {data.generatedAt}).
+        </Typography>
+
+        <Stack divider={<Divider flexItem />} spacing={2}>
+          {data.items.map((paper) => (
+            <Box key={paper.fileName} sx={{ py: 1 }}>
+              <Typography variant="h6" sx={{ mb: 0.25 }}>
+                <Link href={paper.href} target="_blank" rel="noreferrer" underline="hover">
+                  {paper.title}
+                </Link>
+              </Typography>
+              {paper.authors ? (
+                <Typography variant="body2" color="text.secondary">
+                  {paper.authors}
+                </Typography>
+              ) : null}
+              <Typography variant="caption" color="text.secondary">
+                {paper.fileName}
+                {paper.bytes ? ` · ${Math.round(paper.bytes / 1024).toLocaleString()} KB` : ""}
+                {paper.error ? " · (metadata parse failed)" : ""}
+              </Typography>
+            </Box>
+          ))}
+        </Stack>
+      </Container>
+    </Box>
+  );
+}
diff --git a/package-lock.json b/package-lock.json
diff --git a/package.json b/package.json
@@ -3,7 +3,9 @@
   "private": true,
   "version": "0.1.0",
   "scripts": {
+    "predev": "node scripts/generate-papers-index.mjs",
     "dev": "next dev",
+    "prebuild": "node scripts/generate-papers-index.mjs",
     "build": "next build",
     "start": "npx serve@latest out",
     "preview": "npx serve@latest out"
@@ -21,6 +23,7 @@
     "@types/node": "^22.0.0",
     "@types/react": "^19.0.0",
     "@types/react-dom": "^19.0.0",
+    "pdf-parse": "^1.1.1",
     "typescript": "^5.7.0"
   },
   "engines": {
diff --git a/public/papers/index.html b/public/papers/index.html
diff --git a/scripts/generate-papers-index.mjs b/scripts/generate-papers-index.mjs
@@ -0,0 +1,146 @@
+import fs from "node:fs/promises";
+import path from "node:path";
+import pdf from "pdf-parse";
+
+const repoRoot = process.cwd();
+const papersDir = path.join(repoRoot, "public", "papers");
+const outDir = path.join(repoRoot, "app", "papers");
+const outFile = path.join(outDir, "papers.generated.json");
+
+const isPdf = (fileName) => fileName.toLowerCase().endsWith(".pdf");
+
+const normalizeString = (value) => {
+  if (!value || typeof value !== "string") return null;
+  const trimmed = value.replace(/\0/g, "").trim();
+  if (!trimmed) return null;
+  if (trimmed.toLowerCase() === "untitled") return null;
+  return trimmed;
+};
+
+const titleFromFilename = (fileName) => {
+  const withoutExt = fileName.replace(/\.pdf$/i, "");
+  return withoutExt.replace(/[_-]+/g, " ").replace(/\s+/g, " ").trim();
+};
+
+const guessAuthorsFromText = (text) => {
+  if (!text || typeof text !== "string") return null;
+
+  const lines = text
+    .split(/\r?\n/)
+    .map((l) => l.trim())
+    .filter(Boolean)
+    .slice(0, 30);
+
+  for (const line of lines) {
+    const clean = line.replace(/\s+/g, " ").trim();
+    if (clean.length < 6 || clean.length > 140) continue;
+
+    const looksLikeAuthors =
+      /,/.test(clean) || /\band\b/i.test(clean) || /\bet\s+al\b/i.test(clean);
+
+    const hasLetters = /[A-Za-z]/.test(clean);
+    const hasAtLeastTwoWords = clean.split(" ").length >= 2;
+
+    if (looksLikeAuthors && hasLetters && hasAtLeastTwoWords) {
+      return clean;
+    }
+  }
+
+  return null;
+};
+
+const tryParsePdf = async (filePath) => {
+  const buffer = await fs.readFile(filePath);
+
+  // Keep it light: metadata + first page text only.
+  const data = await pdf(buffer, { max: 1 });
+
+  const title = normalizeString(data?.info?.Title) ?? normalizeString(data?.metadata?.get?.("dc:title"));
+  const author = normalizeString(data?.info?.Author) ?? normalizeString(data?.metadata?.get?.("dc:creator"));
+
+  const guessedAuthors = author ?? guessAuthorsFromText(data?.text);
+
+  return {
+    title,
+    authors: guessedAuthors,
+  };
+};
+
+const listPdfFiles = async () => {
+  const entries = await fs.readdir(papersDir, { withFileTypes: true });
+  return entries
+    .filter((e) => e.isFile())
+    .map((e) => e.name)
+    .filter((name) => isPdf(name));
+};
+
+const main = async () => {
+  let pdfFiles;
+  try {
+    pdfFiles = await listPdfFiles();
+  } catch (err) {
+    console.error(`Failed to read papers directory: ${papersDir}`);
+    console.error(err);
+    process.exitCode = 1;
+    return;
+  }
+
+  // Fast path: if the generated index is newer than every PDF, skip re-parsing.
+  try {
+    const outStat = await fs.stat(outFile);
+    let newestPdfMtimeMs = 0;
+    for (const fileName of pdfFiles) {
+      const stat = await fs.stat(path.join(papersDir, fileName));
+      newestPdfMtimeMs = Math.max(newestPdfMtimeMs, stat.mtimeMs);
+    }
+
+    if (outStat.mtimeMs >= newestPdfMtimeMs) {
+      console.log(`Papers index already up to date -> ${path.relative(repoRoot, outFile)}`);
+      return;
+    }
+  } catch {
+    // Missing output file, or stat failed: proceed to generate.
+  }
+
+  const items = [];
+  for (const fileName of pdfFiles) {
+    const filePath = path.join(papersDir, fileName);
+
+    try {
+      const stat = await fs.stat(filePath);
+      const meta = await tryParsePdf(filePath);
+
+      items.push({
+        fileName,
+        href: `/papers/${encodeURIComponent(fileName)}`,
+        title: meta.title ?? titleFromFilename(fileName),
+        authors: meta.authors,
+        bytes: stat.size,
+      });
+    } catch (err) {
+      items.push({
+        fileName,
+        href: `/papers/${encodeURIComponent(fileName)}`,
+        title: titleFromFilename(fileName),
+        authors: null,
+        bytes: null,
+        error: String(err?.message ?? err),
+      });
+    }
+  }
+
+  items.sort((a, b) => {
+    const at = (a.title ?? a.fileName).toLowerCase();
+    const bt = (b.title ?? b.fileName).toLowerCase();
+    if (at < bt) return -1;
+    if (at > bt) return 1;
+    return a.fileName.toLowerCase().localeCompare(b.fileName.toLowerCase());
+  });
+
+  await fs.mkdir(outDir, { recursive: true });
+  await fs.writeFile(outFile, JSON.stringify({ generatedAt: new Date().toISOString(), items }, null, 2) + "\n", "utf8");
+
+  console.log(`Generated ${items.length} paper entries -> ${path.relative(repoRoot, outFile)}`);
+};
+
+await main();