Refactor and simplify tokenizer config to use identifiers like default: and lua:

knadh · knadh · commit ffabf1f42189 · 2025-12-15T22:48:57.000+05:30
diff --git a/config.sample.toml b/config.sample.toml
@@ -35,6 +35,8 @@ tokenizers_dir = "tokenizers"
 dicts = [["english", "english"]]
 
 
+################################################################################
+
 
 [db]
 # Maximum connections.
@@ -63,6 +65,9 @@ max_disk_mb = 512
 dir = "/tmp/dictpress-cache"
 
 
+################################################################################
+
+
 [api_results]
 # Default number of entries to return per page when paginated.
 per_page = 10
@@ -101,22 +106,16 @@ max_per_page = 100
 num_page_nums = 10
 
 
-# Tokenizer-specific configuration.
-# Passed to Lua tokenizers as `config` table.
-[tokenizer.indicphone]
-kn_num_keys = 2
-ml_num_keys = 2
-
+################################################################################
 
 [lang.english]
 name = "English"
 
-# Either 'default' or 'lua'.
-tokenizer_type = "default"
-
-# For 'default' tokenizer_type, supported = arabic, danish, dutch, english, finnish, french, german, greek, hungarian, italian, norwegian, portuguese, romanian, russian, spanish, swedish, tamil, turkish
-# For 'lua', path to the Lua script file in the tokenizers_dir, eg: malayalam.lua
-tokenizer = "english"
+# Format: "default:$lang" or "lua:filename.lua"
+# For "default", built-in languages are: simple, arabic, danish, dutch, english, finnish, french, german, greek, hungarian, italian, norwegian, portuguese, romanian, russian, spanish, swedish, tamil, turkish
+# Example: "default:english"
+# For 'lua': path to a Lua script in tokenizers_dir, eg: "lua:malayalam.lua"
+tokenizer = "default:english"
 
 [lang.english.types]
 noun = "Noun"
diff --git a/src/importer.rs b/src/importer.rs
@@ -6,7 +6,7 @@ use sqlx::Row;
 use crate::{
     db,
     models::{LangMap, STATUS_ENABLED},
-    tokenizer::Tokenizers,
+    tokenizer::{parse_tokenizer_field, Tokenizers},
 };
 
 const INSERT_BATCH_SIZE: usize = 5000;
@@ -358,25 +358,3 @@ fn split_string(s: &str) -> Vec<String> {
         .filter(|s| !s.is_empty())
         .collect()
 }
-
-/// Parse tokenizer field and return the tokenizer name for lookup.
-fn parse_tokenizer_field(tokenizer: &str) -> Option<String> {
-    if tokenizer.is_empty() {
-        return None;
-    }
-
-    if let Some(name) = tokenizer.strip_prefix("default:") {
-        // default:english -> "english"
-        Some(name.to_string())
-    } else if let Some(filename) = tokenizer.strip_prefix("lua:") {
-        // lua:indicphone_kn.lua -> "indicphone_kn.lua"
-        Some(filename.to_string())
-    } else {
-        // Unknown format.
-        log::warn!(
-            "unknown tokenizer format '{}'. expected 'default:name' or 'lua:filename.lua'",
-            tokenizer
-        );
-        None
-    }
-}
diff --git a/src/init.rs b/src/init.rs
@@ -1,8 +1,6 @@
-use std::path::Path;
-
 use crate::cache::{Cache, CacheConfig, CacheError};
-use crate::models::{Config, Dicts, Lang, LangMap};
-use crate::tokenizer::{TokenizerError, Tokenizers};
+use crate::models::{Config, Dicts, Lang, LangMap, DEFAULT_TOKENIZER};
+use crate::tokenizer::Tokenizers;
 
 /// Initialize logger.
 pub fn logger() {
@@ -29,27 +27,38 @@ pub fn logger() {
         .init();
 }
 
-/// Initialize languages from config.
-pub fn langs(config: &Config) -> LangMap {
+/// Initialize languages from config, validating tokenizers against loaded tokenizers.
+pub fn langs(config: &Config, tokenizers: &Tokenizers) -> LangMap {
     let mut langs = LangMap::new();
 
     for (id, cfg) in &config.lang {
-        // Validate tokenizer_type.
-        let typ = if cfg.tokenizer_type.is_empty() {
-            "default".to_string()
+        let tokenizer = if cfg.tokenizer.is_empty() {
+            // If the tokenizer is not specified, use default.
+            DEFAULT_TOKENIZER.to_string()
+        } else if (!cfg.tokenizer.starts_with("default:")) && (!cfg.tokenizer.starts_with("lua:")) {
+            // Tokenizer name must start with "default:" or "lua:".
+            log::error!(
+                "invalid tokenizer format '{}' for language '{}'. defaulting to '{}'",
+                cfg.tokenizer,
+                id,
+                DEFAULT_TOKENIZER
+            );
+            DEFAULT_TOKENIZER.to_string()
+        } else if tokenizers.contains_key(&cfg.tokenizer) {
+            // Yep, it's valid.
+            cfg.tokenizer.clone()
         } else {
-            cfg.tokenizer_type.clone()
-        };
-
-        if typ != "default" && typ != "lua" {
+            // Unknown tokenizer.
             log::error!(
-                "unknown tokenizer_type '{}' for language '{}'. Must be 'default' or 'lua'.",
-                typ,
-                id
+                "tokenizer '{}' not found for language '{}'. defaulting to '{}'",
+                cfg.tokenizer,
+                id,
+                DEFAULT_TOKENIZER
             );
-            std::process::exit(1);
-        }
+            DEFAULT_TOKENIZER.to_string()
+        };
 
+        // Create the language instance.
         let lang = Lang {
             id: id.clone(),
             name: if cfg.name.is_empty() {
@@ -58,20 +67,10 @@ pub fn langs(config: &Config) -> LangMap {
                 cfg.name.clone()
             },
             types: cfg.types.clone(),
-            tokenizer: if cfg.tokenizer.is_empty() {
-                "simple".to_string()
-            } else {
-                cfg.tokenizer.clone()
-            },
-            tokenizer_type: typ,
+            tokenizer: tokenizer.clone(),
         };
 
-        log::info!(
-            "language: {} (tokenizer: {}, type: {})",
-            id,
-            lang.tokenizer,
-            lang.tokenizer_type
-        );
+        log::info!("language: {} (tokenizer: {})", id, tokenizer);
 
         langs.insert(id.clone(), lang);
     }
@@ -171,11 +170,6 @@ pub fn i18n(
     Ok(i18n)
 }
 
-/// Initialize lua tokenizers from a given directory.
-pub fn tokenizers(dir: &str) -> Result<Tokenizers, TokenizerError> {
-    crate::tokenizer::load_all(Path::new(dir))
-}
-
 /// Initialize cache from configuration.
 pub async fn cache(cfg: &CacheConfig) -> Result<Cache, CacheError> {
     log::info!(
diff --git a/src/main.rs b/src/main.rs
@@ -16,7 +16,7 @@ mod tokenizer;
 #[global_allocator]
 static GLOBAL: mimalloc::MiMalloc = mimalloc::MiMalloc;
 
-use std::sync::Arc;
+use std::{path::Path, sync::Arc};
 
 use clap::Parser;
 
@@ -79,16 +79,19 @@ async fn main() {
                 db::exists(&cli.db_path);
 
                 let config = config::load_all(&cli.config);
-                let langs = init::langs(&config);
 
-                let tokenizers = match init::tokenizers(&config.app.tokenizers_dir) {
+                // Load tokenizers first for validation.
+                let tokenizers = match tokenizer::load_all(Path::new(&config.app.tokenizers_dir)) {
                     Ok(t) => t,
                     Err(e) => {
                         log::error!("error loading tokenizers: {}", e);
                         std::process::exit(1);
                     }
                 };
 
+                // Load languages with tokenizer validation.
+                let langs = init::langs(&config, &tokenizers);
+
                 if let Err(e) = importer::import_csv(&file, &db_path, &tokenizers, langs).await {
                     log::error!("error importing: {}", e);
                     std::process::exit(1);
@@ -136,8 +139,17 @@ async fn main() {
     // Load config.
     let config = config::load_all(&cli.config);
 
-    // Initialize languages and dicts config.
-    let langs = init::langs(&config);
+    // Initialize tokenizers first for validation.
+    let tokenizers = match tokenizer::load_all(Path::new(&config.app.tokenizers_dir)) {
+        Ok(t) => t,
+        Err(e) => {
+            log::error!("error loading tokenizers: {}", e);
+            std::process::exit(1);
+        }
+    };
+
+    // Initialize languages with tokenizer validation.
+    let langs = init::langs(&config, &tokenizers);
     let dicts = init::dicts(&langs, &config);
 
     // Create database pool.
@@ -192,15 +204,6 @@ async fn main() {
         std::collections::HashMap::new()
     };
 
-    // Initialize tokenizers.
-    let tokenizers = match init::tokenizers(&config.app.tokenizers_dir) {
-        Ok(t) => t,
-        Err(e) => {
-            log::error!("error loading tokenizers: {}", e);
-            std::process::exit(1);
-        }
-    };
-
     // Initialize manager.
     let mgr = match Manager::new(db, tokenizers, langs.clone(), dicts.clone()).await {
         Ok(m) => Arc::new(m),
diff --git a/src/models/models.rs b/src/models/models.rs
@@ -16,6 +16,9 @@ pub const STATUS_ENABLED: &str = "enabled";
 #[allow(dead_code)]
 pub const STATUS_DISABLED: &str = "disabled";
 
+/// Default tokenizer used when none specified or when configured tokenizer is invalid.
+pub const DEFAULT_TOKENIZER: &str = "default:simple";
+
 /// JSON array wrapper for SQLite TEXT columns storing JSON arrays.
 #[derive(Debug, Clone, Default, Serialize, Deserialize)]
 pub struct StringArray(pub Vec<String>);
@@ -347,9 +350,6 @@ pub struct Lang {
 
     #[serde(default)]
     pub tokenizer: String,
-
-    #[serde(default)]
-    pub tokenizer_type: String,
 }
 
 pub type LangMap = HashMap<String, Lang>;
@@ -534,9 +534,6 @@ pub struct LangConfig {
     #[serde(default)]
     pub tokenizer: String,
 
-    #[serde(default)]
-    pub tokenizer_type: String,
-
     #[serde(default)]
     pub types: HashMap<String, String>,
 }
diff --git a/src/tokenizer/mod.rs b/src/tokenizer/mod.rs
@@ -5,6 +5,8 @@ pub use lua::LuaTokenizer;
 use rust_stemmers::{Algorithm, Stemmer};
 use std::{collections::HashMap, path::Path, sync::Arc};
 
+use crate::models::DEFAULT_TOKENIZER;
+
 /// Tokenizer trait for converting text to searchable tokens.
 pub trait Tokenizer: Send + Sync {
     /// Convert text to tokens for indexing.
@@ -68,12 +70,13 @@ impl Tokenizer for DefaultTokenizer {
 
 pub type Tokenizers = HashMap<String, Arc<dyn Tokenizer>>;
 
-/// Load tokenizers from directory. Each .lua file becomes a tokenizer.
+/// Load all tokenizers into a map, the default bundled ones and the Lua
+/// ones from the given directory. Each .lua file becomes a tokenizer.
 pub fn load_all(dir: &Path) -> Result<Tokenizers, TokenizerError> {
     let mut out: Tokenizers = HashMap::new();
 
     // Always include the simple tokenizer.
-    out.insert("simple".to_string(), Arc::new(SimpleTokenizer));
+    out.insert(DEFAULT_TOKENIZER.to_string(), Arc::new(SimpleTokenizer));
 
     // Add built-in default stemmers.
     let default_stemmers = [
@@ -97,7 +100,10 @@ pub fn load_all(dir: &Path) -> Result<Tokenizers, TokenizerError> {
         ("turkish", Algorithm::Turkish),
     ];
     for (name, algorithm) in default_stemmers {
-        out.insert(name.to_string(), Arc::new(DefaultTokenizer::new(algorithm)));
+        out.insert(
+            format!("default:{}", name),
+            Arc::new(DefaultTokenizer::new(algorithm)),
+        );
     }
 
     // If no dir has been specified, skip loading from disk.
@@ -156,8 +162,28 @@ pub fn load_all(dir: &Path) -> Result<Tokenizers, TokenizerError> {
         }
 
         log::info!("loaded '{}'", fname);
-        out.insert(name, Arc::new(tk));
+        out.insert(format!("lua:{}", name), Arc::new(tk));
     }
 
     Ok(out)
 }
+
+/// Parse and validate tokenizer field in format "default:name" or "lua:filename.lua".
+/// Returns the validated tokenizer string for lookup in the tokenizers map.
+pub fn parse_tokenizer_field(tokenizer: &str) -> Option<String> {
+    if tokenizer.is_empty() {
+        return None;
+    }
+
+    if tokenizer.starts_with("default:") && tokenizer.len() > 8 {
+        Some(tokenizer.to_string())
+    } else if tokenizer.starts_with("lua:") && tokenizer.len() > 4 {
+        Some(tokenizer.to_string())
+    } else {
+        log::warn!(
+            "unknown tokenizer format '{}'. expected 'default:name' or 'lua:filename.lua'",
+            tokenizer
+        );
+        None
+    }
+}