grafana · ivkalita · Dec 10, 2025 · benclive · Dec 11, 2025 · ivkalita
@@ -339,6 +339,10 @@ query_engine:
     # CLI flag: -query-engine.range-reads.min-range-size
     [min_range_size: <int> | default = 1048576]
 
+  # Experimental: Enable ahead of time catalog lookups.
+  # CLI flag: -query-engine.ahead-of-time-catalog-lookups-enabled
+  [ahead_of_time_catalog_lookups_enabled: <boolean> | default = false]
+
   # Experimental: Number of worker threads to spawn. Each worker thread runs one
   # task at a time. 0 means to use GOMAXPROCS value.
   # CLI flag: -query-engine.worker-threads

@@ -58,12 +58,16 @@ type ExecutorConfig struct {
 
 	// RangeConfig determines how to optimize range reads in the V2 engine.
 	RangeConfig rangeio.Config `yaml:"range_reads" category:"experimental" doc:"description=Configures how to read byte ranges from object storage when using the V2 engine."`
+
+	// AheadOfTimeCatalogLookupsEnabled enables ahead of time catalog lookups
+	AheadOfTimeCatalogLookupsEnabled bool `yaml:"ahead_of_time_catalog_lookups_enabled" category:"experimental"`
 }
 
 func (cfg *ExecutorConfig) RegisterFlagsWithPrefix(prefix string, f *flag.FlagSet) {
 	f.IntVar(&cfg.BatchSize, prefix+"batch-size", 100, "Experimental: Batch size of the next generation query engine.")
 	f.IntVar(&cfg.MergePrefetchCount, prefix+"merge-prefetch-count", 0, "Experimental: The number of inputs that are prefetched simultaneously by any Merge node. A value of 0 means that only the currently processed input is prefetched, 1 means that only the next input is prefetched, and so on. A negative value means that all inputs are be prefetched in parallel.")
 	cfg.RangeConfig.RegisterFlags(prefix+"range-reads.", f)
+	f.BoolVar(&cfg.AheadOfTimeCatalogLookupsEnabled, prefix+"ahead-of-time-catalog-lookups-enabled", false, "Experimental: Enable ahead of time catalog lookups.")
 }
 
 // Params holds parameters for constructing a new [Engine].
@@ -106,7 +110,8 @@ type Engine struct {
 	bucket    objstore.Bucket // Bucket to read stored data from.
 	limits    logql.Limits    // Limits to apply to engine queries.
 
-	metastore metastore.Metastore
+	metastore                        metastore.Metastore
+	aheadOfTimeCatalogLookupsEnabled bool
 }
 
 // New creates a new Engine.
@@ -120,9 +125,10 @@ func New(params Params) (*Engine, error) {
 		metrics:     newMetrics(params.Registerer),
 		rangeConfig: params.Config.RangeConfig,
 
-		scheduler: params.Scheduler,
-		bucket:    bucket.NewXCapBucket(params.Bucket),
-		limits:    params.Limits,
+		scheduler:                        params.Scheduler,
+		bucket:                           bucket.NewXCapBucket(params.Bucket),
+		limits:                           params.Limits,
+		aheadOfTimeCatalogLookupsEnabled: params.Config.AheadOfTimeCatalogLookupsEnabled,
 	}
 
 	if e.bucket != nil {
@@ -305,9 +311,12 @@ func (e *Engine) buildPhysicalPlan(ctx context.Context, logger log.Logger, param
 	region := xcap.RegionFromContext(ctx)
 	timer := prometheus.NewTimer(e.metrics.physicalPlanning)
 
-	// TODO(rfratto): To improve the performance of the physical planner, we
-	// may want to parallelize metastore lookups across scheduled tasks as well.
-	catalog := physical.NewMetastoreCatalog(ctx, e.metastore)
+	catalog, err := e.prepareCatalog(ctx, params, logicalPlan)
+	if err != nil {
+		level.Warn(logger).Log("msg", "failed to prepare catalog", "err", err)
+		region.RecordError(err)
+		return nil, 0, ErrPlanningFailed
+	}
 
 	// TODO(rfratto): It feels strange that we need to past the start/end time
 	// to the physical planner. Isn't it already represented by the logical
@@ -341,6 +350,43 @@ func (e *Engine) buildPhysicalPlan(ctx context.Context, logger log.Logger, param
 	return physicalPlan, duration, nil
 }
 
+func (e *Engine) prepareCatalog(ctx context.Context, params logql.Params, logicalPlan *logical.Plan) (physical.Catalog, error) {
+	start := time.Now()
+	metastoreCatalog := physical.NewMetastoreCatalog(ctx, e.metastore)
+
+	if !e.aheadOfTimeCatalogLookupsEnabled {
+		return metastoreCatalog, nil
+	}
+
+	unresolved := physical.NewUnresolvedCatalog()
+	collectorPlanner := physical.NewPlanner(physical.NewContext(params.Start(), params.End()), unresolved)
+	if _, err := collectorPlanner.Build(logicalPlan); err != nil {
+		return nil, fmt.Errorf("collecting catalog requests: %w", err)
+	}
+
+	resolved, err := unresolved.Resolve(func(req physical.CatalogRequest) (physical.CatalogResponse, error) {
+		switch req.Kind {
+		case physical.CatalogRequestKindResolveShardDescriptorsWithShard:
+			descriptors, err := metastoreCatalog.ResolveShardDescriptorsWithShard(req.Selector, req.Predicates, req.Shard, req.From, req.Through)
+			if err != nil {
+				return physical.CatalogResponse{}, err
+			}
+			return physical.CatalogResponse{
+				Kind:        physical.CatalogRequestKindResolveShardDescriptorsWithShard,
+				Descriptors: descriptors,
+			}, nil
+		default:
+			return physical.CatalogResponse{}, fmt.Errorf("unsupported catalog request kind: %v", req.Kind)
+		}
+	})
+	if err != nil {
+		return nil, fmt.Errorf("resolving catalog: %w", err)
+	}
+
+	level.Info(e.logger).Log("msg", "finished catalog lookups", "duration", time.Since(start).String(), "requests", unresolved.RequestsCount())
+	return resolved, nil
+}
+
 // buildWorkflow builds a workflow from the given physical plan.
 func (e *Engine) buildWorkflow(ctx context.Context, logger log.Logger, physicalPlan *physical.Plan) (*workflow.Workflow, time.Duration, error) {
 	tenantID, err := user.ExtractOrgID(ctx)