creative-graphic-design
diff --git a/‎Makefile‎
Lines changed: 1 addition & 0 deletions b/‎Makefile‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎examples/poster_layout.py‎
Lines changed: 42 additions & 7 deletions b/‎examples/poster_layout.py‎
Lines changed: 42 additions & 7 deletions
diff --git a/‎pyproject.toml‎
Lines changed: 2 additions & 1 deletion b/‎pyproject.toml‎
Lines changed: 2 additions & 1 deletion
diff --git a/‎src/layout_prompter/datasets/__init__.py‎
Lines changed: 3 additions & 2 deletions b/‎src/layout_prompter/datasets/__init__.py‎
Lines changed: 3 additions & 2 deletions
diff --git a/‎src/layout_prompter/datasets/poster_layout.py‎
Lines changed: 1 addition & 1 deletion b/‎src/layout_prompter/datasets/poster_layout.py‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎src/layout_prompter/datasets/rico.py‎
Lines changed: 120 additions & 2 deletions b/‎src/layout_prompter/datasets/rico.py‎
Lines changed: 120 additions & 2 deletions
diff --git a/‎src/layout_prompter/models/serialized_data.py‎
Lines changed: 25 additions & 25 deletions b/‎src/layout_prompter/models/serialized_data.py‎
Lines changed: 25 additions & 25 deletions
diff --git a/‎src/layout_prompter/modules/rankers/__init__.py‎
Lines changed: 7 additions & 0 deletions b/‎src/layout_prompter/modules/rankers/__init__.py‎
Lines changed: 7 additions & 0 deletions
diff --git a/‎src/layout_prompter/modules/rankers/base.py‎
Lines changed: 20 additions & 0 deletions b/‎src/layout_prompter/modules/rankers/base.py‎
Lines changed: 20 additions & 0 deletions
diff --git a/‎src/layout_prompter/modules/rankers.py‎ ‎…mpter/modules/rankers/layout_prompter.py‎src/layout_prompter/modules/rankers.py renamed to src/layout_prompter/modules/rankers/layout_prompter.py
Lines changed: 1 addition & 14 deletions b/‎src/layout_prompter/modules/rankers.py‎ ‎…mpter/modules/rankers/layout_prompter.py‎src/layout_prompter/modules/rankers.py renamed to src/layout_prompter/modules/rankers/layout_prompter.py
Lines changed: 1 addition & 14 deletions
@@ -29,6 +29,7 @@ typecheck: install
 .PHONY: test
 test: install
 	uv run pytest -vs \
+		--last-failed \
 		--log-cli-level=INFO \
 		--import-mode=importlib \
 		--cov
@@ -3,12 +3,14 @@
 from typing import List, cast
 
 from langchain.chat_models import init_chat_model
+from langchain.smith.evaluation.progress import ProgressBarCallback
 from tqdm.auto import tqdm
 
 from layout_prompter import LayoutPrompter
 from layout_prompter.datasets import load_poster_layout
 from layout_prompter.models import (
     LayoutData,
+    PosterLayoutSerializedData,
     PosterLayoutSerializedOutputData,
     ProcessedLayoutData,
 )
@@ -19,6 +21,7 @@
 )
 from layout_prompter.preprocessors import ContentAwareProcessor
 from layout_prompter.settings import PosterLayoutSettings
+from layout_prompter.transforms import DiscretizeBboxes
 from layout_prompter.utils.workers import get_num_workers
 from layout_prompter.visualizers import ContentAwareVisualizer
 
@@ -59,33 +62,58 @@ def parse_args() -> argparse.Namespace:
 
 
 def main(args: argparse.Namespace) -> None:
+    # Load the settings for Poster Layout dataset
     settings = PosterLayoutSettings()
+    # Load the dataset
     hf_dataset = load_poster_layout()
 
+    # Convert the Hugging Face dataset to a dictionary of LayoutData
     dataset = {
         split: [
             LayoutData.model_validate(data)
             for data in tqdm(hf_dataset[split], desc=f"Processing for {split}")
         ]
         for split in hf_dataset
     }
+    tng_dataset, tst_dataset = dataset["train"], dataset["test"]
 
-    processor = ContentAwareProcessor(target_canvas_size=settings.canvas_size)
+    # Define the content-aware processor
+    processor = ContentAwareProcessor()
+
+    # Process the training dataset to generate candidate examples
     candidate_examples = cast(
         List[ProcessedLayoutData],
         processor.batch(
-            inputs=dataset["train"],
+            inputs=tng_dataset,
             config={
                 "max_concurrency": args.num_workers or get_num_workers(),
+                "callbacks": [ProgressBarCallback(total=len(tng_dataset))],
             },
         ),
     )
-    # inference_examples = processor.invoke(input=dataset["test"])
 
+    # Select a random test example or use a fixed index for reproducibility
     # idx = random.choice(range(len(dataset["test"])))
     idx = 443
-    inference_example = cast(
-        ProcessedLayoutData, processor.invoke(input=dataset["test"][idx])
+    test_data = tst_dataset[idx]
+
+    # Process the test data
+    inference_example = cast(ProcessedLayoutData, processor.invoke(input=test_data))
+
+    # Define the discretizer for bounding boxes
+    bbox_discretizer = DiscretizeBboxes()
+
+    # Apply the bbox discretizer to candidate examples and test data
+    candidate_examples = cast(
+        List[ProcessedLayoutData],
+        bbox_discretizer.batch(
+            candidate_examples,
+            config={"configurable": {"target_canvas_size": settings.canvas_size}},
+        ),
+    )
+    inference_example = bbox_discretizer.invoke(
+        inference_example,
+        config={"configurable": {"target_canvas_size": settings.canvas_size}},
     )
 
     layout_prompter = LayoutPrompter(
@@ -101,9 +129,16 @@ def main(args: argparse.Namespace) -> None:
             model=args.model_id,
         ),
         ranker=LayoutPrompterRanker(),
-        schema=PosterLayoutSerializedOutputData,
     )
-    outputs = layout_prompter.invoke(input=inference_example)
+    outputs = layout_prompter.invoke(
+        input=inference_example,
+        config={
+            "configurable": {
+                "input_schema": PosterLayoutSerializedData,
+                "output_schema": PosterLayoutSerializedOutputData,
+            }
+        },
+    )
 
     visualizer = ContentAwareVisualizer(
         canvas_size=settings.canvas_size, labels=settings.labels
 
@@ -1,6 +1,6 @@
 [project]
 name = "layout-prompter"
-version = "0.6.0"
+version = "0.7.0"
 description = "LangChain-based LayoutPrompter for content-agnostic/content-aware layout generation powered by LLM."
 readme = "README.md"
 authors = [
@@ -41,6 +41,7 @@ dev = [
     "mypy>=1.0.0",
     "pytest>=6.0.0",
     "pytest-cov>=6.0.0",
+    "pytest-lazy-fixtures>=1.2.0",
     "ruff>=0.1.5",
 ]
 
 
@@ -1,8 +1,9 @@
 from .poster_layout import load_poster_layout, load_raw_poster_layout
-from .rico import load_rico
+from .rico import load_raw_rico, load_rico25
 
 __all__ = [
-    "load_rico",
+    "load_raw_rico",
     "load_poster_layout",
     "load_raw_poster_layout",
+    "load_rico25",
 ]
@@ -75,7 +75,7 @@ def convert_to_layout_data_format(example):
             labels = np.array(list(map(id2label, anns["cls_elem"])))
             assert len(bboxes) == len(labels)
 
-            # Convert bboxes to [x, y, w, h] format
+            # Convert bboxes to (left, top, width, height) format
             bboxes[:, 2] -= bboxes[:, 0]
             bboxes[:, 3] -= bboxes[:, 1]
 
 
@@ -1,13 +1,131 @@
 import datasets as ds
+import numpy as np
+from loguru import logger
 
+from layout_prompter.models import LayoutData
+from layout_prompter.settings import Rico25Settings
+from layout_prompter.utils import normalize_bboxes
 
-def load_rico(
+
+def _filter_empty_bboxes(example):
+    return len([bbox for child in example["children"] for bbox in child["bounds"]]) > 0
+
+
+def _filter_too_many_bboxes(example, max_elements: int = 10):
+    return (
+        len([bbox for child in example["children"] for bbox in child["bounds"]])
+        <= max_elements
+    )
+
+
+def load_raw_rico(
     dataset_name: str = "creative-graphic-design/Rico",
+    dataset_type: str = "ui-screenshots-and-hierarchies-with-semantic-annotations",
 ) -> ds.DatasetDict:
+    # Load the RICO dataset
     dataset = ds.load_dataset(
         dataset_name,
-        name="ui-screenshots-and-view-hierarchies",
+        name=dataset_type,
     )
     assert isinstance(dataset, ds.DatasetDict)
+    return dataset
+
+
+def load_rico25(
+    dataset_name: str = "creative-graphic-design/Rico",
+    dataset_type: str = "ui-screenshots-and-hierarchies-with-semantic-annotations",
+    num_proc: int = 32,
+    max_elements: int = 10,
+) -> ds.DatasetDict:
+    # Load the RICO settings
+    settings = Rico25Settings()
+
+    # Load the RICO dataset
+    dataset = load_raw_rico(
+        dataset_name=dataset_name,
+        dataset_type=dataset_type,
+    )
+
+    dataset = dataset.filter(
+        _filter_empty_bboxes,
+        desc="Filter out empty bboxes",
+        num_proc=num_proc,
+    )
+    dataset = dataset.filter(
+        _filter_too_many_bboxes,
+        fn_kwargs={"max_elements": max_elements},
+        desc="Filter by max elements",
+        num_proc=num_proc,
+    )
+
+    train_feature = dataset["train"].features
+    train_children_feature = train_feature["children"].feature
+    component_labeler = train_children_feature.feature["component_label"]
+
+    def convert_to_layout_data(example):
+        # Get the canvas size
+        W, H = example["bounds"][2:]
+
+        # Get the children associated with the example
+        children = example["children"]
+
+        # # Get bboxes from children and filter out invalid ones
+        bboxes = np.array(
+            [bbox for child in children for bbox in child["bounds"]],
+        )
+
+        # Get labels from children
+        labels = [
+            component_labeler.int2str(label_id)
+            for child in children
+            for label_id in child["component_label"]
+        ]
+
+        # Ensure bboxes and labels have the same length
+        assert len(bboxes) == len(labels)
+
+        # Convert bboxes to (left, top, width, height) format
+        bboxes[:, 2] -= bboxes[:, 0]
+        bboxes[:, 3] -= bboxes[:, 1]
+
+        # Normalize bboxes
+        bboxes = normalize_bboxes(bboxes=bboxes, w=W, h=H)
+
+        # Get the canvas size as a dictionary
+        canvas_size = settings.canvas_size.model_dump()
+
+        data = {
+            "bboxes": [
+                {
+                    "left": bbox[0],
+                    "top": bbox[1],
+                    "width": bbox[2],
+                    "height": bbox[3],
+                }
+                for bbox in bboxes.tolist()
+            ],
+            "labels": labels,
+            "canvas_size": canvas_size,
+            "encoded_image": None,
+            "content_bboxes": None,
+        }
+
+        try:
+            # Ensure the data conforms to the `LayoutData` model
+            assert LayoutData.model_validate(data)
+        except Exception as err:
+            logger.trace(f"Data validation failed: {err}. Data: {example=}. ")
+            return None
+
+        return data
+
+    dataset = dataset.map(
+        convert_to_layout_data,
+        desc="Convert RICO dataset to LayoutData format",
+        remove_columns=dataset.column_names["train"],
+        num_proc=num_proc,
+    )
+
+    logger.debug(dataset)
 
     return dataset
@@ -11,31 +11,31 @@
 ]
 
 Rico25ClassNames = Literal[
-    "text",
-    "image",
-    "icon",
-    "list-item",
-    "text-button",
-    "toolbar",
-    "web-view",
-    "input",
-    "card",
-    "advertisement",
-    "background-image",
-    "drawer",
-    "radio-button",
-    "checkbox",
-    "multi-tab",
-    "pager-indicator",
-    "modal",
-    "on/off-switch",
-    "slider",
-    "map-view",
-    "button-bar",
-    "video",
-    "bottom-navigation",
-    "number-stepper",
-    "date-picker",
+    "Text",
+    "Image",
+    "Icon",
+    "Text Button",
+    "List Item",
+    "Input",
+    "Background Image",
+    "Card",
+    "Web View",
+    "Radio Button",
+    "Drawer",
+    "Checkbox",
+    "Advertisement",
+    "Modal",
+    "Pager Indicator",
+    "Slider",
+    "On/Off Switch",
+    "Button Bar",
+    "Toolbar",
+    "Number Stepper",
+    "Multi-Tab",
+    "Date Picker",
+    "Map View",
+    "Video",
+    "Bottom Navigation",
 ]
 
 
 
@@ -0,0 +1,7 @@
+from .base import LayoutRanker
+from .layout_prompter import LayoutPrompterRanker
+
+__all__ = [
+    "LayoutRanker",
+    "LayoutPrompterRanker",
+]
@@ -0,0 +1,20 @@
+import abc
+from typing import Any, List, Optional
+
+from langchain_core.runnables import RunnableSerializable
+from langchain_core.runnables.config import RunnableConfig
+
+from layout_prompter.models import LayoutSerializedOutputData
+
+
+class LayoutRanker(RunnableSerializable):
+    """Base class for layout ranking algorithms."""
+
+    @abc.abstractmethod
+    def invoke(
+        self,
+        input: List[LayoutSerializedOutputData],
+        config: Optional[RunnableConfig] = None,
+        **kwargs: Any,
+    ) -> List[LayoutSerializedOutputData]:
+        raise NotImplementedError
@@ -1,8 +1,6 @@
-import abc
 from typing import Any, List, Optional, Tuple
 
 import numpy as np
-from langchain_core.runnables import RunnableSerializable
 from langchain_core.runnables.config import RunnableConfig
 from pydantic import model_validator
 from typing_extensions import Self
@@ -13,18 +11,7 @@
     compute_overlap,
 )
 
-
-class LayoutRanker(RunnableSerializable):
-    """Base class for layout ranking algorithms."""
-
-    @abc.abstractmethod
-    def invoke(
-        self,
-        input: List[LayoutSerializedOutputData],
-        config: Optional[RunnableConfig] = None,
-        **kwargs: Any,
-    ) -> List[LayoutSerializedOutputData]:
-        raise NotImplementedError
+from .base import LayoutRanker
 
 
 class LayoutPrompterRanker(LayoutRanker):