restaurant-menu-pricing/.env.example at main · ahmedshahriar/restaurant-menu-pricing · GitHub

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
# seed for reproducibility
SEED=33
# allows you to set a fixed value for the hash seed secret.
PYTHONHASHSEED=33
# control the number of threads employed for intra-operation parallelism on the CPU
TORCH_NUM_THREADS=6

# kaggle Config
KAGGLE_USERNAME=<your_kaggle_username>
KAGGLE_KEY=<your_kaggle_key>

# ETL Web crawling Config
CRAWLED_TASK_DATA_PATH=data/task_data.csv

# Proxy Config for web crawling
PROXY_HOST=127.0.0.1
PROXY_PORT=6666
PROXY_USER=proxy_user
PROXY_PASSWORD=proxy_password

# MongoDB Config
# local or atlas
# for local e.g., mongodb://localhost:27017
DATABASE_HOST=mongodb+srv://<username>:<password>@<cluster_name_host>.mongodb.net/?appName=<cluster_name>
# connecting from inside docker container to a host machine
# DATABASE_HOST=mongodb://host.docker.internal:27017
DATABASE_NAME=<your_database_name>
DATABASE_COLLECTION=<your_collection_name>

# export data from mongodb(DWH)
# modify if needed
DWH_EXPORT_DIR=datasets/dwh-export
RESTAURANT_DATA_PATH=restaurants.csv
MENU_DATA_PATH=restaurant-menus.csv

# dataset paths
# training sample dataset path
# after feature engineering and cleaning
SAMPLED_DATA_PATH=datasets/sampled-final-data.csv
SAMPLED_DATA_WITH_EMBEDDINGS_PATH=datasets/recipe-BERT-embedding.csv

# kaggle datasets
# cost of living index by city (original datasets)
INDEX_DS=ahmedshahriarsakib/cost-of-index-updated
INDEX_FILE=cost_of_living_index.csv

# us cities database with lat/long info
DENSITY_DS=sergejnuss/united-states-cities-database
DENSITY_FILE=uscities.csv

# used to build states_name_dict
STATES_DS=doyouevendata/state-abbreviations/versions/1
STATES_FILE=state_abbrev.csv

# Food NER Model
NER_MODEL=Dizex/InstaFoodRoBERTa-NER

# model training/tuning config
TARGET=price
DATA_SPLIT_COL=category
TEST_SIZE=0.2
N_TRIALS=10
CV_FOLDS=5
SCORING=neg_mean_squared_error

# mlflow model registry name
BEST_MODEL_REGISTRY_NAME=<your_model_registry_name>
MODEL_ENDPOINT_NAME=<your_model_endpoint_name> # used for azure ml deployment

# artifact paths
ARTIFACT_DIR=artifacts

# model serve
MODEL_SERVE_PORT=5000

# ---- MLFLOW_BACKEND = local or azure---
#MLFLOW_BACKEND=local
#MLFLOW_TRACKING_URI=http://localhost:8080
MLFLOW_BACKEND=azure
MLFLOW_TRACKING_URI=<your_azure_mlflow_tracking_uri>
MLFLOW_EXPERIMENT_NAME=<your_experiment_name>

# --- Azure workspace IDs (used when MLFLOW_BACKEND=azure) ---
AZURE_SUBSCRIPTION_ID=<your_azure_subscription_id>
AZURE_RESOURCE_GROUP=<your_azure_resource_group>
AZURE_ML_WORKSPACE_NAME=<your_azure_ml_workspace_name>
AZURE_UAMI_NAME=<your_azure_user_assigned_managed_identity_name>