Ubuntu 24, new mirror server

mtmail · mtmail · commit 9f14849fde39 · 2025-05-23T23:53:01.000+02:00
diff --git a/install_dependencies.sh b/install_dependencies.sh
@@ -1,23 +1,20 @@
 #!/bin/bash
 
 #
-# Tested on Ubuntu-22
+# Tested on Ubuntu-24
 #
 
-sudo apt-get install -y postgresql-14
+sudo apt-get install -y postgresql-16
 sudo -u postgres createuser -s $USER
 
-
 # No not significant performance increase above 250MB
-sudo -u postgres mkdir -p /etc/postgresql/14/main/conf.d/
+sudo -u postgres mkdir -p /etc/postgresql/16/main/conf.d/
 echo "
 work_mem = 250MB
-" | sudo -u postgres tee /etc/postgresql/14/main/conf.d/wikipedia.conf
+" | sudo -u postgres tee /etc/postgresql/16/main/conf.d/wikipedia.conf
 
 sudo systemctl restart postgresql
 
-
-
 sudo apt-get install -y wget coreutils nodejs jq moreutils pigz
 sudo apt-get install -y python3-dev python3-pip python3-setuptools build-essential
 
diff --git a/steps/latest_available_data.sh b/steps/latest_available_data.sh
@@ -1,8 +1,8 @@
 #!/bin/bash
 
 #
-# Prints a YYYYMMDD date of the latest available date on 
-# https://mirror.clarkson.edu/wikimedia/enwiki/
+# Prints a YYYYMMDD date of the latest available date on
+# https://wikidata.aerotechnet.com/enwiki/
 # We do some additional checks if the dumps are complete, too
 #
 
@@ -12,7 +12,6 @@ debug() {
     echo -n ''
 }
 
-
 DATE=''
 
 # Sets $DATE to first of the month (YYYYMMDD). If given a parameter then
@@ -21,13 +20,12 @@ set_date_to_first_of_month() {
     MINUS_NUM_MONTHS=${1:-0}
 
     if [[ "$(uname)" == "Darwin" ]]; then
-        DATE=$(date -v -${MINUS_NUM_MONTHS}m +%Y%m01) 
+        DATE=$(date -v -${MINUS_NUM_MONTHS}m +%Y%m01)
     else
-        DATE=$(date --date="-$MINUS_NUM_MONTHS month" +%Y%m01) 
+        DATE=$(date --date="-$MINUS_NUM_MONTHS month" +%Y%m01)
     fi
 }
 
-
 check_all_files_ready() {
     CHECK_DATE=$1
     debug "check_all_files_ready for $CHECK_DATE"
@@ -55,14 +53,13 @@ check_all_files_ready() {
 
     ANY_FILE_MISSING=0
 
-
     ##
     ## 1. Chinese (ZH) Wikipedia
     ## usually the last to be dumped
     ##
     # from wikipedia_download.sh
     WIKIPEDIA_REQUIRED_FILES="page pagelinks langlinks linktarget redirect"
-    DUMP_RUN_INFO_URL="https://mirror.clarkson.edu/wikimedia/zhwiki/$CHECK_DATE/dumpruninfo.json"
+    DUMP_RUN_INFO_URL="https://wikidata.aerotechnet.com/zhwiki/$CHECK_DATE/dumpruninfo.json"
     debug $DUMP_RUN_INFO_URL
     DUMP_RUN_INFO=$(curl -s --fail "$DUMP_RUN_INFO_URL")
 
@@ -71,7 +68,6 @@ check_all_files_ready() {
         return 1
     fi
 
-
     for FN in $WIKIPEDIA_REQUIRED_FILES; do
         TABLENAME=${FN//_/}table # redirect => redirecttable
         debug "checking status for table $TABLENAME"
@@ -85,15 +81,13 @@ check_all_files_ready() {
         fi
     done
 
-
-
     ##
     ## 2. Wikidata
     ##
     # from wikidata_download.sh
     WIKIDATA_REQUIRED_FILES="geo_tags page wb_items_per_site"
 
-    DUMP_RUN_INFO_URL="https://mirror.clarkson.edu/wikimedia/wikidatawiki/$CHECK_DATE/dumpruninfo.json"
+    DUMP_RUN_INFO_URL="https://wikidata.aerotechnet.com/wikidatawiki/$CHECK_DATE/dumpruninfo.json"
     debug $DUMP_RUN_INFO_URL
     DUMP_RUN_INFO=$(curl -s --fail "$DUMP_RUN_INFO_URL")
 
@@ -118,17 +112,15 @@ check_all_files_ready() {
     return $ANY_FILE_MISSING
 }
 
-
-
 #
 # Usually you might try to get a list of dates from
-# https://mirror.clarkson.edu/wikimedia/enwiki/ and then sort them, then look at status.html
+# https://wikidata.aerotechnet.com/enwiki/ and then sort them, then look at status.html
 # inside the directories.
 #
 # We want to avoid parsing HTML.
 #
 # Previous version of this script then looked at index.json
-# (https://mirror.clarkson.edu/wikimedia/index.json) but the file is written at beginning
+# (https://wikidata.aerotechnet.com/index.json) but the file is written at beginning
 # of the export so first of month it would list files that don't exist yet.
 #
 
diff --git a/steps/wikidata_download.sh b/steps/wikidata_download.sh
@@ -8,11 +8,10 @@ echo "====================================================================="
 : ${BUILDID:=latest}
 # List of mirrors https://dumps.wikimedia.org/mirrors.html
 # Download using main dumps.wikimedia.org: 60 minutes, mirror: 20 minutes
-: ${WIKIMEDIA_HOST:=mirror.clarkson.edu/wikimedia}
-# See list on https://mirror.clarkson.edu/wikimedia/wikidatawiki/
+: ${WIKIMEDIA_HOST:=wikidata.aerotechnet.com}
+# See list on https://wikidata.aerotechnet.com/wikidatawiki/
 : ${WIKIDATA_DATE:=20220701}
 
-
 DOWNLOADED_PATH="$BUILDID/downloaded/wikidata"
 mkdir -p $DOWNLOADED_PATH
 
@@ -33,12 +32,12 @@ download() {
 
 for FN in geo_tags.sql.gz page.sql.gz wb_items_per_site.sql.gz; do
 
-    # https://mirror.clarkson.edu/wikimedia/wikidatawiki/20220620/wikidatawiki-20220620-geo_tags.sql.gz
-    # https://mirror.clarkson.edu/wikimedia/wikidatawiki/20220620/md5sums-wikidatawiki-20220620-geo_tags.sql.gz.txt
-    download https://$WIKIMEDIA_HOST/wikidatawiki/$WIKIDATA_DATE/wikidatawiki-$WIKIDATA_DATE-$FN             "$DOWNLOADED_PATH/$FN"
+    # https://wikidata.aerotechnet.com/wikidatawiki/20250501/wikidatawiki-20250501-geo_tags.sql.gz
+    # https://wikidata.aerotechnet.com/wikidatawiki/20250501/md5sums-wikidatawiki-20250501-geo_tags.sql.gz.txt
+    download https://$WIKIMEDIA_HOST/wikidatawiki/$WIKIDATA_DATE/wikidatawiki-$WIKIDATA_DATE-$FN "$DOWNLOADED_PATH/$FN"
     download https://$WIKIMEDIA_HOST/wikidatawiki/$WIKIDATA_DATE/md5sums-wikidatawiki-$WIKIDATA_DATE-$FN.txt "$DOWNLOADED_PATH/$FN.md5"
 
-    EXPECTED_MD5=$(cat "$DOWNLOADED_PATH/$FN.md5"  | cut -d\  -f1)
+    EXPECTED_MD5=$(cat "$DOWNLOADED_PATH/$FN.md5" | cut -d\  -f1)
     CALCULATED_MD5=$(md5sum "$DOWNLOADED_PATH/$FN" | cut -d\  -f1)
 
     if [[ "$EXPECTED_MD5" != "$CALCULATED_MD5" ]]; then
diff --git a/steps/wikipedia_download.sh b/steps/wikipedia_download.sh
@@ -11,14 +11,12 @@ echo "====================================================================="
 LANGUAGES_ARRAY=($(echo $LANGUAGES | tr ',' ' '))
 # List of mirrors https://dumps.wikimedia.org/mirrors.html
 # Download using main dumps.wikimedia.org: 150 minutes, mirror: 40 minutes
-: ${WIKIMEDIA_HOST:=mirror.clarkson.edu/wikimedia}
-# See list on https://mirror.clarkson.edu/wikimedia/enwiki/
+: ${WIKIMEDIA_HOST:=wikidata.aerotechnet.com}
+# See list on https://wikidata.aerotechnet.com/enwiki/
 : ${WIKIPEDIA_DATE:=20220620}
 
-
 DOWNLOADED_PATH="$BUILDID/downloaded/wikipedia"
 
-
 download() {
     echo "Downloading $1 > $2"
     if [ -e "$2" ]; then
@@ -35,8 +33,7 @@ download() {
     du -h "$2" | cut -f1
 }
 
-for LANG in "${LANGUAGES_ARRAY[@]}"
-do
+for LANG in "${LANGUAGES_ARRAY[@]}"; do
     echo "Language: $LANG"
 
     mkdir -p "$DOWNLOADED_PATH/$LANG"
@@ -55,13 +52,12 @@ do
     #  62M  downloaded/tr/linktarget.sql.gz
     # 4.2M  downloaded/tr/redirect.sql.gz
 
-  
     for FN in page.sql.gz pagelinks.sql.gz langlinks.sql.gz linktarget.sql.gz redirect.sql.gz; do
 
-        download https://$WIKIMEDIA_HOST/${LANG}wiki/$WIKIPEDIA_DATE/${LANG}wiki-$WIKIPEDIA_DATE-$FN             "$DOWNLOADED_PATH/$LANG/$FN"
+        download https://$WIKIMEDIA_HOST/${LANG}wiki/$WIKIPEDIA_DATE/${LANG}wiki-$WIKIPEDIA_DATE-$FN "$DOWNLOADED_PATH/$LANG/$FN"
         download https://$WIKIMEDIA_HOST/${LANG}wiki/$WIKIPEDIA_DATE/md5sums-${LANG}wiki-$WIKIPEDIA_DATE-$FN.txt "$DOWNLOADED_PATH/$LANG/$FN.md5"
 
-        EXPECTED_MD5=$(cat "$DOWNLOADED_PATH/$LANG/$FN.md5"  | cut -d\  -f1)
+        EXPECTED_MD5=$(cat "$DOWNLOADED_PATH/$LANG/$FN.md5" | cut -d\  -f1)
         CALCULATED_MD5=$(md5sum "$DOWNLOADED_PATH/$LANG/$FN" | cut -d\  -f1)
 
         if [[ "$EXPECTED_MD5" != "$CALCULATED_MD5" ]]; then