Finish API tests

maurever · maurever · commit 2b67a492d4af · 2025-02-24T10:54:20.000+01:00
diff --git a/h2o-py/h2o/model/model_base.py b/h2o-py/h2o/model/model_base.py
@@ -1986,6 +1986,16 @@ def _replace_empty_str(row):
             )
             return varimp
 
+    def distances(self):
+        """
+        Obtain the distances frame for a KNN model.
+
+        :return: H2OFrame
+        """
+        if self._model_json["algo"] != "knn":
+            raise H2OValueError("This function is available for KNN models only")
+        return h2o.get_frame(self._model_json["output"]["distances"])
+    
     # --------------------------------
     # ModelBase representation methods
     # --------------------------------
diff --git a/h2o-py/tests/testdir_algos/knn/pyunit_knn_compare_sklearn.py b/h2o-py/tests/testdir_algos/knn/pyunit_knn_compare_sklearn.py
@@ -2,10 +2,9 @@
 
 sys.path.insert(1, os.path.join("..", "..", ".."))
 import h2o
-from tests import pyunit_utils, assert_equals
+from tests import pyunit_utils
 from h2o.estimators.knn import H2OKnnEstimator
 import numpy as np
-from sklearn.neighbors import KNeighborsClassifier
 from sklearn.neighbors import kneighbors_graph
 import pandas as pd
 
@@ -15,35 +14,48 @@ def knn_sklearn_compare():
     id_column = "id"
     response_column = "class"
     x_names = ["sepal_len", "sepal_wid", "petal_len", "petal_wid"]
+    k = 3
+    metrics = ["euclidean", "manhattan", "cosine"]
 
     train = pd.read_csv(pyunit_utils.locate("smalldata/iris/iris_wheader.csv"))
-
-    knn = KNeighborsClassifier(n_neighbors=3)
-    knn.fit(train[x_names], train[response_column])
-    print(knn)
-    knn_score = knn.score(train[x_names], train[response_column])
-    print(knn_score)
-
-    knn_graph = kneighbors_graph(train[x_names], 3, mode='connectivity', include_self=False, metric="euclidean")
-    print(knn_graph)
-
+    
     train_h2o = h2o.H2OFrame(train)
     train_h2o[response_column] = train_h2o[response_column].asfactor()
     train_h2o[id_column] = h2o.H2OFrame(np.arange(0, train_h2o.shape[0]))
+    
+    for metric in metrics:
+        print("Check results for "+metric+" metric.")
+        sklearn_knn_graph = kneighbors_graph(train[x_names],
+                                             k, 
+                                             mode='connectivity', 
+                                             include_self=True, 
+                                             metric=metric)
 
-    h2o_knn = H2OKnnEstimator(
-        k=3,
-        id_column=id_column,
-        distance="euclidean",
-        seed=seed,
-        auc_type="macroovr"
-    )
+        h2o_knn = H2OKnnEstimator(k=k,
+                                  id_column=id_column,
+                                  distance=metric,
+                                  seed=seed)
+    
+        h2o_knn.train(y=response_column, x=x_names, training_frame=train_h2o)
+        
+        distances_frame = h2o_knn.distances().as_data_frame()
+        assert distances_frame is not None
     
-    h2o_knn.train(y=response_column, x=x_names, training_frame=train_h2o)
-    distances_key = h2o_knn._model_json["output"]["distances"]
-    print(distances_key)
-    distances_frame = h2o.get_frame(distances_key)
-    print(distances_frame)
+        diff = 0
+        allowed_diff = 20
+        for i in range(train.shape[0]):
+            sklearn_neighbours = sklearn_knn_graph[i].nonzero()[1]
+            for j in range(k):
+                sklearn_n = sklearn_neighbours[j]
+                h2o_n = distances_frame["id_"+str(j+1)][i]
+                if sklearn_n != h2o_n:
+                    print(distances_frame.loc[[i]])
+                    print("["+str(i)+","+str(j)+"] sklearn:h2o "+str(sklearn_n)+" == "+str(h2o_n))
+                    diff += 1
+                
+        # some neighbours should have different order due to parallelization
+        print("Number of different neighbours: "+str(diff))      
+        assert diff < allowed_diff
     
 
 if __name__ == "__main__":
diff --git a/h2o-py/tests/testdir_algos/knn/pyunit_knn_smoke.py b/h2o-py/tests/testdir_algos/knn/pyunit_knn_smoke.py
@@ -16,8 +16,7 @@ def knn_api_smoke():
     train_h2o = h2o.upload_file(pyunit_utils.locate("smalldata/iris/iris_wheader.csv"))
     train_h2o[response_column] = train_h2o[response_column].asfactor()
     train_h2o[id_column] = h2o.H2OFrame(np.arange(0, train_h2o.shape[0]))
-
-
+    
     model = H2OKnnEstimator(
         k=3,
         id_column=id_column,
@@ -35,6 +34,9 @@ def knn_api_smoke():
     assert_equals(perf.mse(), model.mse())
     assert_equals(perf.multinomial_auc_table(), model.multinomial_auc_table())
     
+    distances = model.distances()
+    assert distances is not None
+
 
 if __name__ == "__main__":
     pyunit_utils.standalone_test(knn_api_smoke)
diff --git a/h2o-r/tests/testdir_algos/knn/runit_knn_smoke.R b/h2o-r/tests/testdir_algos/knn/runit_knn_smoke.R
@@ -5,20 +5,22 @@ source("../../../scripts/h2o-r-test-setup.R")
 
 knn.smoke <- function() {
     iris.hex <- h2o.uploadFile( locate("smalldata/iris/iris.csv"))
-    iris.knn <-  h2o.knn(x=1:4, y=5, training_frame=iris.hex, k=3 , distance="euclidean", seed=1234)
+    
+    iris.hex$id <- as.h2o(1:nrow(iris.hex))
+    iris.knn <- h2o.knn(x=1:4, y=5, training_frame=iris.hex, id_column = "id", k=3 , distance="euclidean", seed=1234, auc_type="WEIGHTED_OVO")
 
     # Score test data with different default auc_type (previous was "NONE", so no AUC calculation)
-    perf <- h2o.performance(iris.knn, test.hex, auc_type="WEIGHTED_OVO")
+    perf <- h2o.performance(iris.knn, iris.hex, auc_type="WEIGHTED_OVO")
 
     # Check default AUC is set correctly
     auc_table <- h2o.multinomial_auc_table(perf)
     default_auc <- h2o.auc(perf)
-    weighted_ovo_auc <- auc_table[32, 4] # weighted ovo AUC is the last number in the table
-
+    weighted_ovo_auc <- auc_table[10, 4] # weighted ovo AUC is the last number in the table
+    
     expect_equal(default_auc, weighted_ovo_auc)
     
-    distances <- iris.knn@model$distances
-    print(distances)
+    distances <- h2o.getFrame(iris.knn@model$distances)
+    expect_equal(is.null(distances), FALSE)
 }
 
 doTest("KNN Test: Check model is running.", knn.smoke)