add more in-depth testing for job_stats/file_stats

Shane Snyder · Shane Snyder · commit a266ae5027ac · 2025-04-29T13:29:15.000-05:00
diff --git a/darshan-util/pydarshan/darshan/tests/test_file_stats.py b/darshan-util/pydarshan/darshan/tests/test_file_stats.py
@@ -2,17 +2,17 @@
 from unittest import mock
 from darshan.log_utils import get_log_path
 from darshan.cli import file_stats
+from darshan.log_utils import _provide_logs_repo_filepaths
 import pandas as pd
 import io
 import pytest
 
 @pytest.mark.parametrize(
     "argv", [
-        [get_log_path("shane_macsio_id29959_5-22-32552-7035573431850780836_1590156158.darshan"),
-         "--csv",
+        ["--csv",
          "--module=POSIX",
          "--order_by=bytes_written",
-         "--limit=5"],
+         get_log_path("shane_macsio_id29959_5-22-32552-7035573431850780836_1590156158.darshan")],
     ]
 )
 def test_file_stats(argv, capsys):
@@ -58,3 +58,77 @@ def test_file_stats(argv, capsys):
     # run again to ensure default Rich print mode runs successfully
     args.csv = False
     file_stats.main(args=args)
+    assert not captured.err
+
+def _provide_logs_repo_filepaths_filtered():
+    return [
+        path for path in _provide_logs_repo_filepaths()
+        if 'dlio_logs' in path
+    ]
+@pytest.mark.parametrize(
+    ("argv", "expected"),
+    [
+        (
+            ["--csv",
+             "--module=POSIX",
+             "--order_by=bytes_read",
+             *_provide_logs_repo_filepaths_filtered()],
+            {'len': 194,
+             'bytes_read': 129953991223,
+             'bytes_written': 523946754,
+             'reads': 35762,
+             'writes': 168,
+             'total_jobs': 670}
+        ),
+        (
+            ["--csv",
+             "--module=POSIX",
+             "--order_by=bytes_read",
+             "--limit=5",
+             *_provide_logs_repo_filepaths_filtered()],
+            {'len': 5,
+             'bytes_read': 7214542900,
+             'bytes_written': 0,
+             'reads': 1830,
+             'writes': 0,
+             'total_jobs': 5}
+        ),
+        (
+            ["--csv",
+             "--module=POSIX",
+             "--order_by=bytes_read",
+             "--include_names=\\.npz$",
+             *_provide_logs_repo_filepaths_filtered()],
+            {'len': 168,
+             'bytes_read': 129953701195,
+             'bytes_written': 0,
+             'reads': 34770,
+             'writes': 0,
+             'total_jobs': 172}
+        )
+    ]
+)
+def test_file_stats_multi(argv, expected, capsys):
+    with mock.patch("sys.argv", argv):
+        # initialize the parser
+        parser = argparse.ArgumentParser(description="")
+        # run through setup_parser()
+        file_stats.setup_parser(parser=parser)
+        # parse the input arguments
+        args = parser.parse_args(argv)
+    # run once with CSV output and spot check some of the output
+    file_stats.main(args=args)
+    captured = capsys.readouterr()
+    assert not captured.err
+    assert captured.out
+    df = pd.read_csv(io.StringIO(captured.out))
+    assert len(df) == expected['len']
+    assert df['bytes_read'].sum() == expected['bytes_read']
+    assert df['bytes_written'].sum() == expected['bytes_written']
+    assert df['reads'].sum() == expected['reads']
+    assert df['writes'].sum() == expected['writes']
+    assert df['total_jobs'].sum() == expected['total_jobs']
+    # run again to ensure default Rich print mode runs successfully
+    args.csv = False
+    file_stats.main(args=args)
+    assert not captured.err
diff --git a/darshan-util/pydarshan/darshan/tests/test_job_stats.py b/darshan-util/pydarshan/darshan/tests/test_job_stats.py
@@ -2,18 +2,18 @@
 from unittest import mock
 from darshan.log_utils import get_log_path
 from darshan.cli import job_stats
+from darshan.log_utils import _provide_logs_repo_filepaths
 from numpy.testing import assert_allclose
 import pandas as pd
 import io
 import pytest
 
 @pytest.mark.parametrize(
     "argv", [
-        [get_log_path("sample-badost.darshan"),
-         "--csv",
+        ["--csv",
          "--module=STDIO",
          "--order_by=total_bytes",
-         "--limit=5"],
+         get_log_path("sample-badost.darshan")],
     ]
 )
 def test_job_stats(argv, capsys):
@@ -51,3 +51,70 @@ def test_job_stats(argv, capsys):
     # run again to ensure default Rich print mode runs successfully
     args.csv = False
     job_stats.main(args=args)
+    assert not captured.err
+
+def _provide_logs_repo_filepaths_filtered():
+    return [
+        path for path in _provide_logs_repo_filepaths()
+        if 'dlio_logs' in path
+    ]
+@pytest.mark.parametrize(
+    ("argv", "expected"),
+    [
+        (
+            ["--csv",
+             "--module=POSIX",
+             "--order_by=perf_by_slowest",
+             *_provide_logs_repo_filepaths_filtered()],
+            {'perf_by_slowest': 1818543162.0558,
+             'time_by_slowest': 89.185973,
+             'total_bytes': 130477937977,
+             'total_files': 670}
+        ),
+        (
+            ["--csv",
+             "--module=POSIX",
+             "--order_by=perf_by_slowest",
+             "--limit=5",
+             *_provide_logs_repo_filepaths_filtered()],
+            {'perf_by_slowest': 1818543162.0558,
+             'time_by_slowest': 30.823626,
+             'total_bytes': 54299532365,
+             'total_files': 190}
+        )
+    ]
+)
+def test_job_stats_multi(argv, expected, capsys):
+    # this case tests job_stats with multiple input logs
+    # and ensures that aggregate statistics are as expected
+    with mock.patch("sys.argv", argv):
+        # initialize the parser
+        parser = argparse.ArgumentParser(description="")
+        # run through setup_parser()
+        job_stats.setup_parser(parser=parser)
+        # parse the input arguments
+        args = parser.parse_args(argv)
+    # run once with CSV output and spot check some of the output
+    job_stats.main(args=args)
+    captured = capsys.readouterr()
+    assert not captured.err
+    assert captured.out
+    df = pd.read_csv(io.StringIO(captured.out))
+    # verify max perf is first row and min perf is last row
+    max_perf = df['perf_by_slowest'].max()
+    min_perf = df['perf_by_slowest'].min()
+    assert df.iloc[0]['perf_by_slowest'] == max_perf
+    assert df.iloc[-1]['perf_by_slowest'] == min_perf
+    # verify values against expected
+    assert_allclose(max_perf, expected['perf_by_slowest'], rtol=1e-5, atol=1e-8)
+    assert max_perf == expected['perf_by_slowest']
+    total_time = df['time_by_slowest'].sum()
+    assert_allclose(total_time, expected['time_by_slowest'], rtol=1e-5, atol=1e-8)
+    total_bytes = df['total_bytes'].sum()
+    assert total_bytes == expected['total_bytes']
+    total_files = df['total_files'].sum()
+    assert total_files == expected['total_files']
+    # run again to ensure default Rich print mode runs successfully
+    args.csv = False
+    job_stats.main(args=args)
+    assert not captured.err
diff --git a/darshan-util/pydarshan/darshan/tests/test_report.py b/darshan-util/pydarshan/darshan/tests/test_report.py
@@ -78,10 +78,10 @@ def test_load_records():
 def test_load_records_filtered():
     """Sample for an expected number of records after filtering."""
     logfile = get_log_path("shane_macsio_id29959_5-22-32552-7035573431850780836_1590156158.darshan")
-    with darshan.DarshanReport(logfile, filter_patterns=["\.h5$"], filter_mode="exclude") as report:
+    with darshan.DarshanReport(logfile, filter_patterns=[r"\.h5$"], filter_mode="exclude") as report:
         assert 2 == len(report.data['records']['POSIX'])
         assert 0 == len(report.data['records']['MPI-IO'])
-    with darshan.DarshanReport(logfile, filter_patterns=["\.h5$"], filter_mode="include") as report:
+    with darshan.DarshanReport(logfile, filter_patterns=[r"\.h5$"], filter_mode="include") as report:
         assert 1 == len(report.data['records']['POSIX'])
         assert 1 == len(report.data['records']['MPI-IO'])