Add support for OCM platform in create_library_files.py

xies4 · xies4 · commit 675be6f48498 · 2025-07-22T14:08:34.000-04:00
diff --git a/scripts/fb/create_library_files.py b/scripts/fb/create_library_files.py
@@ -21,42 +21,74 @@ def main(raw_args=None):
     parser.add_argument('fastqs', metavar="outs/fastq_path/HLGW3DRXX",
         nargs='?', action="store", type=str,
         help="Full path to FASTQ files, used to help fill in new library files. If missing will just use values in the libraries.csv file. Multiple paths should be comma delimited")
+    # parser.add_argument('--ocm', action='store_true', default=False,
+    #     help="Use this flag if OCM platform is used")
 
     args = parser.parse_args(raw_args)
     if args.fastqs != None:
         fastqs = args.fastqs.split(',')
 
-    
-    with open(args.file_name) as f:
-        headers = next(f).strip().split(',')
-        #print(headers)
-        samples = dict()
-        for line in f:
-            line = line.strip().split(',')
-            if line[0] in samples:
-                samples[line[0]].append(line[1:])
-            else:
-                samples[line[0]] = [line[1:]]
-
-    for sample in samples:
-        text = []
-        for values in samples[sample]:
-            if args.fastqs != None:
-                runs = [path for path in fastqs if values[0] in path]
-                if len(runs) != 1:
-                    sys.exit("Problems finding unique match for %s in %s" % (values[0], args.fastqs))
+    ## Check if the input file is in OCM format
+    import pandas as pd
+    df = pd.read_csv(args.lib, header=0)
+    if 'ocm_barcode_ids' in df.columns:
+        if df['ocm_barcode_ids'].any():
+            print("OCM platform detected, using OCM specific libraries file format")
+            args.ocm = True
+        else:
+            args.ocm = False
+    if args.ocm == False: 
+        with open(args.file_name) as f:
+            headers = next(f).strip().split(',')
+            #print(headers)
+            samples = dict()
+            for line in f:
+                line = line.strip().split(',')
+                if line[0] in samples:
+                    samples[line[0]].append(line[1:])
                 else:
-                    if values[2] != values[-1]:
-                        text.append(",".join([runs[0], values[1], values[2], values[-1]]))
-                    else:
-                        text.append(",".join([runs[0], values[1], values[2]]))
-            else:
-                text.append(",".join(values))
+                    samples[line[0]] = [line[1:]]
 
-        with open('%s_libraries.csv' % sample, 'w') as f:
-            f.write('fastqs,sample,library_type\n')
-            f.write('\n'.join(text))
+        for sample in samples:
+            text = []
+            for values in samples[sample]:
+                if args.fastqs != None:
+                    runs = [path for path in fastqs if values[0] in path]
+                    if len(runs) != 1:
+                        sys.exit("Problems finding unique match for %s in %s" % (values[0], args.fastqs))
+                    else:
+                        if values[2] != values[-1]:
+                            text.append(",".join([runs[0], values[1], values[2], values[-1]]))
+                        else:
+                            text.append(",".join([runs[0], values[1], values[2]]))
+                else:
+                    text.append(",".join(values))
 
+            with open('%s_libraries.csv' % sample, 'w') as f:
+                f.write('fastqs,sample,library_type\n')
+                f.write('\n'.join(text))
+    else:
+        import pandas as pd
+        df = pd.read_csv(args.file_name, header=0)
+        samples = df['Sample'].unique()
+        for sample in samples:
+            subdf = df[df['Sample'] == sample].copy()
+            # If fastqs is provided, try to match each row's Flowcell to a fastq path
+            if args.fastqs is not None:
+                matched_fastqs = []
+                for idx, row in subdf.iterrows():
+                    # Try to match Flowcell in fastqs path
+                    matches = [fq for fq in fastqs if str(row['Flowcell']) in fq]
+                    if len(matches) == 1:
+                        matched_fastqs.append(matches[0])
+                    elif len(matches) > 1:
+                        sys.exit(f"Multiple matches for Flowcell '{row['Flowcell']}' in fastqs: {matches}")
+                    else:
+                        matched_fastqs.append("")  # Or handle as needed
+                subdf.insert(0, 'fastqs', matched_fastqs)
+            # Write all columns for this sample to a new CSV
+            out_file = f"{sample}_libraries.csv"
+            subdf.to_csv(out_file, index=False)
     #print(samples)