Spaces:

eliot-hub
/

chatbot_app

Sleeping

eliot-hub commited on Sep 26, 2024

Commit

6838503

verified ·

1 Parent(s): f9d97e5

Update hf_to_chroma_ds.py

Files changed (1) hide show

hf_to_chroma_ds.py CHANGED Viewed

@@ -120,13 +120,15 @@ def import_into_chroma(chroma_client, dataset, collection_name=None, embedding_f
     # Retrieve the mapped data
     mapped_data = dataset.to_chroma()
     # Split the data into batches and add them to the collection
     def chunk_data(data, size):
         """Helper function to split data into batches."""
         for i in range(0, len(data), size):
             yield data[i:i+size]
     ids_batches = list(chunk_data(mapped_data["ids"], batch_size))
     metadatas_batches = list(chunk_data(mapped_data["metadatas"], batch_size))
     documents_batches = list(chunk_data(mapped_data["documents"], batch_size))
@@ -134,6 +136,7 @@ def import_into_chroma(chroma_client, dataset, collection_name=None, embedding_f
     total_docs = len(mapped_data["ids"])
     for i, (ids, metadatas, documents, embeddings) in enumerate(zip(ids_batches, metadatas_batches, documents_batches, embeddings_batches)):
         collection.add(
             ids=ids,

     # Retrieve the mapped data
     mapped_data = dataset.to_chroma()
+    del dataset
     # Split the data into batches and add them to the collection
     def chunk_data(data, size):
         """Helper function to split data into batches."""
         for i in range(0, len(data), size):
             yield data[i:i+size]
+    print("########### Chunking ###########")
     ids_batches = list(chunk_data(mapped_data["ids"], batch_size))
     metadatas_batches = list(chunk_data(mapped_data["metadatas"], batch_size))
     documents_batches = list(chunk_data(mapped_data["documents"], batch_size))
     total_docs = len(mapped_data["ids"])
+    print("########### Iterating batches ###########")
     for i, (ids, metadatas, documents, embeddings) in enumerate(zip(ids_batches, metadatas_batches, documents_batches, embeddings_batches)):
         collection.add(
             ids=ids,