Chroma

Dữ liệu

Neotask trên OpenClaw tự động hóa cơ sở dữ liệu vector Chroma của bạn — quản lý collection, lập chỉ mục tài liệu và chạy tìm kiếm ngữ nghĩa thông qua hội thoại.

Bạn có thể làm gì

Chạy tìm kiếm ngữ nghĩa

Nói với Neotask để tìm kiếm collection Chroma của bạn cho các tài liệu tương tự với một truy vấn cho trước. OpenClaw xử lý việc nhúng và tra cứu láng giềng gần nhất, trả về kết quả có liên quan về mặt ngữ nghĩa với siêu dữ liệu và điểm khoảng cách.

Quản lý collection

Nhờ Neotask tạo collection Chroma mới, liệt kê tất cả collection hiện có, thêm tài liệu có siêu dữ liệu hoặc xóa collection không còn cần thiết.

Thêm tài liệu và nhúng vector

Dán văn bản hoặc dữ liệu có cấu trúc và nhờ Neotask thêm vào collection Chroma của bạn với các thẻ siêu dữ liệu phù hợp. OpenClaw xử lý việc phân đoạn, tạo nhúng và thao tác upsert tự động.

Kiểm tra và kiểm toán kho vector

Nhờ Neotask hiển thị tổng số tài liệu trong một collection, xem mẫu các tài liệu được lưu trữ hoặc truy xuất một mục cụ thể theo ID.

Xây dựng và kiểm thử pipeline RAG

Sử dụng Neotask để tạo mẫu các luồng tạo sinh tăng cường truy xuất. Thêm tài liệu, chạy truy vấn, điều chỉnh ngưỡng tương đồng và kiểm tra những gì được truy xuất cho một lời nhắc nhất định.

Thử hỏi

  • "Tìm kiếm collection Chroma 'knowledge-base' của tôi cho tài liệu về chính sách hoàn tiền"
  • "Thêm 5 tài liệu này vào collection Chroma của tôi với các thẻ siêu dữ liệu: [dán tài liệu]"
  • "Tạo collection Chroma mới gọi là 'product-docs' với khoảng cách cosine"
  • "Có bao nhiêu tài liệu trong collection 'support-tickets' của tôi?"
  • "Hiển thị 3 kết quả tương tự nhất với 'làm thế nào để hủy đăng ký của tôi' trong collection FAQ"
  • "Liệt kê tất cả collection Chroma của tôi và số tài liệu trong mỗi collection"
  • Mẹo chuyên nghiệp

  • Lọc siêu dữ liệu phong phú — luôn bao gồm siêu dữ liệu về nguồn, ngày tháng và danh mục khi thêm tài liệu; lọc theo siêu dữ liệu cùng với tìm kiếm ngữ nghĩa để có kết quả chính xác hơn nhiều.
  • Kích thước đoạn ảnh hưởng đến khả năng nhớ lại — chia tài liệu dài thành các đoạn 300 đến 500 token; đoạn ngắn hơn cải thiện độ chính xác truy xuất nhưng tốn nhiều vector hơn.
  • Khoảng cách cosine so với L2 — đối với nhúng văn bản, khoảng cách cosine hầu như luôn tốt hơn L2; xác minh hàm khoảng cách của collection khi tạo mới.
  • Upsert để cập nhật — luôn sử dụng upsert thay vì add khi nhập lại tài liệu để tránh các mục trùng lặp.
  • Works Well With