Firecrawl

開發

透過 Neotask 在 OpenClaw 上將網站爬取並抓取為乾淨的 Markdown 用於 AI 工作流程 — 透過對話進行 Firecrawl 驅動的網路數據提取。

您可以做什麼

將網站爬取為乾淨的 Markdown

請 Neotask 爬取網站並以乾淨的 Markdown 返回所有頁面。Firecrawl 處理 JavaScript 渲染、導航和分頁——您獲得乾淨的文字,可供向量擷取或文件處理使用。

抓取個別頁面

請 Neotask 抓取特定 URL 並以 Markdown 返回其內容。Firecrawl 去除導航、廣告和模板,讓您從包括 JS 渲染 SPA 在內的任何頁面獲得核心內容。

提取結構化數據

請 Neotask 抓取頁面並將特定數據提取為結構化格式。描述您想要的欄位,Firecrawl 使用 AI 提取從頁面內容返回乾淨的 JSON。

繪製網站結構

請 Neotask 繪製網站並返回所有發現的 URL。適用於稽核內容覆蓋範圍、查找缺少的頁面或規劃爬取範圍。

為 RAG 數據管道提供動力

使用 Neotask 透過 Firecrawl 爬取文件網站、知識庫或產品頁面,並將 Markdown 直接饋入向量儲存用於檢索增強生成。

試著這樣問

  • "爬取 docs.example.com 並以 Markdown 返回所有頁面供我的 RAG 管道使用"
  • "抓取此產品頁面並提取:標題、價格、描述和規格:[URL]"
  • "繪製 competitor.com 的網站結構並顯示您找到的所有 URL"
  • "抓取此 JavaScript 渲染的儀表板頁面並返回可見文字內容:[URL]"
  • "以結構化 JSON 形式從此頁面提取定價表:[URL]"
  • 專業提示

  • Markdown 比 HTML 更乾淨 — 在將內容饋入 LLM 時,始終從 Firecrawl 請求 Markdown 輸出而非原始 HTML;Markdown 去除了使模型困惑的格式雜訊。
  • 爬取深度限制 — 爬取大型網站時設定明確的深度限制;從深度 2 開始,根據需要擴展。
  • 排除模式 — 在爬取前配置 URL 排除模式,跳過添加雜訊而無有用內容的更新日誌頁面、法律頁面或標籤存檔。
  • 結構化數據的 AI 提取 — 對於抓取產品列表、定價表或職位招聘,使用 Firecrawl 的 AI 提取配合定義的結構描述;比 CSS 選擇器抓取可靠得多。
  • Works Well With