Databricks

数据

通过 Neotask 运行笔记本、管理集群并查询 Databricks 数据湖仓——数据工程和分析通过对话实现。

你可以做什么

对数据湖仓运行 SQL 查询

让 Neotask 查询 Unity Catalog 表、从 Delta Lake 数据集聚合数据,或在 Databricks SQL 仓库中联接多个表。OpenClaw 将您的自然语言问题转换为 SQL 并返回结果。

管理集群和计算

让 Neotask 启动集群、检查当前运行的集群、终止空闲计算,或获取过去 30 天使用的计算成本。

运行和监控作业

让 Neotask 触发 Databricks 作业运行、检查当前运行作业的状态,或获取失败作业运行的输出和日志。

探索模式和表

让 Neotask 列出 Unity Catalog 中的所有目录、模式和表,描述特定表的模式,或显示数据集的示例数据。

管理笔记本和工作区

让 Neotask 列出工作区目录中的笔记本、检索笔记本内容,或获取特定笔记本的运行历史。

试试这样问

  • "显示 'sales.transactions' 表中金额超过 1000 美元的最后 100 行"
  • "我的 Databricks 工作区中当前运行的集群有哪些?"
  • "运行 'daily-etl' 作业并在完成时通知我"
  • "'data-pipeline' 作业昨晚失败了——给我错误日志"
  • "列出 'analytics' 模式中所有表及其行数"
  • 专业技巧

  • SQL 仓库与集群——对于交互式 SQL 查询,使用 SQL 仓库;对于笔记本和 Spark 工作负载,使用通用集群。针对您的查询选择正确的计算类型。
  • Delta 缓存——如果对同一表的重复查询较慢,检查集群上是否启用了 Delta 缓存;缓存的表响应速度明显更快。
  • 大型查询使用 Photon——在大型数据集的分析工作负载中,为 SQL 仓库启用 Photon 加速;它能显著减少查询时间。
  • Unity Catalog 权限——当查询因权限错误失败时,在修改查询之前检查该目录或模式的 Unity Catalog 授权。
  • Works Well With