Arize Phoenix

IA & ML

Neotask sur OpenClaw automatise votre pipeline d'observabilité LLM via Arize Phoenix — surveillant les traces, gérant les prompts et exécutant des expériences pour que vos systèmes IA restent fiables.

Ce que vous pouvez faire

Votre agent IA transforme Arize Phoenix en une opération d'observabilité LLM entièrement automatisée. Il surveille vos pipelines IA, gère les versions de prompts et exécute des expériences — maintenant vos modèles fiables sans supervision manuelle constante.

Surveillance du pipeline

Votre agent inspecte en continu les traces et spans de tous les projets. Il identifié les patterns d'erreurs, examine les annotations de spans et remonte les sessions où la qualité a dégradé. Planifiez des vérifications de santé régulières et soyez alerté avant que les problèmes n'atteignent les utilisateurs.

Gestion du cycle de vie des prompts

Gérez les prompts comme des ressources versionnées et taguées. Votre agent crée de nouvelles versions, tague les releases en production ou staging et suit l'historique des itérations. Lorsque vous devez faire un rollback, il connaît chaque version qui a jamais existé.

Expérimentation automatisée

Constituez des jeux de données d'évaluation à partir de traces de production réelles. Votre agent ajoute des exemples à partir de spans intéressants, exécute des expériences sur les jeux de données et compare les résultats entre les versions de prompts. Quantifiez les améliorations avant de les déployer.

| Domaine | Ce que votre agent gère |

|---------|------------------------|

| Prompts | Gestion des versions, tagging, upserts, suivi des itérations |

| Traces & Spans | Inspection, examen des annotations, détection d'erreurs |

| Jeux de données | Gestion des exemples, exécution d'expériences, tests de régression |

| Projets | Surveillance multi-projets, suivi des sessions, vérifications de santé |

Chaque action s'exécute de manière autonome ou nécessite votre approbation — c'est vous qui décidez.

Essayez de demander

  • « Vérifiez toutes les traces de la dernière heure et signalez celles avec des spans d'erreur »
  • « Taguez la dernière version de notre prompt 'support-client' comme 'production' »
  • « Ajoutez les 10 traces échouées les plus récentes comme exemples à notre jeu de données de test de régression »
  • « Exécutez une expérience comparant le prompt v4 au v5 sur le jeu de données 'classification' »
  • « Quelles annotations existent pour les spans dans le projet 'pipeline-recherche' ? »
  • « Montrez-moi toutes les sessions d'aujourd'hui avec plus de 3 tours »
  • « Listez chaque version de prompt que nous avons déployée en production le mois dernier »
  • « Créez un nouveau prompt appelé 'extracteur-factures' à partir de ce modèle »
  • Conseils d'expert

  • Planifiez des vérifications horaires des traces pendant les périodes de fort trafic — votre agent détecte les régressions avant qu'elles ne s'aggravent
  • Utilisez des portes d'approbation pour le tagging des versions de prompts — examinez les changements avant de marquer quoi que ce soit en production
  • Les équipes multi-agents excellent ici : un agent surveille les traces, un autre gère les prompts, un troisième exécute les expériences
  • Constituez des jeux de données de régression à partir de vraies défaillances — ils détectent des cas limites que les données synthétiques manquent
  • L'analyse au niveau des sessions révèle des problèmes de conversation multi-tours que l'inspection de trace unique manque
  • Combinez Phoenix avec votre intégration d'alertes pour être notifié dès que la qualité des traces baisse
  • Works Well With