Arize Phoenix
IA & ML
Neotask sur OpenClaw automatise votre pipeline d'observabilité LLM via Arize Phoenix — surveillant les traces, gérant les prompts et exécutant des expériences pour que vos systèmes IA restent fiables.
- La santé du pipeline LLM est surveillée automatiquement — votre agent inspecte les traces, signale les spans défaillants et remonte les problèmes d'annotation avant qu'ils n'atteignent la production
- L'ingénierie des prompts devient un workflow géré — le contrôle de version, le tagging et les tests A/B des prompts se font par conversation plutôt que par itération manuelle
- Les jeux de données d'évaluation se développent à partir de données de production réelles — votre agent capture les traces, les ajoute comme exemples de test et exécute automatiquement des expériences de régression
Ce que vous pouvez faire
Votre agent IA transforme Arize Phoenix en une opération d'observabilité LLM entièrement automatisée. Il surveille vos pipelines IA, gère les versions de prompts et exécute des expériences — maintenant vos modèles fiables sans supervision manuelle constante.
Surveillance du pipeline
Votre agent inspecte en continu les traces et spans de tous les projets. Il identifié les patterns d'erreurs, examine les annotations de spans et remonte les sessions où la qualité a dégradé. Planifiez des vérifications de santé régulières et soyez alerté avant que les problèmes n'atteignent les utilisateurs.
Gestion du cycle de vie des prompts
Gérez les prompts comme des ressources versionnées et taguées. Votre agent crée de nouvelles versions, tague les releases en production ou staging et suit l'historique des itérations. Lorsque vous devez faire un rollback, il connaît chaque version qui a jamais existé.
Expérimentation automatisée
Constituez des jeux de données d'évaluation à partir de traces de production réelles. Votre agent ajoute des exemples à partir de spans intéressants, exécute des expériences sur les jeux de données et compare les résultats entre les versions de prompts. Quantifiez les améliorations avant de les déployer.
| Domaine | Ce que votre agent gère |
|---------|------------------------|
| Prompts | Gestion des versions, tagging, upserts, suivi des itérations |
| Traces & Spans | Inspection, examen des annotations, détection d'erreurs |
| Jeux de données | Gestion des exemples, exécution d'expériences, tests de régression |
| Projets | Surveillance multi-projets, suivi des sessions, vérifications de santé |
Chaque action s'exécute de manière autonome ou nécessite votre approbation — c'est vous qui décidez.
Essayez de demander
« Vérifiez toutes les traces de la dernière heure et signalez celles avec des spans d'erreur »
« Taguez la dernière version de notre prompt 'support-client' comme 'production' »
« Ajoutez les 10 traces échouées les plus récentes comme exemples à notre jeu de données de test de régression »
« Exécutez une expérience comparant le prompt v4 au v5 sur le jeu de données 'classification' »
« Quelles annotations existent pour les spans dans le projet 'pipeline-recherche' ? »
« Montrez-moi toutes les sessions d'aujourd'hui avec plus de 3 tours »
« Listez chaque version de prompt que nous avons déployée en production le mois dernier »
« Créez un nouveau prompt appelé 'extracteur-factures' à partir de ce modèle »Conseils d'expert
Planifiez des vérifications horaires des traces pendant les périodes de fort trafic — votre agent détecte les régressions avant qu'elles ne s'aggravent
Utilisez des portes d'approbation pour le tagging des versions de prompts — examinez les changements avant de marquer quoi que ce soit en production
Les équipes multi-agents excellent ici : un agent surveille les traces, un autre gère les prompts, un troisième exécute les expériences
Constituez des jeux de données de régression à partir de vraies défaillances — ils détectent des cas limites que les données synthétiques manquent
L'analyse au niveau des sessions révèle des problèmes de conversation multi-tours que l'inspection de trace unique manque
Combinez Phoenix avec votre intégration d'alertes pour être notifié dès que la qualité des traces baisse
Works Well With
- bigquery - Connect Arize Phoenix with BigQuery to sync ML model metrics, traces, and observability data directly into your data war...
- google-slides - Connect Arize Phoenix to Google Slides to automate ML observability reporting and share AI model monitoring insights as ...
- microsoft-365 - Connect Arize Phoenix ML observability with Microsoft 365. Send AI model monitoring reports to Teams, automate alerts, a...