OpenAgentAGI

Үнэлгээ (Evaluator)

Үнэлгээ (Evaluator) блок нь таны тодорхойлсон, өөрчлөх боломжтой үнэлгээний шалгуур (metrics)-уудыг ашиглан контентийн чанарыг AI-ийн тусламжтайгаар оноо өгч, дүгнэхэд зориулагдсан. Энэ нь чанарын хяналт, A/B тест, мөн AI-ийн гаралтууд тодорхой стандарт хангаж байгаа эсэхийг баталгаажуулахад маш тохиромжтой.

Evaluator Block Configuration

Overview

Үнэлгээ (Evaluator) блок нь дараах боломжуудыг олгоно:

Контентийн чанарыг оноогоор үнэлэх: AI ашиглан захиалгат шалгуурын дагуу тоон үнэлгээ өгнө

Захиалгат шалгуур тодорхойлох: Тухайн хэрэглээндээ тохирсон үнэлгээний критерийг бий болгоно

Чанарын хяналтыг автоматжуулах: Контентыг автоматаар шалгаж, шүүж боловсруулах workflow үүсгэнэ

Гүйцэтгэлийг хянах: Цаг хугацааны явцад сайжрал, тогтвортой байдлыг бодит оноонд тулгуурлан хянах

Хэрхэн ажилладаг вэ

Үнэлгээ (Evaluator) блок нь контентыг AI-д суурилсан үнэлгээгээр дараах байдлаар боловсруулна:

  1. Контент хүлээн авах — Workflow-ийн өмнөх блокуудын гаралтыг авна
  2. Шалгуур хэрэглэх — Таны тодорхойлсон үнэлгээний шалгуур бүрээр дүгнэнэ
  3. Оноо үүсгэх — AI модель шалгуур бүрт тоон үнэлгээ өгнө
  4. Нэгдсэн дүгнэлт өгөх — Оноо болон тайлбар бүхий дэлгэрэнгүй үнэлгээг буцаана

Configuration Options

Үнэлгээний оноо (Evaluation Metrics)

Контентыг үнэлэх захиалгат шалгуур (metrics)-уудыг тодорхойлно. Шалгуур бүр дараах мэдээллийг агуулна:

  • Name — Шалгуурын товч нэр
  • Description — Ямар зүйлийг хэмжиж байгааг тайлбарласан дэлгэрэнгүй тодорхойлолт
  • Range — Онооны хязгаар (жишээ нь: 1–5, 0–10)

Жишээ шалгуурууд:

Accuracy (1-5): Контент баримтад хэр нийцэж, үнэн зөв байна вэ? Clarity (1-5): Контент ойлгомжтой, тодорхой байна уу? Relevance (1-5): Анхны асуултад хэр тохирч байна вэ?

php-template Copy code

Content

Үнэлгээ хийх контент. Энэ нь дараах хэлбэртэй байж болно:

  • Блокийн тохиргоонд шууд оруулсан текст
  • Өөр блокийн (ихэвчлэн Agent блок) гаралтаас холбогдсон өгөгдөл
  • Workflow гүйцэтгэх явцад динамикаар үүссэн контент

Model Selection

Үнэлгээг хийх AI моделио сонгоно:

OpenAI: GPT-4o, o1, o3, o4-mini, gpt-4.1
Anthropic: Claude 3.7 Sonnet
Google: Gemini 2.5 Pro, Gemini 2.0 Flash
Бусад провайдерууд: Groq, Cerebras, xAI, DeepSeek
Локал модель: Ollama дээр ажиллаж буй дурын модель

Зөвлөмж: Илүү нарийвчлалтай үнэлгээ авахын тулд GPT-4o эсвэл Claude 3.7 Sonnet шиг reasoning чадвар өндөртэй модель ашиглахыг зөвлөе.

API Key

Сонгосон LLM провайдерын API түлхүүр. Энэ нь аюулгүйгээр хадгалагдаж, баталгаажуулалтад ашиглагдана.

How It Works

  1. Evaluator блок нь контент болон таны тодорхойлсон шалгууруудыг авна
  2. Контентыг үнэлэх тусгай prompt-ийг автоматаар үүсгэнэ
  3. Prompt нь шалгуур бүрийг хэрхэн үнэлэх зааврыг тодорхой агуулна
  4. LLM контентыг үнэлж, шалгуур бүрт тоон оноо өгнө
  5. Evaluator блок эдгээр оноог бүтэцтэй гаралт болгон форматлана

Example Use Cases

Контентийн чанарын үнэлгээ

Нөхцөл байдал: Блог нийтлэлийг нийтлэхээс өмнө үнэлэх

  1. Agent блок блогийн контент үүсгэнэ
  2. Evaluator үнэн зөв байдал, уншигдах чанар, сонирхол татах байдлыг үнэлнэ
  3. Condition блок оноо доод босго хангаж байгаа эсэхийг шалгана
  4. Өндөр оноо → Нийтлэх, Бага оноо → Засварлаад дахин оролдох

A/B тест хийх

Нөхцөл байдал: AI-ийн хэд хэдэн хариуг харьцуулах

  1. Parallel блок олон хувилбар хариу үүсгэнэ
  2. Evaluator тодорхой, хамааралтай байдлаар нь үнэлнэ
  3. Function блок хамгийн өндөр оноотой хариуг сонгоно
  4. Response блок шилдэг үр дүнг буцаана

Хэрэглэгчийн дэмжлэгийн чанарын хяналт

Нөхцөл байдал: Дэмжлэгийн хариу стандарт хангаж буй эсэхийг шалгах

  1. Support agent хэрэглэгчийн асуултад хариу бэлтгэнэ
  2. Evaluator тусламжтай байдал, ойлголцол, үнэн зөв байдлыг үнэлнэ
  3. Оноонуудыг сургалт, гүйцэтгэлийн хяналтад хадгална
  4. Бага оноо авбал хүний хяналтын процесс эхэлнэ

Inputs and Outputs

  • Content: Үнэлэх текст эсвэл бүтэцтэй өгөгдөл

  • Evaluation Metrics: Онооны хязгаартай захиалгат шалгуурууд

  • Model: Үнэлгээ хийхэд ашиглах AI модель

  • API Key: Сонгосон LLM провайдерын баталгаажуулалт

  • evaluator.content: Үнэлгээний нэгдсэн тайлбар

  • evaluator.model: Ашигласан модель

  • evaluator.tokens: Token ашиглалтын статистик

  • evaluator.cost: Үнэлгээний дуудлагын зардлын мэдээлэл

  • Metric Scores: Шалгуур бүрийн тоон оноо

  • Evaluation Summary: Дэлгэрэнгүй дүгнэлт, тайлбар

  • Access: Evaluator блокийн дараах блокууд дээр ашиглах боломжтой

Best Practices

  • Шалгуурын тайлбарыг тодорхой бич: Яг юуг хэмжиж байгааг нарийн тодорхойлбол үнэлгээ илүү бодит болно
  • Зөв онооны хүрээ сонго: Хэт энгийн биш, хэт төвөгтэй биш хүрээ ашиглах
  • Agent блоктой уялдуулах: Agent-ийн гаралтыг Evaluator-аар үнэлж feedback loop үүсгэх
  • Нэгэн жигд шалгуур ашиглах: Харьцуулалт хийх үед ижил шалгуур баримтлах
  • Олон шалгуур хослуулах: Контентыг бүх талаас нь үнэлэхийн тулд хэд хэдэн шалгуур ашигл
Үнэлгээ (Evaluator)