Суурь Мэдлэг (Knowledgebase)
Суурь Мэдлэг (Knowledgebase) нь таны баримт бичгүүдийг ухаалгаар вектор хайлт болон chunk хийх аргаар байршуулж, боловсруулах, хайх боломжийг олгодог. Төрөл бүрийн баримт бичгүүд автоматаар боловсруулагдаж, embedding үүсгэн, хайлт хийх боломжтой болдог. Баримтууд ухаалгаар хэсэглэгдэж (chunk), та тэдгээрийг харах, засварлах болон байгалийн хэл дээрх асуултаар хайх боломжтой.
Байршуулах ба боловсруулах
Эхлэхийн тулд баримт бичгүүдээ байршуулахад хангалттай. OpenAgentAGI нь арын горимд автоматаар боловсруулж, текстийг задлах, embedding үүсгэх, хайлт хийх боломжтой хэсгүүдэд хуваах бүх процессыг гүйцэтгэнэ.
Систем нь дараах бүх боловсруулах шатыг бүрэн хариуцна:
- Текст задлах: Файлын төрлөөс хамааран тусгай parser ашиглан баримтаас контентыг задлана
- Ухаалаг chunk хийх: Баримтыг утга агуулгатай хэсгүүдэд, тохируулж болох хэмжээ ба давхцалтайгаар хуваана
- Embedding үүсгэх: Семантик хайлт хийхэд зориулсан вектор embedding-үүдийг бий болгоно
- Боловсруулалтын төлөв: Баримт боловсруулах явцыг бодит цагт хянах боломжтой
Дэмжигдэх файлын төрлүүд
OpenAgentAGI нь PDF, Word (DOC/DOCX), энгийн текст (TXT), Markdown (MD), HTML, Excel (XLS/XLSX), PowerPoint (PPT/PPTX), CSV файлуудыг дэмжинэ. Нэг файл 100MB хүртэл хэмжээтэй байж болох бөгөөд 50MB-ээс доош файлуудад хамгийн сайн гүйцэтгэлтэй. Олон баримтыг зэрэг байршуулах боломжтой ба PDF файлууд нь сканнердсан баримтад зориулсан OCR боловсруулалтыг агуулна.
Chunk-уудыг харах ба засварлах
Баримтууд боловсруулагдсаны дараа та тус бүрийн chunk-ийг харах болон засварлах боломжтой. Ингэснээр таны контент хэрхэн зохион байгуулагдаж, хайлт хийгдэж байгааг бүрэн хянах боломжтой.
Chunk тохиргоо
- Анхдагч chunk хэмжээ: 1,024 тэмдэгт
- Тохируулж болох хүрээ: 100–4,000 тэмдэгт
- Ухаалаг давхцал: Контекст хадгалахын тулд анхдагчаар 200 тэмдэгт
- Иерархи задлал: Баримтын бүтэц (хэсэг, догол мөр, өгүүлбэр)-ийг хүндэтгэн задлана
Засварлах боломжууд
- Chunk контент засварлах: Тухайн хэсгийн текстийг өөрчлөх
- Хил зааг тохируулах: Chunk-уудыг нэгтгэх эсвэл салгах
- Metadata нэмэх: Нэмэлт контекстээр баяжуулах
- Бөөн үйлдэл: Олон chunk-ийг үр ашигтайгаар удирдах
PDF-ийн ахисан түвшний боловсруулалт
PDF баримтуудад OpenAgentAGI нь нэмэлт боловсруулалтын боломжуудыг санал болгодог:
OCR дэмжлэг
Azure эсвэл Mistral OCR-оор тохируулсан үед:
- Сканнердсан баримт боловсруулах: Зураг дээр суурилсан PDF-ээс текст гарган авах
- Холимог контент боловсруулах: Текст ба зураг агуулсан PDF-үүдийг боловсруулах
- Өндөр нарийвчлал: Дэвшилтэт AI загваруудын тусламжтайгаар үнэн зөв текст задлал
Workflow-д Knowledge Block ашиглах
Баримтууд боловсруулагдсаны дараа та Knowledge block-оор дамжуулан AI workflow-д ашиглах боломжтой. Энэ нь Retrieval-Augmented Generation (RAG)-ийг идэвхжүүлж, AI агентуудыг баримтын контентыг ашиглан илүү нарийвчлалтай, контекстэд суурилсан хариу өгөх боломжтой болгоно.
Knowledge Block-ийн боломжууд
- Семантик хайлт: Байгалийн хэл дээрх асуултаар холбогдох контент олох
- Контекст нэгтгэх: Холбогдох chunk-уудыг агентын prompt-д автоматаар оруулах
- Динамик таталт: Workflow гүйцэтгэх явцад бодит цагт хайлт хийх
- Холбогдлын үнэлгээ: Семантик төстэй байдлаар үр дүнг эрэмбэлэх
Интеграцийн сонголтууд
- System prompt: AI агентуудад контекст өгөх
- Динамик контекст: Ярианы явцад холбогдох мэдээллийг хайж оруулах
- Олон баримтын хайлт: Knowledgebase-ийн бүх баримтаар асуулт хийх
- Шүүлтүүртэй хайлт: Tag-тай хослуулан нарийвчилсан хайлт хийх
Вектор хайлтын технологи
OpenAgentAGI нь pgvector-д суурилсан вектор хайлтыг ашиглан таны контентийн утга агуулга, контекстийг ойлгодог:
Семантик ойлголт
- Контекстэд суурилсан хайлт: Түлхүүр үг яг таарахгүй байсан ч холбогдох контентыг олно
- Ойлголтод суурилсан таталт: Санаануудын хоорондын хамаарлыг ойлгоно
- Олон хэлний дэмжлэг: Олон хэл дээр ажиллана
- Ижил утгатай үг таних: Холбогдох нэр томьёо, ойлголтыг илрүүлнэ
Хайлтын боломжууд
- Байгалийн хэл дээрх асуулт: Энгийн өгүүлбэрээр асуулт асуух
- Төстэй байдлын хайлт: Утгаараа төстэй контентыг олох
- Hybrid хайлт: Вектор болон уламжлалт түлхүүр үгт хайлтыг хослуулах
- Тохируулгатай үр дүн: Үр дүнгийн тоо болон хамааралтын босгыг удирдах
Баримт бичгийн удирдлага
Зохион байгуулалтын боломжууд
- Бөөн байршуулах: Асинхрон API ашиглан олон файл зэрэг байршуулах
- Боловсруулалтын төлөв: Баримт боловсруулах явцыг бодит цагт харах
- Хайлт ба шүүлт: Томоохон цуглуулга дундаас хурдан олох
- Metadata хөтлөлт: Файлын мэдээлэл, боловсруулалтын дэлгэрэнгүйг автоматаар хадгалах
Аюулгүй байдал ба нууцлал
- Аюулгүй хадгалалт: Байгууллагын түвшний хамгаалалттай хадгална
- Хандалтын хяналт: Workspace-д суурилсан зөвшөөрөл
- Боловсруулалтын тусгаарлалт: Workspace бүр тусдаа баримт боловсруулах орчинтой
- Өгөгдөл хадгалах бодлого: Баримт хадгалах хугацааг тохируулах боломжтой
Эхлэх заавар
- Knowledgebase руу очих: Workspace-ийн sidebar-оос нэвтрэх
- Баримт байршуулах: Drag & drop хийх эсвэл файл сонгох
- Боловсруулалтыг хянах: Баримтууд хэрхэн боловсруулагдаж, chunk хийгдэж байгааг ажиглах
- Chunk-уудыг судлах: Боловсруулагдсан контентыг харах, засварлах
- Workflow-д нэмэх: Knowledge block-ийг ашиглан AI агентуудтай холбох
Knowledgebase нь таны статик баримт бичгүүдийг ухаалаг, хайлт хийх боломжтой нөөц болгон хувиргаж, AI workflow-ууд илүү мэдээлэлд суурилсан, контексттэй хариу өгөхөд ашиглах боломжийг бүрдүүлнэ.