📥
Çoklu Kaynak Ingestion
PDF (taranmış dahil), Word, Excel, PowerPoint, Markdown, HTML, JSON, CSV, Notion, Confluence, SharePoint, S3, Google Drive, web crawler, SQL/NoSQL veritabanı, REST API. Otomatik scheduled re-ingest.
PDF + OCRWeb CrawlSQL
✂️
Akıllı Chunking
Parent-child (büyük bağlam, küçük arama birimi), semantic (anlam bütünlüğüne göre), recursive splitter, fixed-size, code-aware, markdown header tabanlı. Chunk overlap ve özet eklentisi.
Parent-ChildSemanticRecursive
🧮
Embedding Modelleri
Jina, Voyage, OpenAI text-embedding-3, Cohere embed-multilingual, BGE, E5, Türkçe optimize modeller. Çok dilli arama, model değişiminde otomatik re-embed.
MultilingualTürkçeHot-swap
🗄️
Vektör Veritabanları
Weaviate (varsayılan), Qdrant, Milvus, pgvector, Pinecone, Chroma, Elasticsearch, OpenSearch, MyScale, AnalyticDB, TiDB, Tencent VDB. 30+ seçenek, tek konfig değişikliği.
30+ DBSelf-hostedCloud
🔎
Hibrit Arama
Vektör araması (semantic) + BM25 (keyword). Dinamik ağırlıklandırma, metadata filtering (tarih, etiket, kategori, yetki). Hassas terim eşleşmesi + anlam yakınlığı bir arada.
Vector + BM25Metadata Filter
📊
Reranking
Cross-encoder modelleri (bge-rerank, cohere-rerank, jina-rerank) ile retrieve edilen parçalar yeniden sıralanır. False positive'ler ayıklanır, top-k'da gerçekten alakalı parçalar kalır.
Cross-encoderCohereJina
📝
Kaynak Gösterimi
Her cevap, hangi dokümanın hangi sayfasından / paragrafından üretildiğini gösterir. Tıklanabilir alıntılar, halüsinasyon riskini elimine eder, denetim için audit trail.
CitationsPage-levelAudit
🛡️
Yetki & İzolasyon
Knowledge base'ler tenant ve user-grup düzeyinde izole. Doküman bazında ACL, sorgu sırasında yetkilendirme filtresi. Veri sızıntısı engellenir.
RBACPer-doc ACL
🔄
Sürekli Güncelleme
Otomatik re-ingestion (scheduled veya webhook tetikli), incremental update, doküman versiyonu takibi. Bilgi tabanı her zaman güncel.
ScheduledWebhookVersioned