rag-llm-proto
ページをコピー
rag-llm-proto
PDFファイルとQdrantポイントの関係
PDFファイル処理のシーケンス図
ファイル一覧取得
GET
新規ファイル追加
POST
ファイル削除
DELETE
検索
POST
PDFファイルとQdrantポイントの関係
ページをコピー
PDFドキュメントがどのようにチャンク分割され、Qdrantのベクトルデータベースに保存されるかを表したER図です。
解説
#
1.
PDFDocument
(PDFファイル)
1つのPDFドキュメントは複数のChunk(チャンク)に分割されます
ドキュメントIDやファイル名などの基本情報を持ちます
2.
Chunk
(チャンク)
PDFから抽出されたテキストの断片
どのPDFドキュメントから来たか、ページ番号などの情報を持ちます
1つのチャンクは1つのQdrantPointと関連付けられます
3.
QdrantPoint
(Qdrantポイント)
Qdrantに保存されるベクトル表現
チャンクIDを参照し、元のテキスト内容とのリンクを維持します
埋め込みベクトルや類似度スコアなどを持ちます
payloadフィールドはJSONオブジェクトとして以下のような情報を含みます:
document_id: 元のPDFドキュメントID
メタデータ
この構造により、ベクトル検索時に適切なQdrantPointが検索され、そのチャンクを通じて元のPDFドキュメントまでトレースできる親子関係が形成されています。
更新日時
2025-05-08 15:02:15
次へ
PDFファイル処理のシーケンス図