PDFファイルとQdrantポイントの関係

PDFドキュメントがどのようにチャンク分割され、Qdrantのベクトルデータベースに保存されるかを表したER図です。

解説

PDFDocument (PDFファイル)

1つのPDFドキュメントは複数のChunk（チャンク）に分割されます

ドキュメントIDやファイル名などの基本情報を持ちます

Chunk (チャンク)

PDFから抽出されたテキストの断片

どのPDFドキュメントから来たか、ページ番号などの情報を持ちます

1つのチャンクは1つのQdrantPointと関連付けられます

QdrantPoint (Qdrantポイント)

Qdrantに保存されるベクトル表現

チャンクIDを参照し、元のテキスト内容とのリンクを維持します

埋め込みベクトルや類似度スコアなどを持ちます

payloadフィールドはJSONオブジェクトとして以下のような情報を含みます：

document_id: 元のPDFドキュメントID

メタデータ

この構造により、ベクトル検索時に適切なQdrantPointが検索され、そのチャンクを通じて元のPDFドキュメントまでトレースできる親子関係が形成されています。