rag-llm-proto
    rag-llm-proto
    • PDFファイルとQdrantポイントの関係
    • PDFファイル処理のシーケンス図
    • ファイル一覧取得
      GET
    • 新規ファイル追加
      POST
    • ファイル削除
      DELETE
    • 検索
      POST

    PDFファイルとQdrantポイントの関係

    PDFドキュメントがどのようにチャンク分割され、Qdrantのベクトルデータベースに保存されるかを表したER図です。

    解説#

    1.
    PDFDocument (PDFファイル)
    1つのPDFドキュメントは複数のChunk(チャンク)に分割されます
    ドキュメントIDやファイル名などの基本情報を持ちます
    2.
    Chunk (チャンク)
    PDFから抽出されたテキストの断片
    どのPDFドキュメントから来たか、ページ番号などの情報を持ちます
    1つのチャンクは1つのQdrantPointと関連付けられます
    3.
    QdrantPoint (Qdrantポイント)
    Qdrantに保存されるベクトル表現
    チャンクIDを参照し、元のテキスト内容とのリンクを維持します
    埋め込みベクトルや類似度スコアなどを持ちます
    payloadフィールドはJSONオブジェクトとして以下のような情報を含みます:
    document_id: 元のPDFドキュメントID
    メタデータ
    この構造により、ベクトル検索時に適切なQdrantPointが検索され、そのチャンクを通じて元のPDFドキュメントまでトレースできる親子関係が形成されています。
    更新日時 2025-05-08 15:02:15
    次へ
    PDFファイル処理のシーケンス図
    Built with