rag-llm-proto
ページをコピー
rag-llm-proto
PDFファイルとQdrantポイントの関係
PDFファイル処理のシーケンス図
ファイル一覧取得
GET
新規ファイル追加
POST
ファイル削除
DELETE
検索
POST
PDFファイル処理のシーケンス図
ページをコピー
PDFファイルがアップロードされてから、ベクトル化されQdrantに保存されるまでの流れをシーケンス図で表現しています。
処理の詳細
#
1.
PDFアップロード
クライアントからAPIにPDFファイルがアップロードされます
2.
ファイル保存とメタデータ抽出
APIはPDFファイルを一時的に保存し、メタデータ(ファイルサイズ、ページ数など)を抽出します
このメタデータはPostgreSQLに保存され、一意のドキュメントIDが生成されます
3.
テキスト抽出
PDFからテキストコンテンツが抽出されます
4.
チャンク分割
抽出されたテキストは、意味のある単位(チャンク)に分割されます
分割は一般的にトークン数や段落、セクションなどに基づいて行われます
5.
ベクトル化とQdrant保存
各チャンクは埋め込みモデルを使用してベクトル化されます
ベクト ルデータとチャンクの参照情報はQdrantに保存されます
チャンク自体の情報はPostgreSQLに保存されます
6.
完了通知
全チャンクの処理が完了すると、APIはクライアントに成功レスポンスを返します
更新日時
2025-05-08 14:58:05
前へ
PDFファイルとQdrantポイントの関係
次へ
ファイル一覧取得