PDFファイル処理のシーケンス図

PDFファイルがアップロードされてから、ベクトル化されQdrantに保存されるまでの流れをシーケンス図で表現しています。

処理の詳細

PDFアップロード

クライアントからAPIにPDFファイルがアップロードされます

ファイル保存とメタデータ抽出

APIはPDFファイルを一時的に保存し、メタデータ（ファイルサイズ、ページ数など）を抽出します

このメタデータはPostgreSQLに保存され、一意のドキュメントIDが生成されます

テキスト抽出

PDFからテキストコンテンツが抽出されます

チャンク分割

抽出されたテキストは、意味のある単位（チャンク）に分割されます

分割は一般的にトークン数や段落、セクションなどに基づいて行われます

ベクトル化とQdrant保存

各チャンクは埋め込みモデルを使用してベクトル化されます

ベクトルデータとチャンクの参照情報はQdrantに保存されます

チャンク自体の情報はPostgreSQLに保存されます

完了通知

全チャンクの処理が完了すると、APIはクライアントに成功レスポンスを返します