ssmixtwinsを使ったデータベースの生成マニュアル
このドキュメントでは、ssmixtwinsを使用してSS-MIX2ストレージを生成する方法について説明します。
1. 元となるデータの準備
このPythonパッケージは、データベースの元となる最小限の患者データを必要とします。 ssmixtwinsはこれをもとに、患者名や住所、オーダー番号、アレルギー情報、保険情報などさまざまなダミーデータを追加し、本物らしいSS-MIX2ストレージを構築します。 必要なCSVファイルの詳細については CSVデータ詳細 をご覧ください。
2. ssmixtwinsをインストール
Note
このパッケージは、Python 3.10以上の環境で動作します。必要に応じてまずPython3をインストールまたはアップデートしてください。
ステップ:
ssmixtwinsのリポジトリをクローンします。
cd /path/to/your/working_dir git clone https://github.com/yuakagi/ssmixtwins.gitここで、/path/to/your/working_dirは、作業ディレクトリのパスに置き換えてください。
リポジトリのルートディレクトリに移動し、Pythonの仮想環境を構築します。
cd /path/to/your/working_dir/ssmixtwins python3 -m venv .venv source .venv/bin/activatessmixtwinsをインストールします。
pip install .必要な依存関係もインストールされます。
3. SS-MIX2ストレージを生成
ssmixtwins.create_ssmix()を使用して、SS-MIX2ストレージを生成します。from ssmixtwins import create_ssmix create_ssmix( # 元となるCSVファイルが格納されているディレクトリ source_dir="/path/to/your/source_data", # 出力先ディレクトリ output_dir="/path/to/your/output_data", # ワーカーの数。大量のデータを処理する場合は、マシンのCPUコア数に応じて調整してください。ワーカーの数が少ないと、非常に時間がかかる場合があります。 max_workers=10, # CSVファイルのバリデーションをスキップしたい場合、Trueに設定します。 already_validated=False, )この関数はまず、全てのCSVファイルを一度検証します。全て問題がなければ、SS-MIX2ストレージの生成プロトコルを開始します。 もしCSVに問題があった場合(欠損値、フォーマットエラーなど)、途中で終了し、エラーの詳細を含んだJSONファイルをoutput_dirに出力します。 検証が成功しない場合、このファイルを参考にして、CSVファイルの修正や除外を行ってください。 なお、一度検証が済んでおり、CSVファイルの検証をする必要がない場合、 already_validated=True を設定することで、検証をスキップできます。
必要データの生成が完了したらPython仮想環境は不要です。必要に応じて.venvディレクトリを削除してください。
4. 生成されたSS-MIX2ストレージの確認
生成されたSS-MIX2ストレージは、 output_dir に格納されます。 生成されたファイルは、以下のような構造になっています:
output_dir/ ├── ssmixtwins/ │ ├── ... │ ├── ...output_dir/ssmixtwins がSS-MIX2ストレージのルートディレクトリです。