メインコンテンツまでスキップ

手動評価結果をデータセットに変換する

このドキュメントでは、手動評価を行った複数の結果を統合し、データセットに変換する手順を説明します。

実行方法

次のコマンドで以下の4つのファイルを作成します

python scripts/merge_dataset.py <TARGET_PATHS> --output-path <OUTPUT_PATH> --output-basename <OUTPUT_BASENAME>
  • dataset_<OUTPUT_BASENAME>_checked.csv(正解ありのデータセット)
  • dataset_<OUTPUT_BASENAME>_checked.xlsx(正解ありのデータセット)
  • dataset_<OUTPUT_BASENAME>_checked.json(正解ありのデータセット)
  • dataset_<OUTPUT_BASENAME>.json(正解なしのデータセット)

入出力ファイルの例

  • outputs
    • dataset_converter
      • 2024-06-05
        • 1.11-25-06_AI_Business_Guideline
          • experiment_log_manual_2024-06-11-19-16-23.json
        • 2.17-25-57_prtimes_llm
          • experiment_log_manual_2024-06-12-14-05-42.json
        • ...
        • dataset_v2406_checked.csv
        • dataset_v2406_checked.xlsx
        • dataset_v2406_checked.json
        • dataset_v2406.json

実行例

<TARGET_PATHS>にフォルダを指定した場合は、フォルダ以下に存在する複数フォルダの最新のexperiment_log_manual_*.jsonを読み取って入力とします。

python scripts/merge_dataset.py outputs/dataset_converter/2024-06-05/ --output-path outputs/dataset_converter/2024-06-05/ --output-basename v2406

<TARGET_PATHS>に複数のexperiment_log_manual_*.jsonファイルを直接指定することもできます。

python scripts/merge_dataset.py outputs/dataset_converter/2024-06-05/1.11-25-06_AI_Business_Guideline/experiment_log_manual_2024-06-11-19-16-23.json outputs/dataset_converter/2024-06-05/2.17-25-57_prtimes_llm/experiment_log_manual_2024-06-12-14-05-42.json --output-path outputs/dataset_converter/2024-06-05/ --output-basename v2406