狩野 芳伸 静岡大学グリーン科学技術研究所 教授:
本論文の内容には、大規模かつ他分野にわたる学術的QAのデータベースScholarQABenchと、データベースを用いて事前学習済みモデルであるLlama3.1をファインチューンしたモデルとGPT-4oを組み合わせて作成された、学術タスクに対応するための拡張検索システムOpenScholarの二つが含まれています。
ScholarQABenchはコンピュータ科学、物理学、生物医学、神経科学にわたる3,000の研究質問と250の博士レベルの専門家執筆の回答が含まれています。データやシステムの評価設計は適切かつ十分に行われていると考えます。
システム作成側の視点では、このように作成に多大なコストがかかる高品質かつ大規模なデータベースが公開提供されることは非常に有用です。一方でシステム利用者の視点では、昨今のLLMの急速な発展のため、もはや論文執筆と査読公開のフェーズが追いついていないうえ、個別タスクについての性能は不明であるため、常に自身のタスクで最新モデル・最新手法との性能比較が必要な状況です。
この研究では相当する手法が取り入れられているようですが、現在では標準となった論理的能力を向上できるreasoning機能を備えたモデルとの比較ができていません。OpenScholarが基盤としたオープンモデルLlama3.1やGPT-4oも、現在では一線のモデルとはいえません。OpenScholarが公開されていることは意義があり、利用者の目的と要求性能を満たしていれば利用すればよいですし、さらなる性能を求めるのであれば、各社の商用含め最新モデルとの比較、場合によってはさらにプロンプトチューニングやRAGの調整を試みる必要があると考えます。
