Svmuuニュース:OpenAIは、実際の科学研究の場面におけるAIシステムの能力を測定することを目的とした、新たな評価ベンチマーク「LifeSciBench」を公開した。LifeSciBenchは、専門家が作成した750の課題に基づき、7種類の研究ワークフローと7つの生物学分野を網羅している。タスクは、博士号を取得し、バイオテクノロジーまたは製薬業界での経験を持つ173名の研究者から提供されたもので、このベンチマークは、単一の事実確認問題ではなく、証拠の統合、実験設計、データ分析、科学的推論、研究コミュニケーションなどの能力を含む、複雑な研究能力の評価に重点を置いている。79%を超える課題には多段階の推論が含まれており、1問あたり平均約4段階の推論ステップを要し、1,062件の実研究に関連するデータ添付ファイル(論文、図表、配列データ、構造ファイルなど)が含まれている。