Svmuu 소식: OpenAI가 실제 과학 연구 환경에서 AI 시스템의 역량을 측정하기 위한 새로운 평가 벤치마크인 ‘LifeSciBench’를 발표했습니다. 알려진 바에 따르면, LifeSciBench는 전문가들이 작성한 750개의 과제를 기반으로 하며, 7가지 유형의 연구 워크플로우와 7개 생물학 분야를 포괄합니다. 이 과제들은 박사 학위를 소지하고 생명공학 또는 제약 업계 경험이 있는 173명의 연구원으로부터 제공되었으며, 이 벤치마크는 단순한 사실 확인 문제가 아닌 증거 통합, 실험 설계, 데이터 분석, 과학적 추론 및 연구 소통 등의 능력을 포함한 복잡한 연구 역량 평가를 강조한다. 79% 이상의 과제가 다단계 추론을 포함하며, 문제당 평균 약 4단계의 추론 과정이 필요하고, 1,062개의 실제 연구 관련 데이터 첨부 파일(논문, 그래프, 서열 데이터 및 구조 파일 등)이 포함되어 있다.