OpenAI, LifeSciBench 출시: 실제 과학 연구 환경에서 AI 시스템의 역량을 평가-Svmuu

Svmuu 소식: OpenAI가 실제 과학 연구 환경에서 AI 시스템의 역량을 측정하기 위한 새로운 평가 벤치마크인 ‘LifeSciBench’를 발표했습니다. 알려진 바에 따르면, LifeSciBench는 전문가들이 작성한 750개의 과제를 기반으로 하며, 7가지 유형의 연구 워크플로우와 7개 생물학 분야를 포괄합니다. 이 과제들은 박사 학위를 소지하고 생명공학 또는 제약 업계 경험이 있는 173명의 연구원으로부터 제공되었으며, 이 벤치마크는 단순한 사실 확인 문제가 아닌 증거 통합, 실험 설계, 데이터 분석, 과학적 추론 및 연구 소통 등의 능력을 포함한 복잡한 연구 역량 평가를 강조한다. 79% 이상의 과제가 다단계 추론을 포함하며, 문제당 평균 약 4단계의 추론 과정이 필요하고, 1,062개의 실제 연구 관련 데이터 첨부 파일(논문, 그래프, 서열 데이터 및 구조 파일 등)이 포함되어 있다.

Faster global financial news!

OpenAI, LifeSciBench 출시: 실제 과학 연구 환경에서 AI 시스템의 역량을 평가

24H Trending

바이낸스 LRCX, KLAC 등 7종의 U 기반 영구 선물을 상장할 예정입니다.

이란 외무부: 이란-미국 간 기술적 회담이 스위스에서 시작됐다

이란 언론, 이란-미국 협상에서 5가지 핵심 사항 합의했다고 보도

OKX DEX xStocks 거래 대회가 진행 중이며, 총 상금은 300,000 USDC입니다.

아시아 레버리지 AI 투자, 사상 최대 규모 기록: 한국 SK하이닉스 2배 롱 ETF 운용 자산 규모 130억 달러 달성

모건 스탠리, ‘이더리움’ 및 ‘Solana’ ETF 신청서를 갱신하며 0.14%의 수수료를 부과할 예정

이란 대통령: 이란 측은 존엄성을 지키며 협상에 임했으며, 어떠한 양보도 하지 않았다

OKX 월드컵 예측 생태계 파트너들이 지속적으로 지원을 확대하며, 이번 주 8경기에 38만 U 규모의 별도 상금을 추가로 마련했습니다.

이란 언론은 이란 대표단이 스위스를 떠나 귀국했다고 보도했다

중국 본토 도지코인 거래 플랫폼 현황: 규제 정책과 글로벌 주류 선택

Recommended Reading

Hot Topics

Faster global financial news!

OpenAI, LifeSciBench 출시: 실제 과학 연구 환경에서 AI 시스템의 역량을 평가

Complaint Report

24H Trending

Recommended Reading

Hot Topics