이 프로젝트는 코드 생성 모델을 올바르게 평가하고, 기존 성능 지표를 비교하며, 사람의 판단과 더 잘 연관되는 새로운 지표를 도입하는 방법을 이해하는 데 목표를 두고 있습니다.
arXiv 사전 인쇄