ChatGPT-4의 과학적 탐구 역량 평가 가능성 탐색: 인간평가자와의 비교를 중심으로

박소영; 이병윤; 함은혜; 이유경; 이성혜

doi:10.30916/KERA.61.4.299

상세 보기

ChatGPT-4의 과학적 탐구 역량 평가 가능성 탐색: 인간평가자와의 비교를 중심으로

Exploring the Possibility of Science-Inquiry Competence Assessment by ChatGPT-4: Comparisons with Human Evaluators

박소영;
이병윤;
함은혜;
이유경;
이성혜

Citations

WEB OF SCIENCE

0

Citations

SCOPUS

0

초록

본 연구는 교육학에서의 ChatGPT 활용 방안을 탐색하고자, 과학적 탐구 역량 과제 보고서에 대한 학생의 서술형 응답을 인간평가자와 ChatGPT-4에게 평가하게 한 후, 그 결과를 비교･분석하였다. 인간평가자와 ChatGPT-4가 각각 초등학교 5학년 학생 155명의 탐구 보고서를 22개의 채점항목으로 평가하였다. 두 평가자가 평정한 결과에 대해, 이차가중 카파계수와 상관계수를 가지고 평가일치도를 확인하였다. 연구결과, 인간평가자와 ChatGPT-4의 평가 총점 간 상관계수는 .74로 나타나, 높은 수준의 상관관계를 보이는 것으로 나타났다. 그러나 채점항목마다 두 평가자의 일치도는 다르게 나타났다(이차가중 카파계수 = .02∼.58; 상관계수 = .14∼.58). 또한 일치도에 따른 각 채점항목을 분석한 결과, 학생들이 수행한 실험 내용 자체에 대한 평가에서는 인간평가자와 ChatGPT-4 간의 평가일치도가 중간 수준 이상을 보였다. 그러나, ChatGPT-4는 학생들이 추가자료나 사전지식을 활용하였는지, 어떤 특정 기준(예: 자신이 세운 가설)과 비교하며 응답하였는지, 학생들이 과제를 수행하며 느낀 점 등을 반추하며 응답하였는지를 평가할 때, ChatGPT4가 인간평가자에 비해 관대한 채점기준을 적용하는 것으로 확인되었고, 관련한 채점항목에서는 인간평가자와 ChatGPT-4 간의 평가일치도가 상당히 낮게 나타났다. 본 연구에서는 단답형 응답뿐만 아니라 서술형 응답의 평가 자동화 가능성에 대해 ChatGPT-4를 활용하여 탐색하고, 인간평가자와 유사한 수준으로 평가할 수 있는 채점항목 등에 대해 확인하였다.

키워드

ChatGPT; 평가 자동화; 과학적 탐구 역량; 서술형 응답 평가; 일치도 분석; ChatGPT; automatic scoring; scientific-inquiry competence; assessment of descriptive responses; agreement analysis

제목: ChatGPT-4의 과학적 탐구 역량 평가 가능성 탐색: 인간평가자와의 비교를 중심으로

제목 (타언어): Exploring the Possibility of Science-Inquiry Competence Assessment by ChatGPT-4: Comparisons with Human Evaluators

저자: 박소영; 이병윤; 함은혜; 이유경; 이성혜

DOI: 10.30916/KERA.61.4.299

발행일: 2023-06

저널명: 교육학연구

권: 61

호: 4

페이지: 299 ~ 332

ScholarWorks@숙명여자대학교

상세 보기

초록

키워드