LLM 자기설명 피드백 시스템 6주 실증 연구 — 교실에서 AI와 함께 수학을 가르치며

수학 문제 하나를 놓고 학생 서른 명이 풀면, 풀이 과정은 서른 가지가 나온다. 같은 답을 쓴 학생이라도 거기에 이르는 사고의 경로가 다르다. 어떤 아이는 공식을 정확히 적용했고, 어떤 아이는 우연히 맞았고, 어떤 아이는 중간 과정에서 논리가 끊겼는데 결론만 맞았다.

교육학에서는 학생이 자신의 풀이 과정을 스스로 설명하는 행위를 자기설명(Self-Explanation)이라 부른다. 단순히 답을 맞히는 것을 넘어, 왜 그렇게 풀었는지를 말로 정리하는 과정에서 개념 이해가 깊어지고 문제해결력이 향상된다는 것은 수십 년간의 연구로 입증되어 있다(Chi et al., 1994; Bisra et al., 2018).

문제는 학생의 자기설명을 평가하고 피드백하는 일을 교실에서 실천하는 것이 거의 불가능하다는 데 있다. 한 명의 자기설명을 제대로 읽고 평가하고 피드백하는 데 최소 5분. 서른 명이면 150분. 한 차시 수업이 통째로 날아간다. 자기설명은 그 특성상 개별 피드백이 필수적인데, 한 교사가 다수의 학생을 동시에 상대해야 하는 교실의 현실적 제약 앞에서 늘 후순위로 밀렸다.

나는 10년 가까이 수학을 가르치면서 이 간극을 매일 체감했다. 이 아이가 정말 이해한 건지, 공식만 기계적으로 대입한 건지 알고 싶은데, 그걸 확인할 시간이 없었다.

LLM이라는 가능성

LLM(Large Language Model)은 이 제약에서 자유롭다. 시간과 장소에 구애받지 않고, 학생 한 명 한 명의 풀이를 읽고, 실시간으로 피드백을 줄 수 있다. 학생이 새벽 2시에 문제를 풀어도, 주말에 혼자 공부해도 LLM은 거기 있다.

다만 일반적인 LLM은 내가 수업에서 쓰는 문제의 모범답안을 모른다. 채점기준도 모른다. 수학적 추론에서 환각(hallucination)을 일으켜 틀린 풀이를 맞다고 칭찬할 수도 있다. 여기에 RAG(Retrieval-Augmented Generation) 기술을 적용했다.

RAG란, LLM이 응답을 생성하기 전에 외부 데이터베이스에서 관련 정보를 먼저 검색하여 참조하는 기술이다. 내가 직접 작성한 모범답안과 채점기준을 데이터베이스에 올려두고, LLM이 학생의 풀이를 평가할 때마다 이 자료를 참조하게 했다. 교사인 내가 중요하게 여기는 자기설명의 평가 기준 — 관련성(풀이와 개념 간 논리적 연결), 명확성(수학적 표현의 정확성), 일관성(풀이 전체의 논리적 흐름) — 을 프롬프트에 정교하게 설계하여, LLM이 나 대신 학생들에게 1차적 피드백을 줄 수 있도록 했다.

이것이 석사 연구의 출발점이었다.

홍PT를 만들기까지

나는 현직 교사이면서 동시에 이 연구의 개발자이기도 했다. 시스템의 이름은 홍PT. 난생 처음 만드는 서비스였다. FastAPI로 백엔드를 짜고, Next.js로 프론트를 올리고, AWS EC2에 배포하고, Firebase로 인증과 데이터를 관리하는 과정이 전부 처음이었다. 수학 기호를 채팅 화면에 제대로 렌더링하려고 MathJax와 씨름한 밤도 있었고, LLM이 엉뚱한 풀이를 정답이라고 칭찬하는 환각에 당혹스러웠던 적도 있었다.

프롬프트 엔지니어링도 치밀하게 설계했다. JSON 형식으로 정보를 구조화하고, Chain-of-Thought로 단계별 추론을 유도하고, COSP(Consistency-based Self-adaptive Prompting)로 여러 후보 답변 중 가장 일관된 것을 고르도록 했다. 만점을 받으면 모범답안 원문을 그대로 보여주는 안전장치도 넣었다. LLM이 아무리 똑똑해도, 수학은 한 글자 차이로 틀릴 수 있으니까.

6주, 교실에서 벌어진 일

2024년 10월부터 11월까지, 경기도 광주시의 한 중학교에서 2학년 학생 24명과 함께 방과후 수업을 진행했다. 삼각형의 성질과 사각형의 성질 단원, 이미 지필평가를 마친 내용이었다. 일부러 이미 배운 단원을 골랐다. 시험 준비나 사교육 같은 외부 요인을 걷어내고, 순수하게 이 수업의 효과만 보고 싶었다.

학생들은 수학 문제를 풀고 풀이 과정을 사진으로 찍어 홍PT에 보냈다. 홍PT는 관련성, 명확성, 일관성이라는 세 가지 기준으로 자기설명을 평가하고, 부족한 부분에 맞춤 힌트를 줬다. 학생은 힌트를 바탕으로 설명을 보완하고 다시 제출했다. 이 과정이 한 문제당 여러 번 반복됐다.

나는 교사로서 이 과정을 모니터링하면서, LLM이 오류를 범할 때 직접 개입해 보완했다. 상위권 학생이 하위권 학생을 돕는 또래 멘토링도 자연스럽게 이루어졌다. AI가 모든 것을 해결하는 것이 아니라, AI와 교사와 학생이 함께 만드는 학습 생태계를 지향한 것이다.

숫자가 말해준 것

6주 후 사전-사후 검사를 비교했다. 자기설명 역량의 세 가지 기준 모두에서 통계적으로 유의미한 향상이 나타났다. 특히 관련성과 명확성에서 Cohen's d 값이 중간 이상으로, 단순한 우연이라고 보기 어려운 수준이었다.

흥미로운 것은 성취도 수준별 차이였다. 상위권 학생들은 자기설명의 정교함과 논리성이 크게 향상됐다. 이미 개념을 알고 있으니, AI 피드백을 활용해 사고를 더 깊이 다듬은 셈이다. 반면 하위권 학생들은 인지적 역량보다 정의적 측면, 즉 학습지향성과 자기통제에서 의미 있는 성장을 보였다. 수학을 포기한 아이들이 AI와 대화하며 다시 시도해보겠다는 마음을 갖게 된 것, 이것이 어쩌면 가장 값진 변화였을 수도 있다.

구조방정식(SEM) 분석도 시도했다. 24명이라는 소표본의 한계가 분명했고, 대부분의 복잡한 매개·조절 가설은 통계적 유의성을 확보하지 못했다. 그러나 사전 학업성취도와 수업 참여도가 자기설명 역량 변화의 약 19%를 설명한다는 결과는 의미가 있었다.

학생들의 목소리

사후 설문의 주관식 응답을 워드클라우드로 분석했을 때, 가장 자주 등장한 단어들은 "실력 향상", "이해", "재미", "피드백", "쉬운 설명"이었다. 동시에 "오류", "초기 부족" 같은 단어도 나왔다. AI 피드백이 완벽하지 않다는 것을 학생들도 알고 있었고, 그래서 교사의 보완이 필수적이었다.

"감사", "다음에도", "좋았다"라는 반응은 단순한 예의가 아니라, 이런 경험을 계속하고 싶다는 바람으로 읽혔다.

최초의 실증, 그리고 남은 길

LLM을 활용한 자기설명 평가를 실제 교실에서 실증한 연구는 국내외를 통틀어 거의 없었다. 기존 연구들(Nakamoto et al., 2023; Nicula et al., 2023)이 LLM의 자기설명 평가 성능 향상을 데이터셋 수준에서 다루었다면, 이 연구는 실제 학생들과 실제 수업에서 시스템이 어떻게 작동하는지를 최초로 보여줬다.

한계는 명확하다. 24명이라는 작은 표본, 대조집단 없는 준실험적 설계, LLM의 수학적 추론 한계. 이 연구만으로 무엇을 단정할 수는 없다.

그러나 가능성은 확인했다. 교사가 물리적으로 해줄 수 없었던 것 — 학생 한 명 한 명의 풀이 과정을 읽고 즉각적으로 개별 피드백을 주는 것 — 을 LLM이 메워줄 수 있다는 것. 그리고 그 경험이 학생의 인지적 역량뿐 아니라 학습에 대한 태도까지 변화시킬 수 있다는 것.

현직 교사가 직접 시스템을 만들고, 본인의 교실에서 검증하고, 학술적으로 정리한 이 과정이, 교육과 기술의 접점에서 무엇이 가능한지를 탐색한 하나의 사례가 되길 바란다.

난생 처음 해보는 개발이라 모든 것이 서툴렀고, 연구와 개발을 병행하며 지치는 순간도 많았다. 그래도 이 논문으로 졸업 논문 우수상을 받았을 때 소정의 성취에 뿌듯함을 느꼈다. 무엇보다 AI를 교육 현장에 직접 들여놓았을 때 학생들이 정말로 달라질 수 있다는 걸 처음 체감한 경험이었고, 그 가능성을 확인한 것 자체가 내게는 가장 큰 수확이었다.

이 글은 인공지능융합교육 석사학위논문 "LLM을 활용한 학생 자기설명 평가 모델 개발 및 적용: 수학 교과를 중심으로"(2024)를 교육적 관점에서 재구성한 것입니다. 논문 원문 보기 (DBpia)

관련 지식: project:self-explanation-llm