LLM 기반 자기설명 평가 시스템

연구

RAG 기반 LLM을 활용한 수학 자기설명 자동평가 및 피드백 시스템 — 인공지능융합교육 석사학위 연구

OpenAI Assistants API v2RAGFastAPINext.jsFirebaseAWS EC2VercelR (Lavaan)MathJax

Overview

개요

수학 문제 하나를 놓고 학생 100명이 풀면, 풀이 과정은 100가지가 나온다. 교사가 이 100가지 풀이를 하나하나 읽고, 각각의 사고 과정이 올바른지 판단하고, 부족한 부분에 맞춤 피드백을 주는 것은 물리적으로 불가능하다. 교육학에서 자기설명(Self-Explanation)이라 부르는 이 전략은 학습 효과가 입증되어 있지만, 학생의 자기설명을 평가하고 피드백하는 일을 실제 교실에서 실천하기 어려운 이유가 바로 여기에 있다.

LLM은 이 제약에서 자유롭다. 시간과 장소의 제한 없이 학생 한 명 한 명의 풀이를 읽고, 실시간으로 피드백을 줄 수 있다. 다만 일반적인 LLM은 수학 문제의 정확한 모범답안이나 채점기준을 모른다. 여기에 RAG(Retrieval-Augmented Generation) 기술을 적용했다. RAG란 LLM이 응답을 생성하기 전에 외부 데이터베이스에서 관련 정보를 검색하여 참조하는 기술이다. 모범답안과 채점기준을 데이터베이스에 구축해두고 LLM이 매 응답마다 이를 참조하게 하면, 환각(hallucination) 현상을 줄이고 교과 내용에 맞는 정확한 평가가 가능해진다.

이 연구는 이러한 RAG 기반 LLM 자기설명 자동평가 및 피드백 시스템을 개발하고, 실제 중학교 수학 수업에 6주간 적용하여 그 효과를 실증적으로 검증했다. LLM을 활용한 자기설명 평가를 실제 교실에서 실증한 연구는 국내외를 통틀어 거의 없었으며, 기존 연구(Nakamoto et al., 2023; Nicula et al., 2023)가 데이터셋 수준이나 시뮬레이션 환경에 머물렀다면, 이 연구는 실제 학생들과 실제 수업에서 시스템이 어떻게 작동하는지를 최초로 보여준 실증연구이다.

핵심 성과

자기설명 역량(관련성, 명확성, 일관성) 통계적으로 유의미한 향상 (Cohen's d 중간 이상)
정의적 성취도(학습지향성, 자기통제, 자신감) 유의미한 개선
LLM 기술에 대한 인식 긍정적 변화
상위권 학생: 인지적 측면에서 두드러진 성장 / 하위권 학생: 정의적 측면에서 의미 있는 향상

연구 맥락

대상: 경기도 광주시 G중학교 2학년 24명
기간: 2024.10.07 ~ 2024.11.11 (6주, 주1회 1시간 방과후수업)
단원: 삼각형의 성질, 사각형의 성질
시스템명: 홍PT
학위: 인공지능융합교육 석사학위논문 (2024.12)
지도교수: 김미량
IRB 승인: 2024-06-039-003
수상: 졸업 논문 우수상
논문 원문: https://www.dbpia.co.kr/journal/detail?nodeId=T17200319

Architecture

시스템 아키텍처

기술 스택

LLM: OpenAI Assistants API v2 (GPT-4 기반)
RAG: 외부 데이터베이스(수학 문제 모범답안, 채점기준)를 참조하여 정확한 피드백 생성
백엔드: FastAPI — OpenAI API 호출, Firebase 인증, Firestore 대화 저장
프론트엔드: Next.js — Vercel 배포, MathJax로 수학 기호 렌더링
인프라: AWS EC2(백엔드), Firebase Storage(이미지), Vercel(프론트)
통계 분석: R (Lavaan 패키지) — 구조방정식모형(SEM)

상호작용 프로세스

학생이 수학 풀이를 사진으로 촬영하여 홍PT에 전송
프론트엔드 → fetch API → FastAPI 백엔드
백엔드 → OpenAI Assistants API v2 (RAG로 모범답안/채점기준 참조)
LLM이 자기설명을 관련성·명확성·일관성 기준으로 평가
점수별 맞춤 피드백 생성 (힌트 제공 → 만점 시 모범답안 원문 제공)
응답을 프론트엔드로 반환하여 채팅 UI에 표시

안전장치

만점 달성 시 사전 학습된 모범답안 원문 제공 (LLM 환각 방지)
교사가 실시간 모니터링하며 LLM 오류 시 직접 개입하여 보완
또래 멘토링으로 사전지식 편차 보완

Decisions

주요 의사결정

RAG vs Fine-tuning

Fine-tuning 대신 RAG를 선택했다. 수학 문제의 모범답안과 채점기준이라는 명확한 외부 지식이 있었고, Fine-tuning의 높은 비용과 데이터 준비 부담 대비 RAG가 최신 정보 반영과 맥락 활용에 유리했다. Balaguer et al. (2024)의 연구에서도 RAG와 Fine-tuning이 상호보완적이되, RAG가 초기 비용이 낮고 맥락 활용에 강점이 있음을 확인했다.

프롬프트 엔지니어링 전략

6가지 기법을 조합 적용:

JSON 형식 프롬프팅 — 계층적 구조로 정보 조직화
Few-shot Prompting — 평가 예시 제공
역할 부여 + 문제 분해 — 조력자 역할, 점수별 답변 형식 세분화
Chain-of-Thought (CoT) — 단계별 추론 유도
COSP (Self-Consistency) — 5가지 힌트 생성 후 최적 선택
안전장치 — 만점 시 모범답안 원문 제공

연구 설계: 단일집단 사전-사후 비교

무선할당이나 대조집단 없이 준실험적 설계를 채택했다. 24명이라는 소표본과 방과후수업이라는 현실적 제약 때문이었다. 이 한계를 보완하기 위해 t-검정 + 효과크기(Cohen's d) + 구조방정식(SEM) + 워드클라우드 등 다층적 분석을 수행했다.

수업 단원 선정

이미 지필평가를 마친 단원(삼각형/사각형의 성질)을 선택하여 외부 요인(시험 대비, 사교육)을 통제하고 연구수업 효과만 검증하려 했다.

Lessons

배운 점

기술적 교훈

난생 처음 개발한 서비스: FastAPI + Next.js + Firebase + AWS EC2 + Vercel 풀스택을 처음부터 구축. 프론트-백엔드 연동, 배포 파이프라인, 실시간 채팅 UI 등 전방위적 시행착오를 겪으며 성장했다.
수학 기호 렌더링: LLM 응답에 포함된 수학 기호를 MathJax로 올바르게 표시하는 것이 예상보다 까다로웠다.
LLM 환각(hallucination): RAG를 적용했음에도 복잡한 상호작용에서 여전히 부정확한 응답이 발생. 교사 개입이라는 안전장치가 필수적이었다.
프롬프트 엔지니어링의 중요성: 수학이라는 정밀한 도메인에서 LLM의 한계를 보완하려면 JSON 구조화, CoT, Few-shot, COSP 등 다양한 기법의 조합이 필요했다.

연구 방법론 교훈

소표본 SEM의 한계: 24명으로 구조방정식을 돌리면 경로계수의 신뢰성 확보가 어렵다. 매개·조절효과 검증에서 대부분의 가설이 통계적 유의성을 확보하지 못했다. 다만 작은 효과크기와 유의성에 근접한 수치들은 후속 대규모 연구의 가능성을 시사했다.
혼합 연구 방법의 가치: 양적 분석(t-검정, SEM)만으로는 포착하기 어려운 학생 경험을 워드클라우드 질적 분석이 보완해주었다. "피드백", "쉬운 설명", "실력 향상" 등의 키워드가 시스템의 교육적 가치를 질적으로 뒷받침했다.

교육적 교훈

LLM은 만능이 아니다: 단독 도구가 아닌, 교사 + 또래 + LLM의 협력적 학습 생태계 안에서 효과가 극대화된다.
정의적 성취도의 중요성: 사전 정의적 성취도가 높을수록 자기설명 역량 향상 효과도 크다. 초기 동기부여와 자신감 형성이 선행되어야 한다.
차별적 성장 경로: 상위권은 인지적(자기설명 정교화), 하위권은 정의적(학습지향성, 자기통제) 측면에서 주로 성장. 다양한 수준의 학습자에게 맞춤형 지원이 가능함을 시사.

개인적 임팩트

졸업 논문 우수상 수상: 처음 해보는 풀스택 개발과 연구를 병행하며 시행착오가 많았지만, 끝까지 밀어붙여 졸업 논문 우수상으로 성과를 확인했다.
AI+교육 가능성의 첫 체감: 이 연구를 통해 AI를 교육 현장에 직접 적용했을 때 학생들이 실제로 달라질 수 있다는 가능성을 처음 확인했다. 데이터와 학생 반응 모두에서 그 변화가 드러났으며, 이 경험이 교육과 기술의 접점에 대한 확신을 형성하는 계기가 되었다.

Timeline

타임라인

시기	내용
2024.06	IRB 승인 (2024-06-039-003), 연구 착수
2024.06~08	이론적 배경 조사, 선행연구 분석
2024.07~09	프로토타입 모델 설계 및 파일럿 수업
2024.08~09	RAG 기술 구현, 홍PT 챗봇 개발 및 배포
2024.09	사전-사후 평가도구 개발 및 검증
2024.10.07~11.11	연구모델 적용 수업 (6주간 방과후수업)
2024.11~12	자료 분석 (t-검정, SEM, 워드클라우드)
2024.12	논문 제출 및 학위 취득