LLM 기반 자기설명 평가 시스템
연구RAG 기반 LLM을 활용한 수학 자기설명 자동평가 및 피드백 시스템 — 인공지능융합교육 석사학위 연구
Overview
개요
수학 문제 하나를 놓고 학생 100명이 풀면, 풀이 과정은 100가지가 나온다. 교사가 이 100가지 풀이를 하나하나 읽고, 각각의 사고 과정이 올바른지 판단하고, 부족한 부분에 맞춤 피드백을 주는 것은 물리적으로 불가능하다. 교육학에서 자기설명(Self-Explanation)이라 부르는 이 전략은 학습 효과가 입증되어 있지만, 학생의 자기설명을 평가하고 피드백하는 일을 실제 교실에서 실천하기 어려운 이유가 바로 여기에 있다.
LLM은 이 제약에서 자유롭다. 시간과 장소의 제한 없이 학생 한 명 한 명의 풀이를 읽고, 실시간으로 피드백을 줄 수 있다. 다만 일반적인 LLM은 수학 문제의 정확한 모범답안이나 채점기준을 모른다. 여기에 RAG(Retrieval-Augmented Generation) 기술을 적용했다. RAG란 LLM이 응답을 생성하기 전에 외부 데이터베이스에서 관련 정보를 검색하여 참조하는 기술이다. 모범답안과 채점기준을 데이터베이스에 구축해두고 LLM이 매 응답마다 이를 참조하게 하면, 환각(hallucination) 현상을 줄이고 교과 내용에 맞는 정확한 평가가 가능해진다.
이 연구는 이러한 RAG 기반 LLM 자기설명 자동평가 및 피드백 시스템을 개발하고, 실제 중학교 수학 수업에 6주간 적용하여 그 효과를 실증적으로 검증했다. LLM을 활용한 자기설명 평가를 실제 교실에서 실증한 연구는 국내외를 통틀어 거의 없었으며, 기존 연구(Nakamoto et al., 2023; Nicula et al., 2023)가 데이터셋 수준이나 시뮬레이션 환경에 머물렀다면, 이 연구는 실제 학생들과 실제 수업에서 시스템이 어떻게 작동하는지를 최초로 보여준 실증연구이다.
핵심 성과
- 자기설명 역량(관련성, 명확성, 일관성) 통계적으로 유의미한 향상 (Cohen's d 중간 이상)
- 정의적 성취도(학습지향성, 자기통제, 자신감) 유의미한 개선
- LLM 기술에 대한 인식 긍정적 변화
- 상위권 학생: 인지적 측면에서 두드러진 성장 / 하위권 학생: 정의적 측면에서 의미 있는 향상
연구 맥락
- 대상: 경기도 광주시 G중학교 2학년 24명
- 기간: 2024.10.07 ~ 2024.11.11 (6주, 주1회 1시간 방과후수업)
- 단원: 삼각형의 성질, 사각형의 성질
- 시스템명: 홍PT
- 학위: 인공지능융합교육 석사학위논문 (2024.12)
- 지도교수: 김미량
- IRB 승인: 2024-06-039-003
- 수상: 졸업 논문 우수상
- 논문 원문: https://www.dbpia.co.kr/journal/detail?nodeId=T17200319
Architecture
시스템 아키텍처
기술 스택
- LLM: OpenAI Assistants API v2 (GPT-4 기반)
- RAG: 외부 데이터베이스(수학 문제 모범답안, 채점기준)를 참조하여 정확한 피드백 생성
- 백엔드: FastAPI — OpenAI API 호출, Firebase 인증, Firestore 대화 저장
- 프론트엔드: Next.js — Vercel 배포, MathJax로 수학 기호 렌더링
- 인프라: AWS EC2(백엔드), Firebase Storage(이미지), Vercel(프론트)
- 통계 분석: R (Lavaan 패키지) — 구조방정식모형(SEM)
상호작용 프로세스
- 학생이 수학 풀이를 사진으로 촬영하여 홍PT에 전송
- 프론트엔드 → fetch API → FastAPI 백엔드
- 백엔드 → OpenAI Assistants API v2 (RAG로 모범답안/채점기준 참조)
- LLM이 자기설명을 관련성·명확성·일관성 기준으로 평가
- 점수별 맞춤 피드백 생성 (힌트 제공 → 만점 시 모범답안 원문 제공)
- 응답을 프론트엔드로 반환하여 채팅 UI에 표시
안전장치
- 만점 달성 시 사전 학습된 모범답안 원문 제공 (LLM 환각 방지)
- 교사가 실시간 모니터링하며 LLM 오류 시 직접 개입하여 보완
- 또래 멘토링으로 사전지식 편차 보완
Decisions
주요 의사결정
RAG vs Fine-tuning
Fine-tuning 대신 RAG를 선택했다. 수학 문제의 모범답안과 채점기준이라는 명확한 외부 지식이 있었고, Fine-tuning의 높은 비용과 데이터 준비 부담 대비 RAG가 최신 정보 반영과 맥락 활용에 유리했다. Balaguer et al. (2024)의 연구에서도 RAG와 Fine-tuning이 상호보완적이되, RAG가 초기 비용이 낮고 맥락 활용에 강점이 있음을 확인했다.
프롬프트 엔지니어링 전략
6가지 기법을 조합 적용:
- JSON 형식 프롬프팅 — 계층적 구조로 정보 조직화
- Few-shot Prompting — 평가 예시 제공
- 역할 부여 + 문제 분해 — 조력자 역할, 점수별 답변 형식 세분화
- Chain-of-Thought (CoT) — 단계별 추론 유도
- COSP (Self-Consistency) — 5가지 힌트 생성 후 최적 선택
- 안전장치 — 만점 시 모범답안 원문 제공
연구 설계: 단일집단 사전-사후 비교
무선할당이나 대조집단 없이 준실험적 설계를 채택했다. 24명이라는 소표본과 방과후수업이라는 현실적 제약 때문이었다. 이 한계를 보완하기 위해 t-검정 + 효과크기(Cohen's d) + 구조방정식(SEM) + 워드클라우드 등 다층적 분석을 수행했다.
수업 단원 선정
이미 지필평가를 마친 단원(삼각형/사각형의 성질)을 선택하여 외부 요인(시험 대비, 사교육)을 통제하고 연구수업 효과만 검증하려 했다.
Lessons
배운 점
기술적 교훈
- 난생 처음 개발한 서비스: FastAPI + Next.js + Firebase + AWS EC2 + Vercel 풀스택을 처음부터 구축. 프론트-백엔드 연동, 배포 파이프라인, 실시간 채팅 UI 등 전방위적 시행착오를 겪으며 성장했다.
- 수학 기호 렌더링: LLM 응답에 포함된 수학 기호를 MathJax로 올바르게 표시하는 것이 예상보다 까다로웠다.
- LLM 환각(hallucination): RAG를 적용했음에도 복잡한 상호작용에서 여전히 부정확한 응답이 발생. 교사 개입이라는 안전장치가 필수적이었다.
- 프롬프트 엔지니어링의 중요성: 수학이라는 정밀한 도메인에서 LLM의 한계를 보완하려면 JSON 구조화, CoT, Few-shot, COSP 등 다양한 기법의 조합이 필요했다.
연구 방법론 교훈
- 소표본 SEM의 한계: 24명으로 구조방정식을 돌리면 경로계수의 신뢰성 확보가 어렵다. 매개·조절효과 검증에서 대부분의 가설이 통계적 유의성을 확보하지 못했다. 다만 작은 효과크기와 유의성에 근접한 수치들은 후속 대규모 연구의 가능성을 시사했다.
- 혼합 연구 방법의 가치: 양적 분석(t-검정, SEM)만으로는 포착하기 어려운 학생 경험을 워드클라우드 질적 분석이 보완해주었다. "피드백", "쉬운 설명", "실력 향상" 등의 키워드가 시스템의 교육적 가치를 질적으로 뒷받침했다.
교육적 교훈
- LLM은 만능이 아니다: 단독 도구가 아닌, 교사 + 또래 + LLM의 협력적 학습 생태계 안에서 효과가 극대화된다.
- 정의적 성취도의 중요성: 사전 정의적 성취도가 높을수록 자기설명 역량 향상 효과도 크다. 초기 동기부여와 자신감 형성이 선행되어야 한다.
- 차별적 성장 경로: 상위권은 인지적(자기설명 정교화), 하위권은 정의적(학습지향성, 자기통제) 측면에서 주로 성장. 다양한 수준의 학습자에게 맞춤형 지원이 가능함을 시사.
개인적 임팩트
- 졸업 논문 우수상 수상: 처음 해보는 풀스택 개발과 연구를 병행하며 시행착오가 많았지만, 끝까지 밀어붙여 졸업 논문 우수상으로 성과를 확인했다.
- AI+교육 가능성의 첫 체감: 이 연구를 통해 AI를 교육 현장에 직접 적용했을 때 학생들이 실제로 달라질 수 있다는 가능성을 처음 확인했다. 데이터와 학생 반응 모두에서 그 변화가 드러났으며, 이 경험이 교육과 기술의 접점에 대한 확신을 형성하는 계기가 되었다.
Timeline
타임라인
| 시기 | 내용 |
|---|---|
| 2024.06 | IRB 승인 (2024-06-039-003), 연구 착수 |
| 2024.06~08 | 이론적 배경 조사, 선행연구 분석 |
| 2024.07~09 | 프로토타입 모델 설계 및 파일럿 수업 |
| 2024.08~09 | RAG 기술 구현, 홍PT 챗봇 개발 및 배포 |
| 2024.09 | 사전-사후 평가도구 개발 및 검증 |
| 2024.10.07~11.11 | 연구모델 적용 수업 (6주간 방과후수업) |
| 2024.11~12 | 자료 분석 (t-검정, SEM, 워드클라우드) |
| 2024.12 | 논문 제출 및 학위 취득 |
관련 지식 노드
SEM
Structural Equation Modeling, 구조방정식모형. 변수 간의 직접효과, 간접효과, 매개효과를 동시에 분석할 수 있는 통계 기법이다. 본 연구에서는 R의 Lavaan 패키지로 모형을 구축하여 사전 학업성취도, 참여도, 정의적 성취도, ChatGPT 인
OpenAI Assistants API
OpenAI의 Assistants API v2. GPT 4 기반 대화형 AI 에이전트를 구축할 수 있는 API로, RAG 기능(파일 검색)을 내장 지원한다. 본 연구에서는 이 API를 활용해 수학 자기설명 평가 챗봇 홍PT의 핵심 엔진으로 사용했다. 모범답안과 채점기준
FastAPI
Python 기반 고성능 웹 프레임워크. 본 연구에서는 홍PT 챗봇의 백엔드 서버로 사용했다. OpenAI API 호출, Firebase 인증 연동, Firestore 대화 저장, 이미지 처리를 담당하며 AWS EC2에 배포했다.
Chain-of-Thought
CoT 프롬프팅. LLM이 문제를 해결하는 과정에서 중간 추론 단계를 명시적으로 생성하도록 유도하는 프롬프트 엔지니어링 기법이다(Wei et al., 2022). 본 연구에서는 LLM이 모범답안과 채점기준을 단계별로 대조하며 학생의 자기설명을 평가하도록 CoT 프롬프팅
Self-Explanation
자기설명. 학습자가 학습 내용을 스스로 설명하는 메타인지 전략으로, 개념 이해와 문제해결력 향상에 효과적이다(Chi et al., 1994; Bisra et al., 2018). 본 연구에서는 자기설명을 관련성(풀이와 개념 간 논리적 연결), 명확성(수학적 표현의 정확
RAG
Retrieval Augmented Generation. LLM이 응답을 생성하기 전에 외부 데이터베이스에서 관련 정보를 검색하여 참조하는 기술이다. LLM의 환각(hallucination) 문제와 최신 정보 부재 문제를 보완한다. 본 연구에서는 수학 문제의 모범답안과
HongPT
홍PT 는 RAG 기반 LLM 자기설명 자동평가 및 피드백 챗봇 시스템이다. 기술 스택 OpenAI Assistants API v2 (GPT 4 기반 + RAG) FastAPI 백엔드 (AWS EC2 배포) Next.js 프론트엔드 (Vercel 배포) Firebase
Math Prompt Engineering
수학이라는 정밀한 도메인에서 LLM의 한계를 보완하기 위한 프롬프트 엔지니어링 전략 결정이다. 문제 LLM은 수학 문제 해결 시 논리적 추론보다 패턴 매칭에 의존하며, 수치 민감성과 복잡성 증가에 취약하다 (Mirzadeh et al., 2024). 결정: 6가지 기법
Small-sample SEM
24명이라는 소표본으로 구조방정식모형(SEM)을 적용한 경험에서 얻은 교훈이다. 한계 경로계수의 신뢰성 확보가 어려움 매개·조절효과 검증에서 대부분의 가설이 통계적 유의성을 확보하지 못함 모델 적합도 지표가 완벽하게 나오더라도(CFI=1.000) 해석에 신중함 필요 시
Self-Explanation Assessment
수학 학습에서 학습자가 자신의 풀이 과정을 스스로 설명하는 자기설명(Self Explanation) 을 LLM이 자동으로 평가하고 피드백을 제공하는 개념이다. 자기설명은 관련성(풀이와 개념 간 논리적 연결), 명확성(수학적 표현의 정확성), 일관성(풀이 전체의 논리적