AI 英语学习系统（学生版）技术方案

开源免费 | 极简部署 | 零成本AI | 学生专属

一、项目概述

1.1 项目定位

本项目是一款面向学生的100%开源免费AI英语学习Web系统，目标是降低英语学习门槛，让学生无需付费即可获得AI辅助的英语练习体验。系统设计遵循极简原则，代码简洁易懂，不仅是学习工具，更是适合计算机专业学生做课程设计、毕业设计或开源项目学习的优秀模板。

核心目标用户包括：初高中学生、大学生、自学英语的成年人、备考英语考试的学习者。系统功能聚焦学生最常用的六个场景：口语对话、发音评测、写作批改、单词记忆、听力练习、学习记录，摒弃复杂商业功能，回归学习本质。

1.2 核心特性

本系统的核心特性可以概括为「四个零」：零成本运行，使用免费开源AI模型和API，不产生任何费用；零门槛部署，Python + SQLite，一行命令启动，无需配置服务器；零隐私泄露，所有数据本地存储，不上传云端；零广告干扰，页面简洁专注学习，无商业广告和弹窗。

对比商业英语学习APP，本系统更注重学习的纯粹性和代码的可学习性，适合有一定Python基础的学生进行二次开发。系统采用Flask作为后端框架，代码量控制在合理范围内，核心模块独立清晰，方便学生理解和修改。

二、核心功能模块设计

2.1 AI 口语对话陪练

2.1.1 功能定位

口语对话是本系统的核心功能，提供自由的文字对话和语音对话两种模式。AI扮演英语陪练角色，通过日常对话帮助学生练习英语表达，同时实时纠正语法错误。学生可以选择不同场景进行对话，如日常生活、校园生活、考试备考、职场英语等，AI会根据场景调整对话难度和话题范围。

文字对话支持实时流式输出，学生发送消息后AI逐字显示回复，模拟真实对话体验。对话历史自动保存，学生可以回顾和复习之前的对话内容。语音对话则支持学生录制语音，调用Whisper进行语音识别后将文字发送给AI，AI回复后再转换为语音播放。

2.1.2 技术实现

语音对话的技术流程包括：前端使用Web Audio API录制音频，录制的音频文件发送至后端后调用Whisper模型进行语音识别，识别结果作为prompt发送给免费AI API（如Gemini免费版或DeepSeek免费API），AI回复的文本调用gTTS转换为语音，最后将语音流式返回给前端播放。

为确保零成本运行，推荐使用以下AI方案：主方案为Gemini免费版（需科学上网），备选方案为DeepSeek免费API，备用方案为Ollama本地部署LLaMA模型。语音识别使用Whisper的tiny模型（占用小、速度快），语音合成使用gTTS（免费开源）。整个流程不产生任何API费用，学生可在本地电脑直接运行。

2.1.3 交互设计

对话页面采用聊天气泡样式，左侧显示学生消息（蓝色），右侧显示AI消息（灰色）。页面顶部提供场景选择器，学生可以切换不同话题场景。每个对话轮次后，系统会自动标注学生句子中的语法错误，点击错误可查看详细解释。对话支持收藏重点句子，收藏的句子会自动加入单词本。

2.2 AI 发音评测

2.2.1 功能定位

发音评测功能帮助学生纠正英语发音。学生点击「开始录音」后朗读系统给出的句子，录音完成后AI立即给出评测分数（0-100分）并标注问题最为严重的音素，学生可以针对性练习。评测结果包括：总体评分、音素得分详情、问题发音标��、示范发音播放。

系统内置常用评测句子库，涵盖音标分类、连读技巧、语调练习等不同维度的句子。句子难度从简单到复杂，适合不同水平的学生。所有评测句子配有标准发音音频，学生可以先听标准发音再跟读练习。

2.2.2 技术实现

发音评测使用Whisper进行语音识别，将识别结果与参考句子进行对齐，通过编辑距离算法计算相似度得分。同时调用AI分析识别结果，指出具体的发音问题，如哪个单词的哪个音素发错，给出正确发音的口型提示。

考虑到学生电脑性能有限，Whisper建议使用tiny型号（占用约75MB），首次运行会自动下载模型。语音识别在本地完成，确保零成本。如果学生电脑性能较好，也可以切换到base或small模型以获得更好的识别效果。

2.3 AI 写作批改

2.3.1 功能定位

写作批改功能帮助学生提升写作能力。学生粘贴英语作文或句子后，系统一键进行纠错、润色和评分。批改结果标注每处错误的类型（语法错误、拼写错误、用词不当）和原因，同时提供润色后的版本供参考。对话式批改功能允许学生针对具体问题追问AI，获得更详细的解释和练习建议。

批改维度包括：语法正确性、词汇使用、句子流畅度、逻辑结构、表达地道性。系统会根据学生选择的考试类型（如CET-4、CET-6、IELTS、TOEFL）调整评分标准和批改重点。

2.3.2 技术实现

写作批改的技术流程相对简单：学生输入的文本直接发送给AI，AI按照预设的批改prompt进行评测，返回结构化的批改结果（错误列表、润色版本、评分、建议）。prompt设计是关键，需要明确批改维度和输出格式，确保结果结构一致。

为降低AI API调用成本，系统采用「增量批改」策略：首次批改返回完整结果，后续学生针对某个错误追问时只发送相关上下文（错误句子+详细解释请求），而非全文重新评测。

2.4 极简单词本

2.4.1 功能定位

单词本是学生学习英语的基础工具，功能设计极简化：手动添加单词、系统自动补全例句和发音、学习计划自动提醒。学生添加单词后，系统调用AI为每个单词生成一到两个例句，并使用gTTS生成发音。艾宾浩斯遗忘曲线算法自动安排复习计划，到期提醒学生复习。

单词本支持导入和导出，可以从CSV文件批量导入单词，也可以导出备份。复习模式采用看英文说中文或看中文说英文的方式，检验学生记忆效果。记忆效果记录帮助学生了解自己的遗忘曲线特征。

2.4.2 技术实现

单词数据模型需要保存：单词本身、释义、例句、音标、发音文件路径、添加时间、最近复习时间、复习间隔、记忆强度。首次添加单词时生成例句（调用AI）和发音（调用gTTS），生成后缓存本地，避免重复调用AI。

遗忘曲线采用 simplified SM-2 算法：新单词初始记忆强度为1.0，复习正确则强度×1.5，复习错误则强度×0.5。复习间隔根据强度动态调整：强度1.0间隔1天，2.0间隔3天，3.0间隔7天，依此类推。复习提醒通过检测学习记录判断当天是否有待复习单词，页面顶部显示提醒徽章。

2.5 基础听力练习

2.5.1 功能定位

听力练习功能帮助学生提升听力理解能力。系统将英文文本转换为语音（TTS），学生可以调整语速（0.5x、0.75x、1x、1.25x、1.5x）和音色。听写模式下，系统播放语音，学生输入听到的内容，系统对比给出准确率。

听力材料来源支持三种方式：学生粘贴文本直接转语音、使用系统内置的听力库、导入外部音频文件。内置听力库按照难度分类（入门、基础、中级、高级），每个难度提供20篇左右的��力材料，涵盖日常对话、短文朗读、新闻摘要等类型。

2.5.2 技术实现

听写的技术实现：播放语音时同时开始计时，学生提交答案后计算听写正确率。单词级别的细粒度对比可以标具体哪些单词听错。为提升练习效果，听写支持「暂停播放」功能，学生可以暂停后根据记忆补充内容，再继续播放核对。

TTS使用gTTS生成音频缓存，避免重复生成。首次播放时生成并保存到本地文件夹，后续直接读取缓存文件。音频文件按「文本内容Hash值」命名，相同文本不会重复生成。

2.6 学习数据记录

2.6.1 功能定位

学习数据记录帮助学生了解自己的学习情况。系统自动记录学习行为，包括：对话次数和时长、发音评测次数和平均分、写作批改篇数、单词复习次数和记忆率、听力练习时长。数据以本地方式存储，不上传云端。

统计面板以简洁的仪表盘形式呈现，展示本周学习数据概览和历史趋势。图表使用Chart.js绘制，包括：学习时长折线图、各项功能使用次数饼图、记忆率变化曲线。所有数据存储在SQLite本地数据库，学生可以随时导出或清除。

三、技术架构设计

3.1 系统架构概述

本系统采用经典的「Python Web后端 + Bootstrap前端 + SQLite本地数据库」架构，三个组件都是学生耳熟能详的技术，学习成本极低。无需了解复杂的微服务、Docker、云计算等概念，一台学生电脑即可运行完整系统。后端使用Flask框架，路由和API清晰直观；前端使用原生JavaScript，无需构建工具，直接修改HTML即可看到效果。

整体架构分为三层：表现层（HTML/CSS/JS页面）、业务层（Flask路由处理）、数据层（SQLite + 文件系统）。这种三层架构清晰简洁，适合学生学习理解，也是很多Web入门教材采用的经典架构。

3.2 技术栈详解

后端框架：Flask

选择Flask而非Django的原因是：Django过于重量级，配置复杂，对于一个「学生做课程设计」级别的项目，Flask的轻量级特性更加合适。一个app.py文件即可包含全部后端代码，所有路由和业务逻辑一目了然。Flask生态丰富，常用的Flask-SQLAlchemy、Flask-CORS等扩展足以满足本系统需求。

代码组织上，建议将不同功能的路由分文件管理，如conversations.py处理对话路由，vocabulary.py处理单词本路由，main.py处理主页和统计。所有路由在app.py中通过蓝图（Blueprint）注册，代码结构清晰。

前端框架：Bootstrap 5

Bootstrap 5是目前最流行的前端CSS框架，无需JavaScript基础即可快速上手。官方提供的组件样式丰富，导航栏、卡片、模态框、表格等常用组件直接使用class即可实现美观效果。相比React/Vue等框架，Bootstrap不需要学习组件化思维、状态管理等概念，适合前端初学者。

本系统的页面设计遵循Bootstrap规范，所有交互使用原生JavaScript实现，fetch API调用后端接口。这种方式的优点是学习曲线平缓，学生可以清楚地看到「点击按钮 -> fetch请求 -> 后端处理 -> 返回JSON -> 前端更新DOM」的完整流程。

AI能力：免费开源方案

AI能力是本系统的核心竞争力，也是技术实现的最大难点。经过调研，推荐以下免费开源方案组合使用：

对话能力首选方案为Google Gemini免费版（需科学上网），支持8K上下文，适合对话场景；备选方案为DeepSeek Chat（国内可直接访问），免费额度充足；备用方案为Ollama本地部署LLaMA2，适合有GPU的学生。各方案的prompt模板需要分别优化，确保输出格式一致。

语音识别使用OpenAI Whisper的tiny型号，这是目前最流行的开源语音识别模型，首次使用自动下载模型文件（约75MB），之后本地运行不依赖网络。tiny型号虽然在准确率上不如large型号，但推理速度快，学生普通CPU即可流畅运行。

语音合成使用gTTS（Google Text-to-Speech），免费、开源、易用，支持英语等多种语言。生成的音频为MP3格式，可以直接播放或保存。备选方案为Edge TTS（微软免费TTS），质量更高但需要安装edge-tts库。

数据库：SQLite

SQLite是本系统数据存储的最佳选择。作为文件型数据库，SQLite无需安装、零配置，数据存在于单个db文件中，方便备份和迁移。相比MySQL、PostgreSQL等需要独立部署的数据库，SQLite的「复制即备份」特性非常适合个人学习项目。

数据库设计采用经典的关系模型，通过SQLAlchemy ORM进行操作。系统规模预估：用户量级为个人使用，数据量有限，SQLite的性能完全足够。即使使用数年，数据库文件大小也在几十MB级别，不影响性能。

3.3 模块划分

系统按照功能划分为六个模块，每个模块独立实现，通过统一的API风格进行交互：

ai_chat模块：负责AI对话的核心逻辑，包括对话历史管理、场景识别、grammar correction功能。核心技术点包括：流式输出处理、上下文管理、错误标注。

ai_pronunciation模块：负责发音评测，包括Whisper识别、评分算法、音频处理。核心技术点包括：音频录制处理、音素级别对比。

ai_writing模块：负责写作批改，包括prompt构造、结果解析、批改历史。核心技术点包括：结构化prompt设计。

vocabulary模块：负责单词管理，包括增删改查、艾宾浩斯算法、复习提醒。核心技术点包括：遗忘曲线算法。

listening模块：负责听力练习，包括TTS生成、听写对比、进度跟踪。核心技术点包括：音频缓存管理。

statistics模块：负责学习记录，包括数据采集、统计分析、可视化。核心技术点包括：时间序列数据处理。

四、数据库设计

4.1 数据��型总览

本系统使用SQLite数据库，所有数据模型如下：

4.1.1 用户数据表（users）

users表存储用户的基本信息和设置。结构设计包括：id（主键，自增）、username（用户名，唯一）、created_at（创建时间）、settings（JSON格式的设置项，如偏好语速、难度等级）。本系统不涉及用户认证，所有数据本地存储，一个用户一张表足够。如需支持多用户，可以增加user_id外键。

4.1.2 对话历史表（conversations）

conversations表存储口语对话的历史记录。结构包括：id、scene（场景类型）、user_message（用户消息）、ai_message（AI回复）、corrections（JSON格式的语法纠正）、created_at（对话时间）。每个对话轮次存储一条记录，对话ID关联同一轮次的问答。

4.1.3 单词表（words）

words表存储单词本的单词。结构包括：id、word（单词本身）、meaning（中文释义）、example_sentence（例句）、phonetic（音标）、audio_path（发音文件路径）、added_at（添加时间）、last_reviewed（上次复习时间）、review_interval（复习间隔天数）、memory_strength（记忆强度，初始1.0）。

4.1.4 发音评测记录表（pronunciations）

pronunciations表存储发音评测的历史。结构包括：id、sentence_id（评测句子ID）、score（评分）、details（详细分析结果）、recorded_at（评测时间）。sentence_id关联内置评测句子的ID。

4.1.5 写作批改记录表（writings）

writings表存储写作批改的历史。结构包括：id、original_text（原始文本）、corrected_text（批改后文本）、corrections（错误列表JSON）、score（评分）、created_at（批改时间）。

4.1.6 学习记录表（statistics）

statistics表存储每日的学习统计数据。结构包括：id、date（日期，唯一）、chat_minutes（对话时长分钟）、pronunciation_count（发音评测次数）、writing_count（批改次数）、word_reviewed（单词复习个数）、listening_minutes（听力时长分钟）、total_minutes（学习总分钟数）。

4.2 索引设计

为提升查询性能，在常用查询字段上建立索引：对 conversations表的 created_at 和 scene 字段建立索引；对 words表的 word 字段建立唯一索引；对 statistics表的 date 字段建立唯一索引。SQLAlchemy支持在模型定义中直接指定索引，简化为一行代码。

五、接口设计

5.1 API 风格规范

本系统采用RESTful风格的API设计，URL语义清晰，HTTP方法使用正确。所有接口返回统一的JSON格式：成功时返回 {"code": 0, "data": {...}}，失败时返回 {"code": 1, "message": "错误信息"}。

5.2 核心接口列表

5.2.1 对话模块接口

POST /api/chat/send 发送对话消息，请求参数：{"message": "用户消息", "scene": "场景类型"}，返回：{"reply": "AI回复", "corrections": [{"error": "错误句子", "correction": "纠正", "reason": "原因"}]}。

POST /api/chat/voice 语音对话，请求参数：formData包含audio文件，返回：{"reply": "AI回复", "reply_audio": "语音base64"}。

GET /api/chat/history 获取对话历史，参数：page（页码）, limit（每页数量），返回分页后的对话列表。

5.2.2 发音模块接口

POST /api/pronunciation/record 提交发音评测，参数：formData包含audio和sentence_id，返回：{"score": 85, "details": {"phonemes": [...]}}。

GET /api/pronunciation/sentences 获取评测句子列表，参数：难度筛选，返回句子列表。

GET /api/pronunciation/sentence/{id}/audio 获取句子示范发音，返回音频文件。

5.2.3 写作模块接口

POST /api/writing/correct 提交写作批改，参数：{"text": "待批改文本", "exam_type": "CET-4"}，返回：{"corrected_text": "批改后文本", "corrections": [...], "score": 85}。

GET /api/writing/history 获取批改历史。

5.2.4 单词模块接口

POST /api/vocabulary/add 添加单词，参数：{"word": "单词"}，系统自动补全例句和发音，返回完整单词信息。

GET /api/vocabulary/list 获取单词列表，支持分页和搜索。

POST /api/vocabulary/review 复习单词，参数：{"word_id": 1, "result": "correct"} 更新记忆曲线。

GET /api/vocabulary/to-review 获取今日待复习单词。

DELETE /api/vocabulary/{id} 删除单词。

5.2.5 听力模块接口

POST /api/listening/text-to-speech 文本转语音，参数：{"text": "文本", "speed": 1.0}，返回生成的语音文件或base64。

POST /api/listening/dictation 提交听写，参数：{"text": "用户听写内容", "reference": "参考文本"}，返回正确率。

GET /api/listening/materials 获取听力材料列表。

5.2.6 统计模块接口

GET /api/statistics/summary 获取学习统计概览，返回本周数据。

GET /api/statistics/trend 获取历史趋势数据，用于绘制折线图。

六、前端页面设计

6.1 页面结构

前端采用单页面应用（SPA）架构，但使用原生JavaScript实现而非Vue/React。页面主体结构为左侧导航栏加右侧内容区，各功能模块通过JavaScript动态切换显示。页面使用CDN引入Bootstrap 5，无需下载直接使用。

6.1.1 页面导航

导航栏使用Bootstrap的navbar组件，包含以下导航项：首页（统计概览）、口语陪练、发音评测、写作批改、单词本、听力练习。导航栏右侧显示用户名（如已设置）和设置入口。移动端自动折叠为汉堡菜单。

6.1.2 页面尺寸适配

使用Bootstrap的响应式网格系统，导航栏在桌面端水平显示，移动端垂直显示。各功能卡片在桌面端双列或三列布局，移动端单列布局。最小支持320px宽度的手机屏幕，确保在老旧手机上也能正常使用。

6.2 核心页面设计

6.2.1 首页（统计面板）

首页展示学习统计概览，使用Bootstrap的cards组件。每个功能模块一张卡片，显示今日使用次数或时长。卡片下方是本周学习时长折线图，使用Chart.js绘制。最底部是快捷入口卡片，点击直接进入对应功能。页面加载时通过fetch调用 /api/statistics/summary 获取数据。

6.2.2 口语对话页面

对话页面分为上下两部分：上方是聊天记录区域，使用flex布局，消息气泡自动滚动到底部；下方是输入区域，包含文字输入框和语音按钮。页面顶部固定场景选择器，切换场景后清空对话历史。聊天气泡支持点击查看语法错误详情。

语音对话模式下，页面中央显示大的圆形录音按钮，按住说话，松开结束。录音按钮旁边显示波形动画，直观展示录音状态。录音完成后显示「正在识别，请稍候」，然后自动发送识别结果给AI。

6.2.3 发音评测页面

发音评测页面显示当前待朗读的句子，字号放大显示以便阅读。句子下方是录音按钮，点击开始录音，再次点击结束。评测结果显示在句子下方：评分用进度条展示（绿色>80分，黄色60-80分，红色<60分），问题发音用红色高亮标注。

页面侧边栏显示评测历史记录列表，点击可以查看历史评测详情。底部浮动「下一句」按钮，点击进入下一句评测。

6.2.4 写作批改页面

写作批改页面分为左右两栏：左侧是输入区域，提供大文本框输入或粘贴作文；右侧是批改结果显示区域。输入区域底部提供「开始批改��按��和「清空」按钮。批改结果显示错误的句子用红色下划线标出，点击显示错误详情。

批改完成后底部出现「追问」按钮，学生可以针对某个错误追问AI获得详细解释。侧边栏显示历史批改列表，点击可以查看历史。

6.2.5 单词本页面

单词本页面顶部是搜索和添加区域：搜索框支持实时过滤单词，添加区域支持手动输入或批量导入CSV。单词以卡片形式展示，每张卡片包含单词、音标、中文释义、例句。卡片右上角显示记忆强度标签（绿色已记住、黄色待复习、红色需强化）。

点击卡片进入复习模式：显示单词和中文释义隐藏，点击「显示」后显示中文。底部提供「认识」和「不认识」两个按钮。复习完成后显示本次复习的统计。

6.2.6 听力练习页面

听力练习页面顶部显示听力材料选择器，可以选择内置材料或粘贴自己的文本。选择内置材料时显示材料列表，选择后进入听写模式。

听写模式：页面显示「点击播放」按钮和文本输入框。点击播放后开始播放语音，用户在输入框输入听到的内容。点击「提交」后显示对比结果：正确部分用绿色显示，错误部分用红色显示并标注正确内容。底部显示本次听写的正确率统计。

七、项目文件结构

7.1 目录结构设计

以下是推荐的项目文件结构，按照Python项目的推荐实践组织：

ai-english-student/
├── app.py                     # Flask应用入口
├── config.py                  # 配置文件
├── requirements.txt           # 依赖清单
├── README.md                  # 项目说明
├── LICENSE                   # 开源协议
├── docs/                     # 文档目录
│   └── deploy-guide.md       # 部署指南
├── ai_core/                  # AI核心模块
│   ├── __init__.py
│   ├── chat.py              # 对话逻辑
│   ├── pronunciation.py      # 发音评测
│   ├── writing.py           # 写作批改
│   └── tts.py               # 语音合成
├── models/                  # 数据模型
│   ├── __init__.py
│   ├── user.py
│   ├── conversation.py
│   ├── vocabulary.py
│   ├── pronunciation.py
│   ├── writing.py
│   └── statistics.py
├── routes/                  # 路由模块
│   ├── __init__.py
│   ├── chat.py
│   ├── pronunciation.py
│   ├── vocabulary.py
│   ├── writing.py
│   ├── listening.py
│   └── statistics.py
├── static/                  # 静态资源
│   ├── css/
│   │   └── style.css        # 自定义样式
│   ├── js/
│   │   └── main.js        # 前端脚本
│   ├── audio/
│   │   └── cache/         # 音频缓存
│   └── data/
│       ├── sentences.json # 发音评测句子
│       └── listening.json # 听力材料
├── templates/               # 模板文件
│   ├── base.html           # 基础模板
│   ├── index.html          # 首页
│   ├── chat.html          # 对话页面
│   ├── pronunciation.html # 发音评测页面
│   ├── writing.html       # 写作批改页面
│   ├── vocabulary.html    # 单词本页面
│   └── listening.html    # 听力练习页面
└── data/                   # 数据目录
    └── database.db         # SQLite数据库

7.2 文件说明

app.py 是整个项目的入口，包含Flask应用创建和蓝图注册。建议控制在200行以内，所有路由实现放在routes/目录。config.py 存储配置项，如AI API密钥（如果有）、数据库路径、音频缓存目录等。

ai_core/ 目录封装所有AI相关的逻辑，包括：chat.py处理对话生成和语法纠正、pronunciation.py调用Whisper进行语音识别、writing.py调用AI批改作文、tts.py调用gTTS生成语音。各模块独立，便于单独测试和替换AI方案。

models/ 目录使用SQLAlchemy定义所有数据模型，每个模型一个文件，清晰明了。routes/ 目录按照功能模块组织路由，每个模块的路由独立文件。static/ 存放静态资源，audio/cache/目录存放gTTS生成的语音缓存。

八、开发阶段规划

8.1 阶段划分

本项目的开发分为两个主要阶段，总周期约3-4周，适合学生利用课余时间开发。第一阶段聚焦MVP（最小可行产品），第二阶段迭代完善功能并准备开源发布。

8.1.1 第一阶段：MVP（1-2周）

第一阶段目标是产出最小可用版本，包含核心功能中最常用的部分。这个阶段完成后，系统已经可以正常使用，能够体验AI英语学习的基本功能。

Week 1的工作包括：项目初始化（Flask + SQLite + Bootstrap）、数据库模型实现（models/目录）、AI服务层基础（ai_core/chat.py对接免费AI）、首页和统计面板实现。这个阶段完成后，系统可以对话并统计学习数据。

Week 2的工作包括：对话页面完整实现（文字对话）、单词本核心功能（增删改查、艾宾浩斯提醒）、写作批改基础功能（批改接口）。这个阶段完成后，三大核心功能都可以使用。

8.1.2 第二阶段：完善发布（2周）

第二阶段目标是完善功能并准备开源发布，增加语音相关功能和移动端适配。

Week 3的工作包括：语音对话功能（Whisper识别+gTTS播放）、发音评测功能、听力练习功能。这一阶段完成后，所有六个功能模块完整可用。

Week 4的��作包括：移动端适配优化、错误处理和异常提示、完善README和文档、开源发布准备。完成代码注释和文档撰写，准备发布到GitHub。

8.2 代码质量标准

为确保代码质量和可维护性开发过程遵循以下原则：每个Python文件开头添加docstring说明功能；每个函数添加文档注释；代码中添加适当的行内注释解释关键逻辑；坚持PEP 8代码规范，使用flake8自动检查。

九、部署指南

9.1 本地部署

本地部署是学生最常用的方式，一行命令即可启动。具体步骤如下：

首先克隆代码仓库并进入目录，然后使用pip安装依赖包。安装完成后，直接运行python app.py启动应用。打开浏览器访问http://localhost:5000 即可使用系统。

首次运行时，系统会自动创建data/目录和SQLite数据库文件。音频缓存也会自动创建在static/audio/cache/目录。

9.2 云平台部署

如需发布到公网让更多人使用，可以选择免费云平台。推荐的部署平台包括：Railway（免费额度充裕，需要绑定信用卡）、Render（完全免费，但有休眠机制）、Fly.io（免费额度适中）。部署流程需要创建Procfile文件，然后按照平台指引推送代码。

需要注意的是，使用免费AI API（如DeepSeek国内版）时确保云平台所在地区可以正常访问。如果使用Gemini免费版，建议在Railway上部署并配置代理。

9.3 数据备份

系统数据存储在以下位置：SQLite数据库文件在data/database.db、音频缓存在static/audio/cache/、配置文件在config.py。需要备份时，直接复制data/目录即可。迁移到新电脑时，将整个data/目录复制过去即可恢复所有数据。

十、开源规范

10.1 GitHub 发布清单

项目发布到GitHub前，需要确保以下内容完整：

LICENSE文件选择MIT协议，这是最宽松的开源协议，允许任何人免费使用、修改和商业使用。README.md需要包含项目介绍、功能列表、技术选型、部署步骤、常见问题六个部分。代码注释需要添加英文注释，方便国际开发者理解。

10.2 目录结构

GitHub仓库的根目录文件需要精简，源代码放在src/或app/目录。docs/目录存放文档，examples/目录存放示例代码。添加.gitignore排除IDE配置文件和音频缓存。

十一、技术风险与应对

11.1 AI API 稳定性

免费AI API存在稳定性风险，可能出现服务不可用或配额用尽的情况。应对策略是准备多个AI方案：主方案Gemini免费版，备选DeepSeek免费API，备用Ollama本地部署。编写统一的AI接口层，底层方案可无缝切换。

11.2 语音识别准确性

Whisper tiny模型在嘈杂环境下识别准确率可能下降。应对策略是在前端加入噪音检测，提示用户在安静环境使用。提供手动纠错入口，允许用户修正识别结果后重新评测。

11.3 中文编码问题

Windows环境可能出现中文编码问题。应对策略是在代码开头添加 # -- coding: utf-8 -- 声明，所有字符串使用Unicode，文件读写明确指定utf-8编码。

十二、总结

本技术方案详细阐述了面向学生的开源AI英语学习系统的完整设计。六个核心功能模块——AI口语对话、AI发音评测、AI写作批改、单词本、听力练习、学习记录——覆盖学生英语学习的主要场景。技术栈选择遵循「免费、开源、轻量、学生友好」的原则，Flask + Bootstrap 5 + SQLite + Whisper + gTTS的组合无需任何付费组件，学生零成本即可运行完整系统。项目代码结构清晰简洁，适合计算机专业学生作为课程设计、毕业设计或开源项目学习的模板。

下一步工作建议参考本方案开始MVP阶段开发，优先实现数据库模型和AI对话功能。预��MVP��段投入1-2周可完成基础功能，后续迭代完善语音和听力功能。

FilesExpand file tree

AI英语学习系统学生版技术方案.md

Latest commit

History