5 个适合初学者的项目,助您学习大语言模型(LLM)和检索增强生成(RAG)

5 Beginner-Friendly Projects to Learn LLMs & RAG

5 个适合初学者的项目,助您学习大语言模型(LLM)和检索增强生成(RAG)
图片作者 | Canva

我坚信“在实践中学习”的方法——通过这种方式你会学得更多。但是,作为初学者,你需要小心,不要因为过早地投入一个复杂的项目而让自己不知所措。为了帮助你熟悉使用 LLMs 和 RAG,我将分享 5 个非常适合初学者的项目。项目按复杂程度排序,从简单的 API 调用开始,逐渐进展到在你自己的自定义数据集上微调大型语言模型。那么,我们开始吧!

1. 使用 GPT-4 API 构建简单的问答聊天机器人

教程作者:  Tom Chant

Building a Simple Q&A Chatbot

这个项目将指导你使用 GPT-4 API 创建一个名为“KnowItAll”的智能聊天机器人。该机器人可以回答问题、生成内容、翻译文本,甚至编写代码。本教程涵盖了你需要知道的一切,从使用 HTML、CSS 和原生 JavaScript 设置 Web 界面,到连接 OpenAI API 来构建对话式 AI。

你将学到

  • 如何设置交互式聊天机器人界面。
  • 使用数组处理对话上下文,实现动态交互。
  • 向 OpenAI API 发起调用并使用 GPT-4 模型。

2. 使用 LLMs 总结视频

教程作者: Agnieszka Mikołajczyk-Bareła

Summarizing a Video with LLMs

在这个快速教程中,你将学习如何使用 LLMs 和自动语音识别 (ASR) 文本来总结 YouTube 视频。本教程将向你展示如何获取视频字幕,使用 Rpunct 库修正标点符号,然后将清理后的文本发送给 OpenAI 模型进行总结或回答问题。

你将学到

  • 使用 YouTube Transcript API 提取视频字幕。
  • 如何通过修正 ASR 文本的标点符号来提高可读性。
  • 查询 OpenAI 模型,根据视频内容进行总结或回答问题。

3. 从零开始构建检索增强生成 (RAG)

教程作者: Mahnoor Nauyan

Retrieval Augmented Generation (RAG) from Scratch

LLMs 在处理私有或新生成的数据时可能会遇到推理问题。本教程将指导你从零开始构建一个 RAG 解决方案——无需依赖 LangChain 或 Llama 等库。你将贯穿整个过程,从文档处理和分块,到生成嵌入和使用基于相似度的检索。

你将学到

  • 什么是 RAG 以及它在处理私有数据方面的作用。
  • 将文档分块成可管理的尺寸以进行索引。
  • 使用余弦相似度进行相关数据检索。
  • 如何将检索到的数据与 LLMs 连接,以获得更准确、更具上下文的响应。

4. 使用 RAG 构建你自己的问答系统

教程作者: Abhirami VS

Question Answering System Using RAG

本项目展示了如何使用检索增强生成 (RAG) 来提高 LLMs 生成答案的准确性和相关性。通过引入外部数据源,RAG 有助于减少幻觉和偏见等问题,使其非常适合特定领域任务。本教程使用了 Mistral-7B 等开源工具来生成响应,并使用 Chroma 向量存储来检索相关数据。

你将学到

  • 使用外部知识源设置 RAG 管道。
  • 使用 Chroma 等向量存储进行数据检索。
  • 如何使用 Mistral-7B 等开源 LLMs 生成准确的答案。

5. 使用 QLoRA 微调大型语言模型 (LLMs)

教程作者: Sumit Das

Fine-Tuning Large Language Models

本教程将指导你使用 QLoRA(量化低秩适应)为特定任务微调预训练的 LLMs。该方法侧重于内存效率,因此你可以在不需要大量资源的情况下自定义模型。该项目使用了 Phi-2 模型,并涵盖了数据集准备、训练 LoRA 适配器以及评估你的结果。

你将学到

  • 使用 QLoRA 为自定义数据集设置和微调 LLMs。
  • 使用 HuggingFace 库进行分词、训练和评估。
  • 如何使用 ROUGE 等指标评估微调后的模型。

通过按顺序完成这些项目,你将逐步建立信心,并掌握使用 LLMs 和 RAG 的方法。从聊天机器人到视频摘要,再到创建复杂的检索系统,每个项目都将推动你的技能向前发展,并为你迎接更高级的 AI 挑战做好准备。

对 *5 个适合初学者的 LLMs & RAG 项目* 的 6 条回复

  1. Jude Obadoni 2024年12月7日下午3:22 #

    非常有用的学习主题。

    • James Carmichael 2024年12月8日上午5:06 #

      谢谢 Jude 的反馈!

  2. Damien 2024年12月10日上午9:09 #

    大家好,

    我很想探索一下,但是上面没有一个文章有教程的超链接??是我漏掉了吗?

  3. Satya 2024年12月12日下午1:41 #

    我想查看上面提到的第 4 和第 5 个主题,但找不到任何链接。很难在这个门户网站上导航。

  4. Damien 2024年12月14日上午9:17 #

    教程无法访问。

    • Lotfi 2024年12月14日下午7:39 #

      你好 Damien,

      要访问教程,只需点击名为“教程作者:”的超链接。

      例如:教程作者:Tom Chant。

      祝你好运。

发表评论

Machine Learning Mastery 是 Guiding Tech Media 的一部分,Guiding Tech Media 是一家领先的数字媒体出版商,专注于帮助人们了解技术。访问我们的公司网站以了解更多关于我们的使命和团队的信息。