Posts tagged with #RAG

3 posts found

手写 Huggingface RAG 系统(3)——构建向量数据库与生成

有了前面的 Embedding 模型,我们就可以用这个模型将 chunk 内容转换成向量,然后构建向量数据库了。 在讲解具体构建过程前,我们简单介绍一下混合索引的概念。 > 最初的版本是没引入混合索引的,但是在使用 RAG 系统的过程中发现 `AutoModel` 这个模块的检索效果不太好,就引入了。 在检索向量时,以 `AutoModel` 为例,我们需要检索下面两类文档: 1. ...

手写 Huggingface RAG 系统(2)——Embedding 构建

完成分块之后,我们就需要对分块的数据进行 Embedding 了。为了让 Embedding 在 Huggingface Transformers 上的效果更好,我们使用我们 chunk 好的数据构造数据集,在 `jinaai/jina-embeddings-v2-base-en` 上进行微调。 微调后的模型上传到了...

手写 Huggingface RAG 系统(1)——数据预处理与分块

最近自己手写了一个基于 Huggingface transformers 英文文档的 RAG 系统,这里整理一下开发的过程。 所有的组件都是自己写的,Embedding 模型是基于分块后的文档微调 jinaai/jina-embeddings-v2-base-en 模型得到的。最终效果如下: <Image src={image_2025_11_27_11_47_52} alt="alt...