Archive - Page 2

- 正交向量 (Orthogonal Vectors)：如果两个向量 $v$ 和 $w$ 正交，那么它们的点积为0： $$ v^Tw=0 $$ - 正交子空间 (Orthogonal Subspaces)：如果子空间 $V$ 和子空间 $W$ 是正交的，则 $V$ 中的**每一个向量都必须垂直于 $W$ 中的每一个向量**。 >...

#Linear Algebra

前后端类型对齐设计

December 5, 2025 1095 words • 6 min read

> 这几天在写一个项目的前后端部分时，因为之前没定义好类型后面写得很痛苦，现在整理一下自己重构后采用的一些设计。 Service 只负责定义自己需要的 DTO，如： ```typescript interface FileUploadDTO { userId: string; folderId: string; fileBuffer: Buffer; fileSize: number;...

#TypeScript #Frontend #Backend

MongoDB 事务配置

December 2, 2025 553 words • 3 min read

MongoDB 的事务需要在副本集上完成。MongoDB 的事务操作依赖操作日志 oplog。这个日志包含了下面的信息： 1. 原子性的记录：事务中的所有写操作会被打包成一个原子性的条目写入 oplog。这意味着，这些操作要么全部被记录，要么一个也不被记录。这保证了事务的原子性。 2...

#MongoDB #Transaction #Backend

手写 Huggingface RAG 系统(3)——构建向量数据库与生成

November 30, 2025 1854 words • 10 min read

有了前面的 Embedding 模型，我们就可以用这个模型将 chunk 内容转换成向量，然后构建向量数据库了。在讲解具体构建过程前，我们简单介绍一下混合索引的概念。 > 最初的版本是没引入混合索引的，但是在使用 RAG 系统的过程中发现 `AutoModel` 这个模块的检索效果不太好，就引入了。在检索向量时，以 `AutoModel` 为例，我们需要检索下面两类文档： 1. ...

#RAG

手写 Huggingface RAG 系统(2)——Embedding 构建

November 27, 2025 920 words • 5 min read

完成分块之后，我们就需要对分块的数据进行 Embedding 了。为了让 Embedding 在 Huggingface Transformers 上的效果更好，我们使用我们 chunk 好的数据构造数据集，在 `jinaai/jina-embeddings-v2-base-en` 上进行微调。微调后的模型上传到了...

#RAG

手写 Huggingface RAG 系统(1)——数据预处理与分块

November 27, 2025 2957 words • 15 min read

最近自己手写了一个基于 Huggingface transformers 英文文档的 RAG 系统，这里整理一下开发的过程。所有的组件都是自己写的，Embedding 模型是基于分块后的文档微调 jinaai/jina-embeddings-v2-base-en 模型得到的。最终效果如下： <Image src={image_2025_11_27_11_47_52} alt="alt...

#RAG

使用 MinIO 管理用户头像遇到的问题

November 24, 2025 432 words • 3 min read

在手写用户前后端的时候遇到了下面的问题：用户注册时头像上传是成功的，但是 User Profile 显示的是 fallback 的头像。在改了前端和其他的后端代码无果后，发现是 MinIO 的配置有些问题。原本在 MinIO 中如下配置了预签名： ```typescript const sevenDays = 7 * 24 * 60 * 60; const url = await...

#Backend #MinIO