Ellie's Blog

「离开世界之前 一切都是过程」

微调CLIP的对比学习训练任务

CLIP

数据对数量的影响因素 模型初始表现: 1 2 • 如果使用的是预训练好的 CLIP(如 GeoRSCLIP 和官方 CLIP),两者已经在共享的语义空间中具有一定对齐能力,这会减少对比学习所需的数据量。 • 但如果模型对街景和卫星图像的分布差异较大,则需要更多的数据对来弥合分布差异。 对比学习任务的复杂性: 1 2 • 图像内容的多样性:如果卫星图像和街景图像分布的复杂度较...

Pytorch中的backward()函数使用技巧

loss.backward()

条件 为了确保梯度能够传递到自定义 encoder,需要满足以下条件: 模型集成到计算图中 你的自定义 encoder 必须用 PyTorch 定义,并且其输出被纳入到计算损失的过程中。例如,假设你替换了文本编码器(text encoder),可以这样构造架构: 1 2 3 4 5 6 7 8 9 10 # CLIP image encoder image_features ...

基于Vision Transformer进行相关区域匹配的方法

Vision Transformer

现成的基于 Transformer 的模型专门用于图像之间的相似区域匹配任务。这些模型通常应用于图像配准(image registration)、图像检索(image retrieval)、和图像对齐(image alignment)等任务。以下是几种现成的 Transformer 模型或框架,它们能够执行图像相似区域匹配: 1. TransforMatcher (Transformer-...

细数位置编码的几种形式

Transformer Positional Encoding

Transformer的位置编码(Positional Encoding, PE)是解决序列数据中位置关系的重要方法。位置编码经历了多个阶段的发展,以应对Transformer模型中序列信息丢失的问题,并优化模型的性能。以下是Transformer位置编码形式的主要发展演变。 1. 基础位置编码(经典正弦-余弦位置编码) 在原始Transformer模型(Vaswani等人,2017)中,...