Ellie's Blog

「离开世界之前一切都是过程」

微调CLIP的对比学习训练任务

CLIP

数据对数量的影响因素模型初始表现： 1 2 • 如果使用的是预训练好的 CLIP（如 GeoRSCLIP 和官方 CLIP），两者已经在共享的语义空间中具有一定对齐能力，这会减少对比学习所需的数据量。 • 但如果模型对街景和卫星图像的分布差异较大，则需要更多的数据对来弥合分布差异。对比学习任务的复杂性： 1 2 • 图像内容的多样性：如果卫星图像和街景图像分布的复杂度较...

Posted by Ellie on October 31, 2024

Pytorch中的backward()函数使用技巧

loss.backward()

条件为了确保梯度能够传递到自定义 encoder，需要满足以下条件：模型集成到计算图中你的自定义 encoder 必须用 PyTorch 定义，并且其输出被纳入到计算损失的过程中。例如，假设你替换了文本编码器（text encoder），可以这样构造架构： 1 2 3 4 5 6 7 8 9 10 # CLIP image encoder image_features ...

Posted by Ellie on October 31, 2024

基于Vision Transformer进行相关区域匹配的方法

Vision Transformer

现成的基于 Transformer 的模型专门用于图像之间的相似区域匹配任务。这些模型通常应用于图像配准（image registration）、图像检索（image retrieval）、和图像对齐（image alignment）等任务。以下是几种现成的 Transformer 模型或框架，它们能够执行图像相似区域匹配： 1. TransforMatcher (Transformer-...

Posted by Ellie on October 31, 2024

细数位置编码的几种形式

Transformer Positional Encoding

Transformer的位置编码（Positional Encoding, PE）是解决序列数据中位置关系的重要方法。位置编码经历了多个阶段的发展，以应对Transformer模型中序列信息丢失的问题，并优化模型的性能。以下是Transformer位置编码形式的主要发展演变。 1. 基础位置编码（经典正弦-余弦位置编码）在原始Transformer模型（Vaswani等人，2017）中，...

Posted by Ellie on October 30, 2024