Prompt Learning——Template

Posted 2023-02-28 小爷毛毛（卓寿杰）

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Prompt Learning——Template相关的知识，希望对你有一定的参考价值。

template（可以是特定的文本tokens或抽象的新的tokens ，唯一的区别是初始化）是提示学习框架中最重要的模块之一。

Soft & Mix Template

hard template 就是由具体的中文或英文词汇组成提示，它是人工可读的提示。这类template的定义我们在之前的《Prompt Learning——basic & 【EACL 2021】PET》中有举例过。
soft template 是在向量空间优化出来的提示，可以从一个hard template开始（初始化）通过梯度搜索之类的方式进行优化，不改变原始的提示向量的数量和位置，在它的空间进行搜索。
让我们尝试一些 soft token，如果你使用‘soft’，token将被随机初始化。如果您在值位置添加一些普通token，hard token 将由这些token初始化：

from openprompt.prompts import MixedTemplate

mytemplate1 = MixedTemplate(model=plm, tokenizer=tokenizer, text='"placeholder":"text_a" "soft": "Question:" "placeholder":"text_b"? Is it correct? "mask".')

mytemplate = MixedTemplate(model=plm, tokenizer=tokenizer, text='"placeholder":"text_a" "soft" "soft" "soft" "placeholder":"text_b" "soft" "mask".')

请注意，hard template 将使用模型进行优化,而 soft token 将被单独优化。初始化也是有区别的：

    def process_batch(self, batch: Union[Dict, InputFeatures]) -> Union[Dict, InputFeatures]:
        """
        将 input_ids 转换为 inputs_embeds
		对于普通token，使用 PLM 的embed层
		对于soft token，使用一个新的embed层，该层使用相应的 hard token embed 进行初始化
        """
        raw_embeds = self.raw_embedding(batch['input_ids'])
        soft_embeds = self.soft_embedding(batch['soft_token_ids'])
        inputs_embeds = torch.where((batch['soft_token_ids'] > 0).unsqueeze(-1), soft_embeds, raw_embeds)

        batch['input_ids'] = None
        batch['inputs_embeds'] = inputs_embeds
        return batch

注意如果两个soft token具有相同soft_ids的，它们将共享嵌入：

"meta": "premise" "meta": "hypothesis" "soft": "Does" "soft": "the", "soft_id": 1 first sentence entails "soft_id": 1 second?

如果尝试定义 10000 个 soft token，可以使用关键词 duplicate：

"soft": None, "duplicate": 10000 "meta": "text" "mask"

如果您尝试定义 10000 个相同的soft token，可以使用关键词 same：

"soft": None, "duplicate": 10000, "same": True

Post processing

OpenPrompt还支持后处理。例如，编写一个 lambda 表达式来去除数据中的最终标点符号：

"meta": 'context', "post_processing": lambda s: s.rstrip(string.punctuation). "soft": "It was" "mask"

还可以应用 MLP 来对token 进行后处理：

"text": "This sentence is", "post_processing": "mlp" "soft": None, "post_processing": "mlp"

以上是关于Prompt Learning——Template的主要内容，如果未能解决你的问题，请参考以下文章