原文地址:https://arxiv.org/abs/2305.07001
本文作者将用户偏好、意图等构建为指令,并用这些指令调优一个LLM(3B Flan-T5-XL),该方法对用户友好,用户可以与系统交流获取更准确的推荐。
LLM是建立在自然语言文本上的,它不能直接适应基于行为数据的推荐系统。为了减少两者的gap,一种思路是将行为建模视作语言建模。在这种方法中,有两个关键问题:
(资料图片)
作者提出了一种方法InstructRec解决以上问题,其主要有两个贡献:
指令中的用户偏好、意图是使用GPT3.5基于用户的历史行为生成的。
指令的格式。
指令的关键方面有三个:用户的偏好、意图及任务形式。
Preference (P):用户的偏好,指用户对item的属性或特征的个性化品味。在本文的指令中,旨在捕获用户固有的长期偏好。可分为以下三类
Intention (I):指用户对某些类型的item更直接的需求。
Task Form (T):本文提出了以下几种任务形式
除上述三部分外,还可以加入一些上下文特征(时间地点等)。
本节介绍了几个具有代表性的实例。
因为LLM推理成本较高,所以LLM更适合用于重排阶段,在本文中也主要讨论\(T_3\)任务。
通过提示GPT3.5用户的历史行为和评论来为用户生成个性化信息。
Preference annotation:对于隐式偏好取标题,显示偏好通过GPT3.5提取。
Intention annotation:类似于偏好提取。显示意图可以用标签表示。
Task form annotation:对于\(T_0\),需要构建指令类似于“基于<用户相关的信息>,用户之后会与
提高指令数量和多样性有利于提高推荐效果,以下是作者提出增加指令多样性的一些策略
Turn the task around:对正常指令的输入输出交换。
Enforcing the relatedness between preference and intention:长期偏好和短期意图应该高度相关。
Chain-of-thought (CoT) like reasoning:在中间推理步骤中添加了额外的解释,使LLM能够执行复杂的推理任务。
Sequential Recommendation ⟨\(P_1,I_0,T_3\)⟩:序列推荐任务上的表现
Product Search ⟨\(P_0,I_2,T_3\)⟩:产品搜索上的表现
Personalized search ⟨\(P_1/P_2,I_1/I_2,T_3\)⟩:个性化搜索上的表现
Discriminating Hard Negative Item Candidates:区分难负例的表现,模拟真实推荐中的重排通道
Discriminating More Candidate Items:从更大的候选集中选item,其它实验候选集大小都是10,这个实验是100
Effects of Instructions:指令的效果,不断在基础指令上叠加更多指令
Generalization across Datasets:跨域推荐,上面两种传统的推荐方法在进行了正常的域内训练,下面的基于LLM的推荐是在亚马逊“Games”数据集上微调,在“CDs”数据集上测试
本文主要讲的是通过指令微调LLM并用LLM进行推荐,经过精心设计的指令微调后的LLM在多种场景下的推荐表现出不错的效果。但是,由于LLM无法很好地处理长文本,LLM难以对用户较长的序列进行建模,文中实验生成所用的行为序列大小被限制为20,测试时重排的集合大小更是只有10,在实际中的推荐系统数据要比这些大的多。目前,微调LLM进行推荐还在初步阶段,有很多有前景的方向值得探索,包括如何生成让LLM更易于理解的指令、如何使用更长的行为序列等。
Copyright 2015-2022 慧聪网版权所有 备案号:京ICP备2021034106号-12 联系邮箱:55 16 53 8 @qq.com