从技术小白到专家：解锁搜推领域关键技术（一）

大家好，欢迎来到IT知识分享网。

一、个性化搜索推荐

个性化搜索推荐是根据用户的个人喜好和行为习惯，‌为用户提供定制化的内容或服务推荐。‌这种推荐可以基于用户的浏览历史、‌搜索记录、‌购买行为等多种数据进行分析，‌以提供更加符合用户需求的推荐内容

个性化推荐原理：

①收集用户行为数据，如浏览历史、购买记录、评分、搜索查询等；

② 对用户的兴趣偏好进行建模，预测用户喜爱的商品、服务或者内容；

③ 对预测用户喜爱的商品、内容排序，将排名较高的商品、服务或者内容推荐给用户；

二、搜索与推荐分层架构

搜索/推荐系统的分层架构通常包括多个关键组件，这些组件协同工作以提供高效、准确的搜索结果或推荐内容。以下是对召回、粗排、精排、重排这四个关键环节的详细解释：

搜索与推荐在系统内部确实存在紧密的联系，并且在一定程度上可以视为一体化的两个面向不同需求的子系统。尽管它们的初始召回方式有所不同——搜索主要基于关键词召回，而推荐则更多基于用户行为偏好召回——但在后续的排序和处理过程中，两者往往采用相似的技术和策略。

召回（Recall）

定义：召回层是推荐系统的第一道筛选关卡，它的主要任务是从海量的候选集中快速筛选出与用户兴趣可能相关的物品或内容。

特点：

高效性：召回层需要处理的数据量极大，因此必须采用高效的算法和规则来确保处理速度。
多样性：为了覆盖用户可能感兴趣的多个方面，召回层通常会采用多种策略或模型来召回候选集。
低精度：由于召回层的主要目标是尽可能多地召回相关物品，因此其精度相对较低，但召回率（即真正相关的物品被召回的比例）需要较高。

粗排（Coarse Ranking）

定义：粗排是介于召回和精排之间的一个模块，它的主要任务是对召回层输出的候选集进行初步排序，以减少后续精排模块的处理压力。

特点：

精度与性能的平衡：粗排需要在保证一定精度的同时，尽量提高处理速度，以应对召回层输出的庞大候选集。
特征选择：粗排通常会选择一些计算成本较低但效果较好的特征来进行排序。
模型简单：粗排模型通常比精排模型简单，以便快速处理大量数据。

精排（Precise Ranking）

定义：精排是推荐系统的核心模块之一，它的主要任务是对粗排后的候选集进行精细排序，以生成最终的推荐列表。

特点：

高精度：精排需要采用复杂的模型和算法来确保排序结果的准确性。
多特征融合：精排会综合考虑多种特征（如用户行为、物品属性、上下文信息等）来进行排序。
深度学习应用：随着深度学习技术的发展，越来越多的精排模型开始采用深度学习技术来提高排序效果。

重排（Re-ranking）

定义：重排是在精排之后对推荐列表进行进一步调整的过程，它的主要目的是优化推荐列表的多样性、新鲜度、流行度等指标。

特点：

多样性优化：重排会考虑推荐列表中物品的多样性，以避免推荐结果过于单一。
业务规则融入：重排过程中可以融入一些业务规则（如新品扶持、广告插入等），以满足特定的业务需求。

在粗排、精排、重排等各个阶段都需要不同算法模型参与。

三、算法建模流程

业务理解：首先，需要对业务需求有深入的理解，明确项目的目标和预期结果。
数据收集：根据业务需求，收集相关的数据。这些数据可以是结构化的，如数据库中的表格数据，也可以是非结构化的，如文本、图片或音频。
数据预处理：包括数据清洗（处理缺失值、异常值）、数据转换（如将文本转换为数值）、数据标准化或归一化等，以确保数据适合模型训练。
特征工程：从原始数据集中选择对模型预测最有帮助的特征，这些特征可能更能反映数据的本质,将原始特征转换为模型更容易处理的形式，例如，将非数值型数据转换为数值型数据，或者进行标准化、归一化等。特征工程涉及特征的选择、特征提取、特征构建。数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已。
选择模型：根据问题的性质选择合适的机器学习模型。这可能包括决策树、支持向量机、神经网络等。
训练模型：使用预处理后的数据和选定的模型进行训练。在这个阶段，模型会学习数据中的模式和关系。
模型评估：通过交叉验证、混淆矩阵、准确率、召回率等方法评估模型的性能。
模型优化：根据评估结果，对模型进行调整和优化，比如调整参数、选择不同的算法或特征。
部署：将模型部署到生产环境中，以便在实际业务中使用。
监控与维护：持续监控模型的表现，并根据需要进行维护和更新。

四、算法模型的训练与推理

在机器学习和人工智能领域，算法模型的训练阶段和推理阶段是两个关键的环节，它们分别对应模型的学习和应用过程。

训练阶段（Training Phase）：训练阶段是模型学习如何从输入数据中进行预测的过程。在这个阶段，模型通过大量的训练数据来识别模式和关系。

推理阶段（Inference Phase）：模型使用训练阶段学到的知识来对新的、未见过的数据进行预测的过程。

五、搜索推荐典型架构

六、向量召回

向量召回是一种基于向量的推荐技术，它将用户和物品映射到同一向量空间中，通过计算它们之间的相似度来进行推荐。这种技术利用了向量的数学特性，如大小和方向，来高效地匹配用户兴趣和物品属性，从而提供个性化的推荐。

向量召回的基本概念和原理

映射到向量空间：将用户和物品的特征转换为高维空间中的向量表示。
计算相似度：通过计算用户向量与物品向量之间的相似度（如余弦相似度、欧氏距离等），找出最相似的物品进行推荐。

七、常见召回常用方法

i2i（Item-to-Item）：

定义：i2i 推荐策略主要关注物品与物品之间的相似度。它基于用户的历史行为（如点击、购买等）来计算物品之间的相似性，然后推荐与用户已经喜欢的物品相似的其他物品。这种策略不直接涉及用户到物品的推荐路径，而是侧重于物品之间的关联。

应用场景：适用于相似推荐、相关推荐、关联推荐等场景。

u2u2i（User-to-User-to-Item）

定义：u2u2i是一种基于用户的推荐方式，它首先找到与目标用户相似的用户群体，然后将这些相似用户喜欢的物品推荐给目标用户。

应用场景：适用于用户行为数据较为丰富，且用户之间的相似性对推荐结果有较大影响的场景。

u2i2i（User-to-Item-to-Item）

定义：u2i2i虽然名字上看起来像是i2i的变种，但实际上它更多地描述了一个推荐过程，即从用户到物品，再到相似物品的推荐路径。这种策略首先识别用户已经喜欢的物品，然后基于这些物品推荐其他相似的物品。

u2tag2i（User-to-Tag-to-Item）

定义：u2tag2i是一种基于标签的泛化推荐方式，它首先统计用户偏好的标签向量（如物品的标签、分类、关键词等），然后基于这些标签匹配并推荐相应的物品给用户。

应用场景：适用于用户行为数据较为稀疏，但可以通过标签来有效表达用户偏好的场景。

八、常见搜推算法

协同过滤推荐算法

协同过滤推荐算法是诞生最早，并且较为著名的推荐算法，在整个推荐系统发展史上有举足轻重的作用。基于协同过滤的推荐算法又分为基于用户的协同过滤算法和基于项的协同过滤算法。

基于用户的协同过滤算法主要考虑用户与用户之间的相似度，在用户群中找到与指定用户具有相似兴趣偏好的相似用户，将相似用户喜欢的物品或者服务推荐给指定用户。

与基于用户的协同过滤推荐算法不同，基于项的协同过滤推荐算法从项（物品或者服务）的角度出发，重点考虑项与项之间的相似度。该类方法认为用户更倾向于喜欢曾经购买、收藏、点击、浏览过物品、内容或者服务，将与用户历史交互过的物品、内容或者服务相似的项推荐给用户。

基于内容的推荐算法

基于内容的推荐算法是通过分析用户过去喜欢的内容特征，并将其与候选物品的特征进行匹配，从而推荐与用户兴趣相似的新内容或物品的算法。

Look-alike相似人群拓展算法

Look-alike（相似人群）算法是一种在数字营销和广告领域常用的技术，特别是在社交媒体平台如Facebook、微信等进行广告投放时。这种算法的目标是在庞大的用户群体中找到与现有客户或成功转化用户具有相似特征的新潜在客户。Look-alike不是单指某一种算法，而是一类方法的统称，这类方法综合运用多种技术，其目的就是为了实现人群包扩充。在电商平台或内容推荐系统中，找到与用户兴趣相似的其他用户群体，也可以使用该算法。

九、模型评估指标

准确率(Accuracy)、精确率(Precision)和召回率(Recall)是评估分类模型性能的三个重要指标。

准确率（Precision），又称“精度”、“正确率”、“查准率”，表示在检索到的所有文档中，检索到的相关文档所占的比例。
召回率（Recall），又称“查全率”，表示在所有相关文档中，检索到的相关文档所占的比率。

两者的公式为：

准确率 = 检索到的相关文档数量 / 检索到的所有文档总数
召回率 = 检索到的相关文档数量 / 系统中所有相关文档的总数

参考文章：

https://lumingdong.cn/cooperative-recommendation-algorithms.html

https://bbs.huaweicloud.com/blogs/

免责声明：本站所有文章内容,图片，视频等均是来源于用户投稿和互联网及文摘转载整编而成，不代表本站观点，不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益，请在线联系站长,一经查实,本站将立刻删除。本文来自网络,若有侵权，请联系删除，如若转载，请注明出处：https://yundeesoft.com/92474.html