首页 > 资讯 > 综合 > 正文
2024-04-04 13:16

用户画像标签系统搭建指南

全文共9694字。 建议阅读10分钟。

01

什么是用户画像

用户画像是指根据用户属性、用户偏好、生活习惯、用户行为等信息抽象出的带标签的用户模型。 通俗地说,就是给用户加标签,标签是通过分析用户信息而得出的高度精细化的特征标识符。 通过标签,可以用一些高度概括且易于理解的特征来描述用户,这使得人们更容易理解用户,也便于计算机处理。

用户角色是现实世界中用户的建模。 用户角色应包括目标、方法、组织、标准、验证五个方面。

目标:指描述人、认识人、了解人、了解人。

方法:分为非正式手段,如用文字、语言、图像、视频等来描述人; 形式手段,即用数据来描绘人物肖像。

组织:指结构化和非结构化的组织形式。

标准:指用常识、共识、知识体系来描述人物、理解用户的渐进过程。

验证:基础强调用户画像应该来源于事实,经得起推理和检验。

在产品的早期和开发阶段,会更多地使用用户画像来帮助产品人员了解用户需求,想象用户使用场景。 产品设计从为所有人做产品变成为三四个人做产品,间接降低了复杂性。 花费。

用户画像中使用的标签是网络标签的深入应用,是某种用户特征的符号化表征,是我们观察、理解和描述用户的视角。 用户标签是根据用户的特征数据、行为数据、消费数据经过统计计算得到的,包含了用户的各个维度。 所谓用户画像可以用用户标签的集合来表示,是勾画目标用户、连接用户需求和设计方向的有效工具。

用户画像,即用户信息的标签,是企业通过收集和分析消费者的社交属性、生活习惯、消费行为等主要信息,完美抽象出用户的业务档案。 它是企业应用大数据技术的基础。 方式。 用户画像为企业提供了充足的信息基础,可以帮助企业快速找到准确的用户群体和用户需求等更广泛的反馈信息。

02

用户标签分类

1.根据标签变化的频率,可以分为静态标签和动态标签。

静态标签是指用户固有的属性信息,或者很少改变的信息,比如用户的姓名、性别、出生日期,或者用户的学历、职业等。虽然可能会改变,但改变的频率是有限的。 它相对较低或很少变化。 动态标签是指变化非常频繁且非常不稳定的特征和行为。 例如,诸如“一段时间内经常光顾的商场以及购买的商品类别”之类的标签可能每天甚至每小时都在变化。 。

2、根据标签参考依据和评价指标的不同,可分为定性标签和定量标签。

定性标签是指不能直接量化、需要通过其他手段量化的标签。 标签的值是用文字描述的。 例如,“用户最喜欢的运动”是“跑步、游泳”,“用户的工作状态”是“未婚”。 ”等等。定量标签是指能够准确定量定义、精确测量、可以设定定量指标的标签。标签的价值是通过常用的数值或数值范围来描述的。定量标签无法直观地解释用户的某些特征,但我们可以通过统计比较大量用户的数值来获得一定的信息,例如“用户年龄结构”为“20-25岁”,“单次购买平均金额”为“300元”,“购买总金额”为“20万元”……当我们获得上述信息后,我们是否可以将该用户归类为高价值客户呢?

3、根据标签来源渠道和生成方式的不同,可分为基础标签、业务标签、智能标签。

基础标签主要是指对用户基本特征的描述,如:姓名、性别、年龄、身高、体重等。业务标签是根据相关业务的业务经验,在基本标签之上结合统计方法生成的标签。标签。 例如,用户忠诚度、用户购买力等标签是基于用户的登录次数、在线时间、单位时间活跃次数、购买量等。 由单次购买金额、总购买金额等指标计算得出。 业务标签可以将运营固化为知识,被更多人使用。 智能标签利用基于机器学习算法的人工智能技术,通过大量数据计算实现自动化、推荐性标注。 例如,今日头条的推荐引擎利用智能标签系统向用户推送感兴趣的内容。

4、根据标签体系的分层方式,可以分为一级标签、二级标签、三级标签等,每一级标签相当于一个业务维度的一个方面。 在标签应用中,根据不同的业务场景组合标签,形成相应的用户画像。

5.根据数据提取和处理的维度,标签可以分为事实标签、模型标签和预测标签。 这种用户标签分类的方法更多是为了技术人员帮助他们设计合理的数据处理单元。

事实标签。 建立的事实直接从原始数据中提取,描述用户的自然属性、产品属性、消费属性等。事实标签本身不需要模型和算法,实现简单,但规模需要不断补充和完善。根据业务进行丰富,例如:名称、购买的产品类别、社区等。

型号标签。 通过分析用户的基础数据,对用户属性、行为等属性进行抽象和聚类,并为用户打上相应的汇总标签和索引。 标签代表用户的兴趣、偏好、需求等,指数代表用户的兴趣程度、需求程度、购买概率等。

预测标签。 参考现有事实数据,基于用户的属性、行为、位置和特征,通过机器学习、深度学习、神经网络等算法进行用户行为预测。 这些行为预测结合营销策略和规则进行标记,以实现及时、及时的营销。 在合适的时间、合适的场景推送给用户。 例如,在尝试了产品A后,预测用户可能还想购买产品B,并向用户推送购买链接。

03

用户画像标签体系建立

1.什么是标签系统?

用户画像是真实用户的数学模型。 在整个数学模型中,核心是如何描述业务知识系统,而这个业务知识系统就是本体。 本体论非常复杂。 我们发现了一个特别简单的实现,那就是标签。 。

标签是某种用户特征的符号表示。 它是一种组织内容的方式,也是一个高度相关的关键词,可以很容易地帮助我们找到合适的内容和内容分类。 (注:简单来说,就是你把用户分为多少个类别,这些类别是什么,它们之间是如何关联的,这就构成了标签系统)

标签解决了描述(或命名)的问题,但在实际应用中,还需要解决数据之间的关联问题,因此标签通常被设计成一个系统来解决数据之间的关联问题。

一般来说,能够与特定用户数据关联的标签称为叶子标签。 对叶子标签进行分类和汇总的标签称为父标签。 父标签和叶子标签共同构成了标签系统,但它们是相对的概念。 例如:下表中,城市和型号是标签系统中相对于省份和品牌的叶子标签。

用户画像标签系统创建完成后,一般包括以下几个方面:

(1)标签分类

用户画像标签可分为基本属性标签和行为属性标签。

由于基于目标肖像的标签是动态扩展的,因此标签系统没有统一的模板。 从大的分类来看,与自身的业务特点密切相关。 总体思路可以分为横向和纵向两个方向。 从两个维度思考:横向是产品内数据和产品外部数据,纵向是线上数据和线下数据。 中间是永恒的“角色基本属性”。

如果说其他品类都是由企业特色来决定的话,那么只有人物属性(名字不重要,关键是内涵)才是每个企业都不能错过的组成部分。

所谓基本人物属性是指用户的客观属性而不是用户自我表达的属性,即描述用户真实人口属性的标签。 所谓非“自我表达”,例如某产品中的个人信息有性别项,用户填写为“女性”,以及用户上传的身份证号,以及用户的照片、用户购买的产品、甚至用户拨打的客服电话发现用户的性别是“男”。 那么角色的基本属性中的性别应该标记为“男”,但在用户信息标签部分,自我描述的性别可以标记为女。

(2)标签级别(标签的架构)

分级有两个层面的含义。 一是:从指标到最低级别的覆盖程度; 二是:指标的计算级别。 其一是非常容易理解的。 这里的重点是计算层面。

标签从操作层面来看可以分为三个层面:事实标签、模型标签、预测标签。

事实标签:通过对原始数据库数据进行统计分析得到的。 例如,用户投诉数量是根据用户在一段时间内的实际投诉行为进行统计。

模型标签:模型标签基于事实标签,通过构建事实标签与业务问题之间的模型并进行模型分析得到。 例如,根据用户的实际投诉次数、用户购买的品类、用户支付的金额等,可以识别出用户投诉倾向的类型,以便于客服分类处理。

预测标签:根据模型进行预测,例如根据投诉倾向类型结构的变化来预测平台舆情风险指数。

(3) 标签命名与分配

我们用一张图来说明命名和赋值的区别。 只要我们在构建用户标签的过程中有意识的区分标签命名和赋值就行了,这里不再赘述。

(4)标签属性

标签属性可以理解为标签的重新标记。 这一步的主要目的是帮助内部理解标签分配的来源,进而理解指标的含义。 如图所示,可以归纳为5个来源:

1、固有属性:是指这些指标赋予的属性是用户固有的或事实上存在的,不因外界条件或自身认知的变化而改变。 例如:性别、年龄、是否有孩子等。

2.派生属性:从其他属性派生出的属性,例如十二生肖,可以从用户的生日派生。 例如,可以从日常购买中得出用户的类别偏好。

3、行为属性:记录产品内外的实际行为后形成的赋值,如用户的登录时间、页面停留时间等。

4、态度属性:用户自我表达的态度和意愿。 比如我们通过问卷的形式向用户询问一些问题,形成标签,比如询问用户是否愿意结婚,是否喜欢某个品牌等等。当然,在大数据需求的背景下,通过问卷调查来收集用户标签的方法显得效率太低。 而是使用产品中更多相关模块来收集用户态度信息。

5、测试属性:测试属性是指用户的态度表达,但它不是用户直接表达的内容,而是通过分析用户的表达和结构处理得到的测试结论。 例如,用户填写一系列态度调查问卷来得出他们的价值观类型等。

值得注意的是,一个标签可以有多个属性。 例如,生肖标签既是固有属性,又是推论属性。 它不以个人意志为转移,可以从身份证号码中推算出来。

即使你成功建立了用户画像的标签体系,也不代表你已经开启了用户画像的成功之路,因为这些标签很有可能根本无法获取,或者无法赋值。

标签无法赋值的原因包括:无法采集数据(没有有效的渠道和方法采集准确的数据,比如用户ID号)、数据库无法访问、建模失败(无法赋值预测指标)值)等

2. 标签架构

标签系统可以概括为以下层次结构。

(1)原始输入层

主要指用户的历史数据信息,如会员信息、消费信息、网络行为信息等。 经过数据清洗后,就到达了用户标签系统的实际层。

(2)事实层

事实层是用户信息的准确描述层。 它最重要的特点是能够得到用户明确的、积极的验证。 如用户的人口统计属性、性别、年龄、籍贯、会员信息等。

(3)模型预测层

通过运用统计建模、数据挖掘和机器学习的思想来分析和利用事实级数据,我们可以获得更深刻的描述用户的信息。 例如,通过建模分析,可以预测用户的性别偏好,从而可以预测尚未收集性别数据的新用户。 还可以利用聚类和关联的思想,通过建模和数据挖掘来发现人群的聚集特征。

(4)营销模式预测

利用模型预测层的结果,我们可以对不同用户群体中具有相同需求的客户进行标签,建立营销模型,分析用户活跃度、忠诚度、流失率、影响力等可用于营销的数据。

(5)业务层

业务层可以是表示层。 是业务逻辑的直接体现,如图,有车的人,有房子的人等等。

3、标签架构分类

一般来说,标签系统的设计思路有3种,即:(1)结构化标签系统; (2)半结构化标签系统; (3)非结构化标签系统。

(1)结构化标签系统

简单来说,标签被组织成一个相对规则的树或森林,具有清晰的层次划分和父子关系。 结构化的标签系统看起来整洁且易于解释,在面对品牌广告井喷时更容易使用。 性别、年龄等人口属性标签是最典型的结构化系统。 下图显示了雅虎针对受众的广告平台所使用的结构化标签系统。

(2)半结构化标签系统

用于效果广告时,标签设计的灵活性大大提高。 标签制度是否正规并不重要,只要有效就可以。 在这种思维下,用户标签往往呈现出行业内的某种并行体系,而各行业内的标签设计则以“抓到老鼠就是好猫”为最高指导原则,决不能拘泥于形式。 下图是多个数据聚合而成的半结构化标签系统。

(3)非结构化标签系统

非结构化,即每个标签都是切题的,每个标签都反映了自己的用户兴趣。 相互之间没有层级关系,很难组织成规则的树形结构。 非结构化标签的典型示例是搜索广告中使用的关键字。 还有有用的用户兴趣词。

网络广告受众观念的变化_广告模式受众更广_网络广告核心受众更多变现为

4、用户画像标签级别建模方法

用户画像的核心是标签的建立。 建立用户画像标签各阶段所使用的模型和算法如下图所示。

原始数据层。 对于原始数据,我们主要采用文本挖掘算法进行分析,比如常见的TF-IDF、主题模型、LDA等算法,主要对原始数据进行预处理和清洗,并对用户数据进行匹配和识别。

事实标签层。 通过文本挖掘方法,我们从数据中提取尽可能多的事实数据信息,如人口统计属性信息、用户行为信息、消费信息等。主要使用的算法是分类和聚类。 分类主要用于预测新用户、信息不完全的用户,以及对用户进行预测和分类。 聚类主要用于分析和挖掘具有相同特征的群体信息,以进行受众细分和市场细分。 对于文本特征数据,主要采用相似度计算,如余弦角、欧氏距离等。

模型标签层。 使用机器学习方法与推荐算法相结合。 模型标签层完成用户的标签建模和用户识别。 可以使用的主要算法包括回归、决策树、支持向量机等。通过建模分析,可以进一步挖掘用户的群体特征和个性权重特征,从而改进用户价值衡量、服务满意度衡量等。

预测层。 也是标签系统中的营销模式预测层。 该级别利用预测算法,例如机器学习中的监督学习、计量经济学中的回归预测以及数学中的线性规划。 对用户流失预测、忠诚度预测、兴趣程度预测等进行实践,从而实现精准营销、个性化定制服务。

不同的标签级别会考虑使用适合自己的建模方法。 对于一些具体问题,有专门的文章来研究。

05

用户画像的应用场景

用户画像,即用户信息的标签,是企业通过收集和分析消费者的基本属性、社交属性、生活习惯、行为特征等主要信息,抽象出用户业务的全貌。 大数据的发展使得各行各业越来越关注如何利用大数据了解用户需求,实现精准营销,进一步挖掘潜在的商业价值。

不同的企业对于创建用户画像有不同的战略目的。 广告公司创建用户画像来服务精准广告,电商企业创建用户画像为用户购买更多产品,内容平台创建用户画像来推荐用户更感兴趣的内容,流量再次变现。 企业对用户了解越多,就越容易为用户提供所需的产品和服务,从而增加用户粘性,提高企业盈利能力。

1.了解用户

我们不得不承认,大数据正在改变各行各业。 过去了解用户主要是通过用户调查和访谈的方式。 形式单一,资料收集不完整,真假难辨。 尤其是产品用户数量扩大后,研究的有效性下降,无法满足企业发展的要求。 利用大数据技术,基于标签系统构建用户360°画像,从各个维度分析用户,了解用户是谁、有什么特征、兴趣偏好。 企业利用这些信息的研究来制定营销策略和服务。 策略,提高用户满意度的重要基础。

2、精准营销

要实现精准营销,数据是最不可或缺的存在。 基于数据,建立用户画像,利用标签,让系统进行智能分组,获取不同类型的目标用户群体,针对每个群体进行针对性营销策划和推送。 精准营销针对性强,是企业与用户之间点对点的互动。 不仅可以让营销更加高效,还可以为企业节省成本。

3、产品创新

在以用户需求为导向的产品开发中,企业通过对获取的大量目标用户数据进行分析、处理、结合,初步构建用户画像,统计用户偏好和功能需求,从而设计和制造出更符合用户需求的产品。用户的核心需求。 新产品为用户提供更好的体验和服务。

4、渠道优化

目前零售企业的销售渠道有很多,比如自营店、经销商和代理商、电商平台、电商APP等,每个渠道的用户群体的消费能力和兴趣偏好可能不同。 通过用户画像可以让正确的产品投放到正确的渠道,从而增加销量。 这是目前零售行业常用的方法。

5. 个性化推荐

众所周知,今日头条是一个个性化的新闻推荐引擎。 今日头条CEO张一鸣表示,算法是今日头条兴趣推荐搜索引擎应用的核心。 这也是与传统媒体最本质的区别。 今日头条之所以能够非常了解用户,并精准推荐用户喜欢的新闻,完全得益于算法。 正是精准推荐,让今日头条在短短两年多的时间里就拥有了2.2亿用户,每天的用户量都超过了2000万。 在今日头条上阅读您感兴趣的文章。

6.实时数据仓库

06用户画像分类

从剖析方法来看,可以分为定性剖析、定性+定量剖析、定量剖析。

从应用角度看,可分为行为肖像、健康肖像、企业信用肖像、个人信用肖像、静态产品肖像、旋转设备肖像、社会肖像和经济肖像等。

07

用户画像需要哪些数据?

一般来说,根据具体的业务内容,会有不同的数据,不同的数据会用于不同的业务目标。 在互联网领域,用户画像数据可以包括以下内容:

(1)人口统计属性:包括性别、年龄等基本信息。

(2)兴趣特征:浏览内容、收藏内容、阅读咨询、购买物品偏好等。

(3)消费特征:与消费相关的特征

(4)位置特征:用户所在城市、居住区域、用户移动轨迹等。

(5)设备属性:使用的终端特性等。

(6)行为数据:访问时间、浏览路径等用户在网站上的行为日志数据。

(7)社交数据:用户社交相关数据

用户画像数据来源广泛。 这些数据是全面了解用户的基础。 这里我们以去哪儿头像为例。 其画像数据主要维度如下,包括用户RFM信息、路线信息等。

去哪儿的画像数据仓库建设是在去哪儿的基础数据仓库的基础上,再按照维度进行划分。

08

用户画像的作用

在互联网和电商领域,用户画像往往被作为精准营销和推荐系统的基础工作。 其功能一般包括:

(1)精准营销:根据历史用户特征,分析产品的潜在用户以及用户的潜在需求,针对特定人群,通过短信、邮件等方式进行营销。

(2)用户统计:根据用户的属性和行为特征对用户进行分类后,统计不同特征的用户数量及分布情况; 分析不同用户画像群体的分布特征。

(3)数据挖掘:基于用户画像构建推荐系统、搜索引擎、广告系统,提高服务精准度。

(4)服务产品:对产品进行用户画像,对产品进行受众分析,更深入地了解用户使用产品的心理动机和行为习惯,改进产品运营,提高服务质量。

(5)行业报告&用户研究:通过用户画像分析,了解行业趋势,如人群消费习惯、消费偏好分析、不同地域品类消费差异分析等。

根据用户画像的作用可以看出,用户画像的使用场景有很多。 用户画像可用于挖掘用户兴趣、偏好和人口统计特征。 主要目的是提高营销准确性和推荐匹配。 最终目标是改进产品。 服务提高企业利润。 用户画像适合每个产品周期:从新用户的引入到潜在用户的挖掘,从老用户的培养到流失用户的回归等。

综上所述,用户画像必须从实际业务场景出发,解决实际业务问题。 用户画像之所以是为了获取新用户、改善用户体验、或者挽回流失用户,都有明确的业务目标。

另外,关于用户画像数据维度的问题,并不是说数据维度越丰富越好。 总之,人像尺寸的设计也需要紧密结合业务实际情况来进行。

09

用户画像架构

根据应用系统分层设计的原则,基于标签系统的用户画像架构可分为:数据源层、数据采集层、数据建模层、数据应用层、行业应用层等。

数据源层:用户标签系统的建设需要从不同来源收集数据,例如企业的核心系统(不同行业有不同的核心系统,对于制造业来说,核心系统包括ERP、MES、PLM等) .)、营销系统(CRM)、互联网数据(从电商平台、微信、微博、论坛等社交平台获取的数据)、从第三方专业机构获取的数据(从各数据交易中心购买的数据)的地方)。

数据采集​​层:与传统数据项目的数据采集不同,基于标签体系的用户画像数据来源广泛、数据量巨大、数据类型丰富(包括结构化数据、半结构化数据和非结构化数据)数据)。 有互联网上的用户行为数据、应用系统日志数据、网络爬虫数据、API接口的第三方数据包。 用户肖像数据收集需要通过网络爬网或网站公共API从网站获取数据信息,并可以从网页中提取非结构化数据并将其存储为统一的本地数据文件,并支持存储的结构化数据。 它还支持图片,音频,视频和其他文件或附件的收集,并且附件可以自动与文本关联。

数据建模:基于标签系统的用户肖像建模主要旨在建模用户肖像和产品建模。 产品肖像建模包括数据清洁,文本建模,类别标识,品牌识别,属性标识,产品肖像等; 用户肖像建模包括数据清洁,用户全渠道ID标识,信息集成,分析建模和用户肖像。 。 通过构建统一的产品类别和属性系统以及统一的用户肖像标签系统,可以提供用于应用用户标签的支持。

数据应用程序:基于标签系统的应用程序,包括分析应用程序(例如用户分析,产品分析),服务应用程序(例如服务和产品创新),营销应用程序( ),数据接口API等。行业应用程序:基于标签系统在各个行业的标签系统的应用和探索将为行业的发展和创新带来更多可能性。

行业应用:基于标签系统在各个行业中的标签系统的应用和探索将为行业的发展和创新带来更多可能性。 。

10

构建用户肖像的步骤

1. 数据收集

用户肖像是根据用户的人口统计信息,社会关系,偏好,习惯和消费行为提取的肖像标记的。 用户肖像数据来自各种来源,以不同的方式收集:离线收集,在线收集,第三方接口等。

2.数据清洁

为了获得准确的用户肖像,我们需要处理这些嘈杂的数据和肮脏的数据。 此过程称为数据清洁。

3.数据标准化

数据标准化有许多方法。 常用的内容包括“最小最大标准化”,“ z得分标准化”和“十进制缩放标准化”。 在上述标准化过程之后,将原始数据转换为无量纲索引评估值,即,每个索引值都处于相同的定量级别,并且可以进行全面的评估和分析。

4.数据建模

数据建模是为基于用户行为的输出标签和权重构建模型。 事件模型包括三个要素:时间,地点和人。 每个用户行为本质上都是一个随机事件,可以详细描述为:什么用户在什么时候和何处做什么。

用户动态建模公式:用户识别 +时间 +行为类型 +联系点 +联系点(网站 +内容),该公式指示用户何时,何处和用户的工作,因此将附加某个标签。用户标签的重量可能会随着时间而衰减,因此,时间定义为衰减因子r,行为类型,标签对用户的重要性也确定用户标签的重量,该权重进一步转换为公式:用户标签权重=行为类型范围×时间衰减×用户操作数量×TF-IDF计算的标签重量

行为类型的重量:不同的行为,例如用户浏览,搜索,收集,放置订单和购买对用户的重要性不同(部分订单关系)。 重量价值通常由运营商或企业决定;

时间衰减:某些用户行为会因时间的影响而不断削弱。 从现在起,行为就越远,目前,行为对用户的意义越小。 采用了牛顿的冷却法;

动作数:用户标签的重量每天计算。 用户在某个一天的标签表现越多,标签对用户的影响就越大。

公式:T =初始温度×EXP( - 冷却系数×间隔时间)。 在实际应用中,初始温度为1,间隔时间是今天与行为发生的一天之间的天数或小时数。 可以根据业务进行调整。 ,冷却系数由业务或数据分析确定。

TF-IDF计算标签重量:TF是用户出现某个标签的频率,而IDF是所有标签中某个标签的稀缺性。

5.标签采矿

标签挖掘是在用户标签系统中挖掘用户数据以形成用户标签。 此过程也称为标签生产。 标签生产的主要方法有两种:基于规则定义的标签生产方法,即,标签是基于固定规则和数据查询结果生产的。 重点是如何制定规则。 ②基于主题模型的标签生产方法。 主题模型首先在内容字段中用于查找用户首选项。 在用户标签中,我们可以参考分类算法进行分类和聚类用户,并使用关键字算法来挖掘用户的偏好。 偏好,从而产生标签。

6.数据可视化

数据可视化是基于标签系统的用户肖像的重要应用。 它可以详细且准确地收集和分析用户的各种标签数据,并使用诸如图片和表格之类的视觉方式来帮助企业完全了解用户的基本信息和用户关系。 用户的经济状况,用户偏好,健康状况,饮食状况和其他信息。 同时,数据标签系统的用户肖像可视化技术可用于视觉显示用户关系数据,用户内容数据,用户行为和其他数据,这可以帮助企业经理和业务人员完全了解用户,了解谁用户是以及他们具有特征,兴趣和偏好等的特征,从而为智能建议,精密营销,产品和服务创新,渠道优化和其他业务提供了支持。

结尾

根据统计数据,99%的数据专家遵循此官方帐户

​​​