首页 > 资讯 > 商业 > 正文
2024-02-23 02:14

如何理解大数据的偏差?众包旅游大数据偏差解读 | 城市数据学院

选择任意2套一起申请,再立减200元超大优惠!

选择任意3套一起申请,再立减360元超大优惠!

选择任意4套一起申请,立减520元巨额优惠!

任意选择5套一起申请,再立减650元超大优惠!

(同时申请多套折扣截止至1月30日。

以上优惠不包含13营)

加我获取每门课程详细介绍

加我咨询和课程报名

近年来,“大数据”在医疗、金融、教育等领域得到广泛应用,逐渐成为极为热门的研究课题。 然而,大数据的引入也带来了诸多争议,其中最具代表性的就是“大数据偏差/偏差”问题,也就是人们经常提到的“选择性偏差(Bias)”等术语。 在学术研究中,选择偏差被概括为由于样本选择的非随机性而导致结论出现偏差的现象。 可以简单理解为样本缺乏代表性而引发的一系列问题。 团队近期的一项工作以旅游领域为例,重点研究众包大数据的选择性偏差,旨在帮助研究人员对众包旅游大数据的偏差有更生动、更透彻的认识。 为此,本文根据人文社会科学领域流行的研究思路提出了一个解释框架( ),并收集了六个网站的案例数据来展示选择偏差是如何出现并影响旅游研究的。 值得一提的是,论文最后还对未来众包大数据研究提出了一些建议,呼吁研究者对众包大数据的选择性偏见保持中立态度:“批评”与“宽恕”并存,促进研究数据的背景透明度。 由于篇幅限制,此推文对论文全文进行了简短的中文介绍。

1 简介()

本节主要介绍研究背景。 大数据现已植根于人类生活的方方面面,开启了数据科学的新时代。 在旅游领域,大数据应用技术的发展也极为迅速,带动了新的研究热潮。 在Web 2.0时代,众包被认为是收集旅游大数据的流行方法。 众包数据通常被定义为个人通过ICT集成设备和Web 2.0技术自愿提供和贡献的数据类型。 在旅游研究的背景下,可访问的众包数据通常比传统的调查数据更容易收集,特别是在大规模区域研究中。 尽管如此,众包数据并不能“免疫”大数据的常见陷阱。 最有争议的是众包贡献者的代表性。 由于并非所有众包平台都拥有庞大的用户群,众包数据集中的“贡献者(即平台用户)”通常只代表现实世界中实际访问者的一小部分。 换句话说,众包旅游大数据很可能会出现选择偏差。 这种现象很可能归因于齐普夫最省力定律的影响。 也就是说,大多数人不生成内容,他们只是观看其他人生成的内容。 目前,众包数据仍然被认为不足以替代可靠的调查数据,特别是在需要高样本覆盖率的研究中。

然而,众包大数据的选择偏差作为旅游领域的一个重要研究课题,却并未受到太多关注。 在相关文献中,这一内容往往仅作为论文末尾的研究局限性而提及,目前仍缺乏对这一问题提供直接见解的文献。 鉴于此,本文提出了一个分析众包大数据应用于旅游研究的选择偏差的解释框架,并在此基础上构建了几个说明性案例来支持对该框架的理解。 研究内容重点关注众包大数据中选择偏差如何产生及其对旅游领域分析的重大影响,并据此为旅游研究者和利益相关者提供建议。

2 背景()

本节主要对“大数据相关的公共问题(2.1)”、“大数据中的选择性偏差(2.2)”、“旅游研究中的众包大数据(2.3)”三个方面进行文献综述。

在大数据相关的公共问题中,伦理问题受到最广泛的关注。 大数据技术的普及也有加剧现有不平等的风险。 一个众所周知的相关问题是“数字鸿沟”。 大数据技术的发展也带来了监管和法律挑战。 当谈到大数据的选择偏差时,评估和纠正是两种常见的方法论研究。 研究人员在探索和评估大数据集中的选择偏差特征方面做出了很多努力,也尝试使用加权或重采样方法来纠正大数据的选择偏差,但大多依赖于小数据源(例如官方数据)的使用。统计、问卷、访谈)作为对照。 在应用研究方面,许多领域(例如医学和犯罪学)的研究人员都指出了该领域大数据的选择性偏差。 然而,尽管被广泛“发现”,但与特定领域相关的大数据选择偏差却很少被作为重点研究课题进行探讨,这在旅游领域也很突出。

在旅游研究众包大数据方面,评论和博客(传统博客+微博)是最常见的两种类型,其文本信息和非文本信息(如地理位置、图像)都引起了广泛关注。 此外,随着信息通信技术(ICT)的快速发展,旅游研究中出现了各种“新颖”类型的众包大数据,例如共享照片和众包GPS轨迹。 然而,随着众包大数据在旅游领域的广泛应用,虽然越来越多的研究者指出其选择性偏差缺陷,但大多只是在学术论文的最后作为局限性进行讨论。

3 方法论 ()

本节主要介绍解释框架和研究数据。 在人文社会科学研究中,解释框架被定义为通过观察理解特定主题的方法。 受医学领域术语的启发,本文提供了一个框架,使用“外部表征(疾病)”和“内在触发因素(病因)”来描述众包旅游大数据中的选择偏差(图1)。 一方面,“外部表征”主要概括了选择性偏差对旅游领域分析的显着影响,体现在时间、空间和内容上。 另一方面,“内在激励”主要关注内在样本信息(如性别、年龄、顾客来源等)的偏度。 还有“潜在影响因素”,它们不被归类为“外部表征”和“内在触发因素”,因为它们的信息通常无法从众包数据集中明确提取(即与“数据集”不直接相关)。

图 1. 解释框架:众包旅游大数据中的选择性偏差

为了更好地理解所提出的框架,本文提供了几个说明性案例。 鉴于相关文献中的照片、博客、微博和评论数据是旅游研究中常见的众包大数据类型(见综述部分),本研究的案例数据集也是基于这些数据类型,以使研究更具典型性和代表性。 该研究选择了六个网站作为数据收集来源。 这些网站在全球或中国(全球最大的出境旅游市场)享有盛誉,并被广泛应用于旅游研究。 该研究还收集了官方旅游统计数据和调查作为比较数据,以及官方人口统计数据作为辅助数据。

4 外部表示 ( )

本节介绍与选择偏差的外部表征相关的说明性案例。

时间上,论文收集了携程、去哪儿、穷游三个旅游网站2012年至2019年青岛、苏州、丽江、西安四个城市的旅游博客数据,并对比了逐年数据量与官方旅游统计数据。 发现携程网和去哪儿网的数据波动较大,很可能是受到2015年两家公司合并的影响。随后构建了相关性分析(图2),发现穷游有与官方统计数据的相关系数最高,而携程和去哪儿数据的相关系数值较低。 上述时间视角的案例引发了一些思考。 例如,对于基于众包数据的时间分析,提前评估平台用户群的时间稳定性至关重要。 作为衡量一个平台受欢迎程度的指标,用户数量很大程度上取决于平台的营销和运营管理。 众包平台的管理者需要加强对数据变化的监控,因为这种变化可以为运营质量的改进提供有价值的见解。

图2. 三个网站的官方游客统计数据和旅游博客数据的时间相关性分析

空间方面,论文首先根据伦敦地区的数据构建了一个小规模案例,发现在国家美术馆附近,数据热点主要集中在博物馆前面而不是博物馆内部。 造成这种分布的原因很可能来自于平台。 应用场景特点(即拍照)和国家美术馆的游览限制(即2014年之前禁止拍照)。 之后,论文构建了一个规模稍大的案例。 基于携程、去哪儿、穷游网(2014-2018年)云南省16个地级旅游目的地的旅游博客数据,绘制了空间分布图(图3),发现了3家公司。 旅游网站数据的空间分布较为相似,但官方统计数据的空间分布存在显着差异。 随后的讨论分析指出,官方统计口径和目的地经济水平可能是造成这种差异的主要原因。

图3. 云南省旅游博客和官方游客统计数据的空间分布

大数据在教育领域的应用案例_大数据在教育领域的实际应用_教育大数据应用的理论与实践

内容上,论文收集了携程网、去哪儿网和三个网站对四个典型景点(两个开放景点+两个非开放景点)的评论数据(2011-2018年)。 从评论词云(图4)可以看出,不同数据源的同一景点的词云虽然比较相似,但在一些细节上还是存在一定的差异。 最值得注意的差异来自苏州博物馆和丽江束河古镇,携程和去哪儿的用户在评论中提到“预订”和“门票”的频率明显高于携程和去哪儿的用户。 造成这种差异的原因很可能是携程和去哪儿在其网站和APP上提供预订服务,但在中国不支持此服务。 该案例凸显了平台应用场景对众包数据内容的影响。

图 4. 三个众包平台上四个景点的评论词云

5 内部激励 ( )

本节介绍与选择偏差的内在诱因相关的说明性案例。 良好的抽样是确定研究是否能够提供正确意义和知识的关键。 然而,当前使用众包数据的旅游文献往往缺乏对众包受访者社会背景的描述,影响了此类研究得出的政策和发展建议的合法性。 本节主要使用新浪微博的签到数据,并选择苏州作为案例区域。 为了进行比较,本文获取了官方游客调查数据并处理了微博数据来模拟调查过程。 在此基础上,对官方游客调查和微博数据中的游客受访者背景进行了对比,主要从性别、年龄、游客籍贯三个角度进行分析。

在性别方面,论文计算了微博数据集中男性和女性游客的比例,并与穷游和携程用户以及户籍人口数据进行比较(图5)。 尽管苏州官方并未公开实际旅游群体的性别信息,但根据人口数据和全国范围的旅游调查可以初步推断,社交媒体平台获取的样本在性别代表性方面很可能存在偏差。 一个可能的原因是,女性在社交媒体上比男性更活跃,这在中国乃至全世界都是一个有趣的现象(题外话:有兴趣的读者可以搜索【王思聪彩票】)。 由于社交媒体是众包数据收集的常见来源,因此未来需要更多地关注性别差异造成的偏见。

图5 众包平台访客用户性别分布及与官方人口统计数据对比

在年龄方面,论文利用微博用户的出生日期计算出他们发帖时的年龄,并与官方调查数据进行了比较。 此外,论文还收集了国家统计局提供的全国人口抽样调查数据,为分析提供额外支持,如表1所示。可以看出,微博数据集中游客的平均年龄为明显低于官方调查。 具体来说,微博数据集中25岁及以下游客的比例比官方调查高出23.79%。 据微博官方用户报告显示,90后用户占微博用户总数的53%。 相比之下,1990年以后出生的中国人口仅占总人口的14%左右。年轻人似乎比老年人更容易接受数字技术和社交媒体。

表1 三个数据源样本年龄结构比较

在旅游客源地方面,本文绘制了微博数据集中的旅游客源地地理分布图,然后将结果与官方调查数据进行比较(图6)。 可以看出,官方调查数据中旅游客源地的空间分布呈现出从苏州向外均匀递减的趋势,即存在距离衰减规律。 微博数据集也有类似现象,但地图上出现了几个“异常”区域,比如广东、四川。 这可以通过中国微博用户的地理分布来解释。 例如,广东是微博用户最活跃的地区,这无疑将增加广东访问苏州的用户绝对数量。 之后,论文利用三种常见的距离衰减函数对微博和官方调查的两个数据集进行拟合,并利用人口变量进行归一化,试图提高拟合度。 指出由于选择性偏差的存在,众包数据集很可能影响距离衰减现象的具体呈现。

图6 苏州游客客源地分布

6 讨论()

本节主要基于框架和案例分析结果讨论与众包旅游大数据选择性偏差相关的四个重要研究主题。

(1) 选择偏差和旅游利益相关者

众包数据的出现无疑促进了旅游领域的发展,但旅游利益相关者必须了解众包数据中存在的选择性偏差对其具体事务的影响。 例如,旅行者经常依靠其他人生成的在线内容 (UGC) 来帮助他们做出决定。 然而,由于 Zipf 最小努力原则,UGC 通常无法准确记录大多数用户的体验,这意味着旅行者在查看其他人生成的内容时需要谨慎。 在线内容的评估对于景点和酒店的营销也很重要。 营销工作需要考虑众包平台用户的背景,可能在性别、年龄等方面存在偏差。乐观地讲,可以利用这种偏差来增强精准营销。 对于旅游众包平台来说,了解选择性偏差有助于改进其营销策略。 例如,选择性偏差的“内在触发因素”分析可用于识别平台未能成功吸引的用户群体。 此外,选择性偏差的“外部表征”可用于揭示潜在的操作缺陷。 对于目的地营销组织 (DMO),应彻底检查基于众包数据集的报告,因为它们可能因选择性偏差而存在偏差。 DMO 可能还需要重新评估与众包平台或在线旅行社的合作关系,因为这些平台的广告受众有限。

(2) 利用多个来源的相似数据和选择性偏差

许多研究人员认为,使用多个来源的同一类型数据(例如同时收集携程、去哪儿和穷游的旅游博客作为研究数据集)可以有效减少选择偏差。 但本文认为还应补充几个前提条件:1)提前调研数据源平台的应用场景。 前面的案例表明,即使数据类型相同,平台应用场景的细微差别(例如是否提供预订、票务服务)也可能对分析结果产生关键影响; 2) 如果要将多个来源的数据融合到单个分析数据集中,需要提前仔细检查每个来源的样本详细信息。 旨在改善选择偏差的数据融合的一个重要前提是数据源之间良好的用户群体互补性。 如果不能满足这个条件,“鲁莽”的数据融合很可能会带来更严重的偏差; 3)应多使用同类数据源进行比较。 这种讨论与社会科学中的“三角互动”是一致的。 这一概念主要是指利用不同的信息源来研究同一现象,从而能够从不同的数据源中了解受访群体的特征差异,从而提高结果的可解释性。

(3)选择性偏见:批评与妥协

在大多数文献中,选择偏差往往作为“常见但不可避免”的限制出现在文章的末尾。 旅游研究中正在出现一个备受争议的数据科学问题:选择偏见应该受到批评还是接受? 首先,建立评估选择偏差的标准可能存在争议。 如果标准过于严格,大量发表的文章和众包数据源将被视为无法使用,这将阻碍包括旅游研究在内的多个领域的发展。 其次,出于隐私保护的目的,很多平台并没有公开用户的社会背景,这给选择性偏差的评估带来了不确定性。 例如去哪儿网,在注册时不需要用户填写太多的背景信息。 在 上获取用户的人口统计信息(例如年龄和性别)通常依赖于假设而不是具体事实。 最后,虽然有研究人员尝试纠正大数据中的选择偏差,但也有研究人员认为,选择偏差无法得到充分评估和纠正,因为纠正方法本身总是有偏差的,研究人员只能针对特定的数据集进行处理,目的有限。 更重要的是,在一些研究方向(如旅行者的情绪和景观偏好),不存在普遍接受的“真值”,使得修正几乎不可能完成。

毫无疑问,众包数据提供了无法通过基于调查的方法有效获得的丰富知识。 例如,在线评论数据比问卷和访谈更容易帮助收集大量游客的真实负面情绪。 旅游业利益相关者可以建设性地利用负面评论来改善他们的业务。 此外,虽然众包数据中样本的结构特征(例如用户性别和年龄)可能会被扭曲,但现实世界中一般模式的存在可能不会受到显着影响。 因此,在旅游研究中应该允许批判性审查和对众包数据选择偏差的接受态度并存,稍后将讨论更详细的建议。

(四)研究建议

众包已成为旅游研究中一种新颖的大数据收集方法。 然而,“房间里的大象”——众包数据中固有的选择偏差——不容忽视。 如前所述,围绕是否批评或接受这些偏见出现了一个关键的讨论。 总体而言,两种观点的和谐共存不仅是合理的,而且对该领域的发展至关重要。 对选择偏差的严格审查并非徒劳,研究人员有责任透明地描述他们收集的数据来源,澄清偏差的性质,并充分了解其潜在影响。 正如基于调查的研究需要详细描述样本的人口统计背景一样,众包数据的使用也可能需要彻底考虑任何固有的局限性。 对于学术研究来说,选择偏差不应该是一个被提及的问题,在描述方法和结果以及根据数据分析得出结论时,应该充分认识到选择偏差所带来的任何不确定性。 此外,在隐私问题和平台政策的驱动下,背景信息的缺乏不应被视为不可避免的限制,研究人员可以通过讨论或创新方法在一定程度上解决这个问题。 最重要的是,不应完全忽视选择偏差,因为当获得细致入微的解释时,可以从有偏差的数据集中获得可靠的结果。 当然,在精准营销、客流预测等关键领域,严格检查数据是否存在选择性偏差仍然很重要。 对于专注于了解更广泛趋势和模式的研究,对偏见的一定程度的容忍可能是可以接受的。

在批评和接受之间取得平衡绝非易事。 虽然过于严格的评估标准可能会扼杀实地研究,但自由放任的方法可能会损害该领域的可信度。 非旅游部门的见解可以提供一些参考。 例如,在医疗保健领域,建议研究人员建立“数据同理心”,即在一定程度上容忍数据偏差,但要深入了解数据来自哪里、如何收集或由谁收集它。 同样,在犯罪学领域,人们承认完全消除大数据中的偏见几乎是不可能的,但鼓励研究人员不断理解和解决数据偏见。 与教育领域类似,研究重点已从完全消除偏见转向承认偏见并积极增强数据收集和分析模型以减轻影响。 旅游领域在理解人类行为和偏好方面与上述领域有相似之处。 然而,与医学和犯罪学等领域相比,旅游领域的偏差可能有更大的宽容空间,因为这些领域与人类健康和安全等关键问题的联系比旅游领域更直接、明显。 因此,旅游研究者也应该保持中间立场。 在评估选择偏差时保持警惕至关重要,但也要知道完美的数据集往往难以捉摸。 在积极寻求纠正方法的同时,人们还应该意识到它们可能带来的额外限制和偏见。 通过透明的报告、中立的批评或谨慎的纠正,研究人员可以最大限度地发挥众包大数据的力量,同时保持其研究结果的完整性和该领域的可信度。

7 结论()

本文提出了一个解释性框架,为如何在旅游研究背景下描述和理解众包大数据中的选择偏差提供了及时的数据科学见解。 根据该框架,旅游业利益相关者和研究人员应仔细重新评估众包大数据的价值和可用性。 从支撑该框架的案例中还衍生出了一些重要的规则,如表2所示。此外,您还可以从案例中获得众包服务和营销的改进建议。 例如,利用众包数据进行营销时,应充分考虑平台用户的背景。 由于存在选择偏差,DMO 应仔细审查基于众包数据集的任何报告,并重新评估其与众包平台的潜在合作伙伴关系。

表 2. 从说明性案例中获得的重要模式

对于学者来说,相关人员在执行和解释大数据分析时需要更加小心。 借鉴医疗保健和犯罪学等不同领域的见解,鼓励旅游研究人员在处理大数据偏见时采取中间立场。 虽然众包大数据中的选择偏差在一定程度上是可以容忍的,因为它们确实很难完全消除,但仍然不建议对数据源、样本背景和潜在影响进行详细检查。 旅游研究人员被敦促使他们的大数据分析更具可操作性、说服力和可解释性。 为了增强本研究的普遍性,可能需要进一步的工作,例如根据不同的数据类型(例如评论、旅行博客和地理标记照片)对框架进行细分,这将有助于区分特定类型的众包数据选择偏差的相似性和差异。 此外,该论文没有解决对众包平台的常见批评,例如出于商业目的雇用的作家或机器人发布的虚假内容。 未来将这些缺陷纳入其中将进一步提升本研究的学术价值。

相关文献

郑、张毅、牟、Teemu、李咪咪和刘宇。 (2024)。 大数据:An., 102, .