2020美赛C题解题思路(A Wealth of Data)[通俗易懂]

2022-08-11 13:58:43 浏览数 (1)

大家好,又见面了,我是你们的朋友全栈君。

  • 正文

本文可能用到的网站链接: https://ourworldindata.org/plastic-pollution

Problem C: A Wealth of Data

亚马逊在网购平台提供了两种功能:评级/星级(rate)、评估/评论(review)。个人评级称为“产品星级评估(star rating)”,也就是客户买完产品后的评价,由1星到5星;另外,购买产品的客户还能评论,表达自己的意见和信息。而其他客户还可以对这些评论进行评级,称为“帮助性评级/评论星级评级(helpfulness rating)”。公司用这些数据去了解市场、了解市场参与时机、对产品的设计改造等。

阳光公司打算在网上市场推出“吹风机”、“婴儿奶嘴”、“微波炉”三款产品。他们希望得到以往客户对同类竞争产品的评价,例如:关键模式(数据库领域术语,可以理解为这些产品逻辑层面上的结构)、关系、度量/评估/判定(可以理解为“评价”一类的意思)、各类参数(原文:key patterns, relationships, measures, and parameters)。PS:翻译或有不妥,请指正。以便为他们做两件事:(1)确定在线销售策略,(2)分析产品的关键设计特征,以提高产品的竞争力。

该公司曾用过数据来指导销售,但未用过如此特殊的数据组合,所以他们对其中的“基于时间的模式(time-based patterns)”很感兴趣,也希望知道这种方法能否帮助他们成功塑造产品的可交互性。

亚马逊已在附件中为您提供了相应三款产品(奶嘴、吹风机、微波炉)的往期数据,其中包括客户信息、评级信息、评论等有用的信息。

问题1:用数学的方法,对上述三款产品数据集进行分析。主要是根据“产品星级评估”、“评论”、“评论星级评级”,对“定量/定性模式(quantitative and/or qualitative patterns)”、“关系”、“度量/评价”、“各类参数”进行分析,来帮助公司。

三款产品往期数据标签:

marketplace

customer_id

review_id

product_id

product_parent

product_title

product_category

star_rating

helpful_votes

total_votes

vine

verified_purchase

review_headline

review_body

review_date

市场所在地

客户ID

评论ID

产品ID

产品父项

产品名称

产品类别

星级

有帮助的选票

总票数

绿标

是否已核实购买

评论标题

评论内容

评论日期

  • “绿标”:早期评论人计划,和官方测评差不多;
  • “市场所在地”:与客户的喜好和受益人群有关,但是本题的marketplace都是US美国,所以可以作为冗余数据剔除;
  • “客户ID”:可分析客户的回头率、评价程度、喜好程度、购买时间、对商品的喜好是否有关联程度(有个啤酒与尿布的案例:中年男子的购物列表里经常同时出现尿布和啤酒,后研究发现是很多奶爸会在给宝宝买完尿布后给自己买啤酒喝,因此该商场将啤酒和尿布放在一起,使得两者销量大增)?喜欢购买的产品类型是否有特征;PS:客户ID是一个较为重要的数据标签。
  • “评论ID”:可分析客户的反馈,调整销售策略或改进产品。此处应该指的是参与投票时的“评论的特征序号”,用于区分不同的评论,可以与后面的“评论标题、评论内容”关联起来,“捆绑”三个数据标签;
  • “产品ID”:就是产品的名字,很重要。PS:前面提到的三个ID都是关键值(key);
  • “产品父项”、“产品名称”、“产品类别”:这三者和产品ID关联。产品父项指产品所属大类的序号,产品类别就是“宝宝用品”、“生活用品”、“家电”等,可作为冗余数据删除。PS:其中,“产品名称”、“产品父项”、“产品ID”可能会有冗余项,需对数据进行筛选后判断;
  • “星级”、“有帮助的票数“、”总票数“:”星级“是对产品的评级,后两者“票数”是对评论进行评价。可将这三者与后面的“评论标题、评论内容”进行关联,用“星级”评价商品,用“票数”评价“星级”,实现一个“三级评价指标”,增强此部分数据的可信度;
  • “是否已核实购买”:就是这个交易订单有没有成功,别没付钱,然后乱评价影响市场;
  • “评论日期”:就是对产品的评论日期,和阳光公司感兴趣的“基于时间的模式”有关。

解题思路1

  • 问题1提到,用[“产品星级评估”、“评论”、“评论星级评级”]对[“定量/定性模式(quantitative and/or qualitative patterns)”、“关系”、“度量/评价”、“各类参数”]进行分析。观察我刚刚的表述方式就可以大致设想一下,建立一个具有“输入”和“输出”的评价标准体系。 此处可建立多种形式的模型,此处仅供举例说明用,方法不唯一。 例如:f(产品星级评估,评论,评论星级评级)=(度量/评价,产品各类参数/喜好度/好评率/实用性/等等),而这个f(x)函数模型就是“模式”或“关系”的具体数学描述。
  • 其中,对于“定量/定性模式”和“关系”的挖掘是较为关键的。数据库模式是数据的一种逻辑形式,比如常说的“线性表”、“链表”、“树形图”都可以被称为一种数据库模式。针对于此题的话,可以就这么简单理解,不用深入。
  • 所以,在这题中,或许可能是个树形图。比如,根结点是客户,然后一级子节点是客户买过的东西,二级子节点是产品星级评级,三级是评论的星级评级,以此类推。抽象地来说就好像是在数据筛选处理之后,把.tsv文件里的表格数据顺时针旋转90°一样,得到的从根(客户ID)到叶子节点(星级、评论等)的模式。
  • 关于数据处理的方式,可以参考如下: 首先,根据前文的数据性质,对数据进行完整性、冗余度等进行筛选(包括删除、插值等); 然后将同类数据合并,并对数据进行标准化便于处理(比如好就是1,差评就是0),将文字尽量转化为数学符号表示; 最后构造上述的f函数模型,以达到建立输入输出关系并反映评价标准的目的。方法可参考如下,暂不详述:灰度预测、神经网络预测、时间序列、模糊综合判断、主成分分析、层次分析等。(关于这些方法的功能有些遗忘,如果里面有不恰当的方法请替我指出)

问题2:分析、解决以下问题

  • a)基于对阳光公司影响最大的评级(rating)和评论(review)这两个指标,确定一个数据衡量(measures)方法;
  • b)基于那些“能预测或暗示产品在市场上声誉增加或减少的”数据,来分析讨论“基于时间的度量方法(measures)和模式(patterns)”;
  • c)以寻找一个“暗示或预示产品的成功或失败的”潜在性的方法为目的,确定一套“基于文本(text-based)和评级(rating-based)的综合度量方法”;
  • d)特定的星级是否会引起更多的评论?例如,客户看到一连串的差评,他是否会更倾向于写一个差评呢?
  • e)特定质量的文本评论(text-based reviews)是否和评级(rating)有强关联性呢?例如,“对产品很满意!”,“对产品很失望!”

解题思路2

a) 要求中已指明,是基于“评级rating”和“评论review”来建模,其中评级可以包括产品星级评级和评论星级评级。

  • 由于影响一个产品最重要的就是评级和评论,所以a题就让我们先考虑这两个因素;
  • 星级越高,说明产品越好;评论越好,说明产品越好,评论星级越高,说明评论越可信。其中需要注意的是,评论和星级的评价对象是产品,所以这两者之间理应是一致的,但是现在不时的会出现“五星差评”和“一星黑粉”等等,也就是说出现了评级和星级不一致的情况。那么,在这种情况下,有以下几个办法供参考: 例如:首先对评级和星级进行关联度处理,筛选出星级和评论一致的数据,此时星级和评论的作用一致,两列数据一列冗余,可以删除一列; 如果觉得剔除数据不擅长,可简化成下述方法,例如:将星级和评论分别标准化为权重,以权重来衡量这个产品的质量,比如我们通常会倾向于看评论而不是星级(五星差评),所以可以将评论的权重设置为70%,星级权重设置为30%,然后对上述两种数据归一化处理。 PS:这一问需要一定的“自然语言处理(NLP)”的能力,对评论的感情进行分析。因为人的语言蕴含的感情不是几个词就能表示的——“好产品!!!”、“这东西好到让我吐!”、“哭了,没见过这样的宝贝!”

b) 要求已指明,是“基于时间的衡量方法和模式”。此处的模式可以想象成“以时间作为存储数据”的逻辑,类似于线性表,只不过坐标轴是时间。

  • 这一问中,想找到某种数据间的关联,这关联能表明产品的声誉是在随时间增加还是减少。因此这里就需要先对“时间”和“评级”建模,对“评级”的建模方法可参照a题,把星级和评论合二为一再处理;
  • 而对时间也得进行处理,因为在一段时间内,可能存在褒贬不一的情况,那么这个时候就需要在这段时间内对评级进行处理。 例如,把好评差评按照权重进行综合; 或者,对评价进行语言处理,分析一下到底是“真好评、真黑粉”还是“真差评、刷好评”。
  • 而在对评级、时间处理之后,就可以建立“时间-评级”模型,可以把产品的评价转化成数值,数值越高评级越好。这样的话,也许就能做出一条随时间变化的评级曲线:比如,好评(假设已经对一段时间内的好评差评进行综合处理之后)越来越多,那么曲线应该就是越来越高的;反之,口碑崩了的话,评级就会一落千丈。
  • 最后,需要在上述“时间-评级”模型的拐点进行处理,在拐点处对评级进行分析,是什么原因导致评级发生了变化。 是有人发了好评,引起了更多人的共鸣? 是有黑子带节奏,让不知情的人也来诋毁你的产品? 还是什么其他原因?
  • 最后,才能得出基于时间的度量方法和模式,才能分析基于时间模式的产品声誉变化。

c) 就是找一个方法来推测产品是否能推广成功,前提是“基于文本和评级“。

  • 这个方法和b又差不多,就是在不同的逻辑模式下分析,寻找能影响产品评级拐点的关键因素。这里还是可以将文本评论和评级综合起来,然后寻找一个“能预测未来产品口碑的事件点或原因”。PS:类似于股市中的“利好消息”、“利空消息(即变差的意思)”,一旦某天出现了利好/利空消息,之后的时间就会跟随这个消息发生涨跌变化。

d) 探寻客户的情绪是否会随着他人的评论而被调动。就是让你分析一下,是不是人们都有从众心理,是不是容易被带节奏(包括带好节奏和带坏节奏)。

  • 在这个问题中,只需要在前几问的时间模式基础下,分析一段时间内是否会有较为集中的好评或差评即可。
  • 当然也可以说客户不容易被带动情绪,只有数据充分、言之有理即可。

e) 是否文本评论内容(text-based reviews)和评级(rating levels)有强关联?

  • 这个是前面我在a中提到的一点,如何对评论内容和评级进行关联。e题这一问确实需要对文本进行语义分析,确实涉及到“自然语言处理NLP”的知识。
  • 一般来说的话,文本评论越热情,评级当然会越高——“爱死这个宝贝啦!五星!!!”、“垃圾产品一生黑,给一颗星都嫌多,怎么不能给负的星?”

问题3

写一篇小报告!

发布者:全栈程序员栈长,转载请注明出处:https://javaforall.cn/130614.html原文链接:https://javaforall.cn

0 人点赞