2020美赛C题解题思路（A Wealth of Data）[通俗易懂]

大家好，又见面了，我是你们的朋友全栈君。

正文

本文可能用到的网站链接： https://ourworldindata.org/plastic-pollution

Problem C: A Wealth of Data

亚马逊在网购平台提供了两种功能：评级/星级(rate)、评估/评论(review)。个人评级称为“产品星级评估（star rating）”，也就是客户买完产品后的评价，由1星到5星；另外，购买产品的客户还能评论，表达自己的意见和信息。而其他客户还可以对这些评论进行评级，称为“帮助性评级/评论星级评级（helpfulness rating）”。公司用这些数据去了解市场、了解市场参与时机、对产品的设计改造等。

阳光公司打算在网上市场推出“吹风机”、“婴儿奶嘴”、“微波炉”三款产品。他们希望得到以往客户对同类竞争产品的评价，例如：关键模式（数据库领域术语，可以理解为这些产品逻辑层面上的结构）、关系、度量/评估/判定（可以理解为“评价”一类的意思）、各类参数（原文：key patterns, relationships, measures, and parameters）。PS：翻译或有不妥，请指正。以便为他们做两件事：（1）确定在线销售策略，（2）分析产品的关键设计特征，以提高产品的竞争力。

该公司曾用过数据来指导销售，但未用过如此特殊的数据组合，所以他们对其中的“基于时间的模式（time-based patterns）”很感兴趣，也希望知道这种方法能否帮助他们成功塑造产品的可交互性。

亚马逊已在附件中为您提供了相应三款产品（奶嘴、吹风机、微波炉）的往期数据，其中包括客户信息、评级信息、评论等有用的信息。

问题1：用数学的方法，对上述三款产品数据集进行分析。主要是根据“产品星级评估”、“评论”、“评论星级评级”，对“定量/定性模式（quantitative and/or qualitative patterns）”、“关系”、“度量/评价”、“各类参数”进行分析，来帮助公司。

三款产品往期数据标签：

marketplace	customer_id	review_id	product_id	product_parent	product_title	product_category	star_rating	helpful_votes	total_votes	vine	verified_purchase	review_headline	review_body	review_date
市场所在地	客户ID	评论ID	产品ID	产品父项	产品名称	产品类别	星级	有帮助的选票	总票数	绿标	是否已核实购买	评论标题	评论内容	评论日期

“绿标”：早期评论人计划，和官方测评差不多；
“市场所在地”：与客户的喜好和受益人群有关，但是本题的marketplace都是US美国，所以可以作为冗余数据剔除；
“客户ID”：可分析客户的回头率、评价程度、喜好程度、购买时间、对商品的喜好是否有关联程度（有个啤酒与尿布的案例：中年男子的购物列表里经常同时出现尿布和啤酒，后研究发现是很多奶爸会在给宝宝买完尿布后给自己买啤酒喝，因此该商场将啤酒和尿布放在一起，使得两者销量大增）？喜欢购买的产品类型是否有特征；PS：客户ID是一个较为重要的数据标签。
“评论ID”：可分析客户的反馈，调整销售策略或改进产品。此处应该指的是参与投票时的“评论的特征序号”，用于区分不同的评论，可以与后面的“评论标题、评论内容”关联起来，“捆绑”三个数据标签；
“产品ID”：就是产品的名字，很重要。PS：前面提到的三个ID都是关键值（key）；
“产品父项”、“产品名称”、“产品类别”：这三者和产品ID关联。产品父项指产品所属大类的序号，产品类别就是“宝宝用品”、“生活用品”、“家电”等，可作为冗余数据删除。PS：其中，“产品名称”、“产品父项”、“产品ID”可能会有冗余项，需对数据进行筛选后判断；
“星级”、“有帮助的票数“、”总票数“：”星级“是对产品的评级，后两者“票数”是对评论进行评价。可将这三者与后面的“评论标题、评论内容”进行关联，用“星级”评价商品，用“票数”评价“星级”，实现一个“三级评价指标”，增强此部分数据的可信度；
“是否已核实购买”：就是这个交易订单有没有成功，别没付钱，然后乱评价影响市场；
“评论日期”：就是对产品的评论日期，和阳光公司感兴趣的“基于时间的模式”有关。

解题思路1

问题1提到，用[“产品星级评估”、“评论”、“评论星级评级”]对[“定量/定性模式（quantitative and/or qualitative patterns）”、“关系”、“度量/评价”、“各类参数”]进行分析。观察我刚刚的表述方式就可以大致设想一下，建立一个具有“输入”和“输出”的评价标准体系。此处可建立多种形式的模型，此处仅供举例说明用，方法不唯一。例如：f(产品星级评估，评论，评论星级评级)=（度量/评价，产品各类参数/喜好度/好评率/实用性/等等），而这个f(x)函数模型就是“模式”或“关系”的具体数学描述。
其中，对于“定量/定性模式”和“关系”的挖掘是较为关键的。数据库模式是数据的一种逻辑形式，比如常说的“线性表”、“链表”、“树形图”都可以被称为一种数据库模式。针对于此题的话，可以就这么简单理解，不用深入。
所以，在这题中，或许可能是个树形图。比如，根结点是客户，然后一级子节点是客户买过的东西，二级子节点是产品星级评级，三级是评论的星级评级，以此类推。抽象地来说就好像是在数据筛选处理之后，把.tsv文件里的表格数据顺时针旋转90°一样，得到的从根（客户ID）到叶子节点（星级、评论等）的模式。
关于数据处理的方式，可以参考如下：首先，根据前文的数据性质，对数据进行完整性、冗余度等进行筛选（包括删除、插值等）；然后将同类数据合并，并对数据进行标准化便于处理（比如好就是1，差评就是0），将文字尽量转化为数学符号表示；最后构造上述的f函数模型，以达到建立输入输出关系并反映评价标准的目的。方法可参考如下，暂不详述：灰度预测、神经网络预测、时间序列、模糊综合判断、主成分分析、层次分析等。（关于这些方法的功能有些遗忘，如果里面有不恰当的方法请替我指出）

问题2：分析、解决以下问题

a)基于对阳光公司影响最大的评级(rating)和评论(review)这两个指标，确定一个数据衡量(measures)方法；
b)基于那些“能预测或暗示产品在市场上声誉增加或减少的”数据，来分析讨论“基于时间的度量方法(measures)和模式(patterns)”；
c)以寻找一个“暗示或预示产品的成功或失败的”潜在性的方法为目的，确定一套“基于文本(text-based)和评级(rating-based)的综合度量方法”；
d)特定的星级是否会引起更多的评论？例如，客户看到一连串的差评，他是否会更倾向于写一个差评呢？
e)特定质量的文本评论(text-based reviews)是否和评级(rating)有强关联性呢？例如，“对产品很满意！”，“对产品很失望！”

解题思路2

a) 要求中已指明，是基于“评级rating”和“评论review”来建模，其中评级可以包括产品星级评级和评论星级评级。

由于影响一个产品最重要的就是评级和评论，所以a题就让我们先考虑这两个因素；
星级越高，说明产品越好；评论越好，说明产品越好，评论星级越高，说明评论越可信。其中需要注意的是，评论和星级的评价对象是产品，所以这两者之间理应是一致的，但是现在不时的会出现“五星差评”和“一星黑粉”等等，也就是说出现了评级和星级不一致的情况。那么，在这种情况下，有以下几个办法供参考：例如：首先对评级和星级进行关联度处理，筛选出星级和评论一致的数据，此时星级和评论的作用一致，两列数据一列冗余，可以删除一列；如果觉得剔除数据不擅长，可简化成下述方法，例如：将星级和评论分别标准化为权重，以权重来衡量这个产品的质量，比如我们通常会倾向于看评论而不是星级（五星差评），所以可以将评论的权重设置为70%，星级权重设置为30%，然后对上述两种数据归一化处理。 PS：这一问需要一定的“自然语言处理(NLP)”的能力，对评论的感情进行分析。因为人的语言蕴含的感情不是几个词就能表示的——“好产品！！！”、“这东西好到让我吐！”、“哭了，没见过这样的宝贝！”

b) 要求已指明，是“基于时间的衡量方法和模式”。此处的模式可以想象成“以时间作为存储数据”的逻辑，类似于线性表，只不过坐标轴是时间。

这一问中，想找到某种数据间的关联，这关联能表明产品的声誉是在随时间增加还是减少。因此这里就需要先对“时间”和“评级”建模，对“评级”的建模方法可参照a题，把星级和评论合二为一再处理；
而对时间也得进行处理，因为在一段时间内，可能存在褒贬不一的情况，那么这个时候就需要在这段时间内对评级进行处理。例如，把好评差评按照权重进行综合；或者，对评价进行语言处理，分析一下到底是“真好评、真黑粉”还是“真差评、刷好评”。
而在对评级、时间处理之后，就可以建立“时间-评级”模型，可以把产品的评价转化成数值，数值越高评级越好。这样的话，也许就能做出一条随时间变化的评级曲线：比如，好评（假设已经对一段时间内的好评差评进行综合处理之后）越来越多，那么曲线应该就是越来越高的；反之，口碑崩了的话，评级就会一落千丈。
最后，需要在上述“时间-评级”模型的拐点进行处理，在拐点处对评级进行分析，是什么原因导致评级发生了变化。是有人发了好评，引起了更多人的共鸣？是有黑子带节奏，让不知情的人也来诋毁你的产品？还是什么其他原因？
最后，才能得出基于时间的度量方法和模式，才能分析基于时间模式的产品声誉变化。

c) 就是找一个方法来推测产品是否能推广成功，前提是“基于文本和评级“。

这个方法和b又差不多，就是在不同的逻辑模式下分析，寻找能影响产品评级拐点的关键因素。这里还是可以将文本评论和评级综合起来，然后寻找一个“能预测未来产品口碑的事件点或原因”。PS：类似于股市中的“利好消息”、“利空消息（即变差的意思）”，一旦某天出现了利好/利空消息，之后的时间就会跟随这个消息发生涨跌变化。

d) 探寻客户的情绪是否会随着他人的评论而被调动。就是让你分析一下，是不是人们都有从众心理，是不是容易被带节奏（包括带好节奏和带坏节奏）。

在这个问题中，只需要在前几问的时间模式基础下，分析一段时间内是否会有较为集中的好评或差评即可。
当然也可以说客户不容易被带动情绪，只有数据充分、言之有理即可。

e) 是否文本评论内容(text-based reviews)和评级(rating levels)有强关联？

这个是前面我在a中提到的一点，如何对评论内容和评级进行关联。e题这一问确实需要对文本进行语义分析，确实涉及到“自然语言处理NLP”的知识。
一般来说的话，文本评论越热情，评级当然会越高——“爱死这个宝贝啦！五星！！！”、“垃圾产品一生黑，给一颗星都嫌多，怎么不能给负的星？”

问题3

写一篇小报告！

发布者：全栈程序员栈长，转载请注明出处：https://javaforall.cn/130614.html原文链接：https://javaforall.cn

https 网络安全 linux NLP服务

0 人点赞