迪士尼电影公司是知名好莱坞电影巨头公司。它先后收购了独立电影界巨头米拉麦克斯、3D动画霸主皮克斯 、动漫巨头漫威和卢卡斯影业,是目前世界上最成功的电影公司之一。本案例使用迪士尼历年的电影票房销量来探究使迪士尼电影成功的因素。
1. 读数据表
首先,使用读数据表组件读取原始数据,并查看各字段基本情况。
数据集中包括六列数据,分别是电影名、上映时间、电影种类、电影评级、总票房和根据通货膨胀率调整后总票房,这些数据能全面的反映每一部电影的基本信息。
2. 字段基本统计信息
查看数据集中各个字段的样本数、均值、标准差、最小值、四分位数等基本统计信息。
可以看到movie_title、release_date、genre、mpaa_rating四列数据均为字符型数据,genre、mpaa_rating两列数据中有缺失值,需要在可视化分析之前对这两列数据进行缺失值填充。total_gross和inflation_adjusted_gross为数值型数据,从统计信息中得到这两列数据的标准值与均值比值过大,需要查看和剔除其中的离群值。
3. 电影种类缺失值填补
缺失值(missing value)是指现有数据集中某个或某些属性的值是不完全的。对离散型数据genre中的缺失值使用“未分类”进行填充。
4. 电影评级缺失值填补
在观察数据集时发现mpaa_rating列中有一些数据为'Not Rated',即无评级数据,对该列数据的缺失值使用'Not Rated'进行填充。
5. 电影名称词云图
下面进行可视化分析。首先根据movie_title列信息绘制电影名称词云图。
除去电影名中常有的'The',可以看到'Chirstmas','Journey', 'Love','Toy'和 'Story'这种故事性的、带有爱和感情的词汇在迪士尼电影名中频繁出现,说明迪士尼电影善于精美的故事和人性、感情等吸引观众的眼球。
6. 电影种类饼状图
下面使用genre列数据绘制饼状图,查看迪士尼各种类电影占比情况。
从饼状图中可以看到,喜剧类、冒险类和戏剧类三类电影占迪士尼所有电影近四分之三,这三类电影的受众人群几乎涵盖了所有电影观众,再加上其他类型电影如恐怖电影、音乐电影等使所有看过电影的人几乎都为迪士尼电影买过单。迪士尼电影中喜剧类电影最多,也符合人们看电影愉悦身心的需求。
7. 电影评级柱状图
使用mpaa_rating列数据绘制柱状图,分析迪士尼电影的画面内容。
电影评级中的G,PG,PG-13,R分别代表美国电影分级制度中的大众级、辅导级、特别辅导级和限制级电影。从柱状图中可以看到,PG和PG-13级电影的数量最多,随后是限制级电影,最少的是大众级电影。迪士尼电影大多定位于给十几岁的青少年观看,他们有更多的时间和精力看电影,拍电影的回报自然会高。
8. 票房收入折线图
使用release_date、total_gross和inflation_adjusted_gross列数据绘制票房收入折线图。
可以看到从1950年来,人们在迪士尼电影上的消费越来越多,是否根据通货膨胀率调整都是如此。这里面既有人们消费欲望增加的原因,也有迪士尼公司越来越大,制作电影越来越精良,更吸引人眼球的原因。
9. 电影种类数据分组聚合
下面绘制电影种类与票房折线图,分析电影种类是否是影响票房的因素。首先对数据进行预处理。
将数据按电影种类进行分组,计算每个种类平均每部电影总票房,代表该类电影卖座能力。
10. 电影种类分组票房数据按列值排序
将数据按电影票房均值升值排序,便于可视化分析。
11. 电影种类与票房折线图
使用处理后的数据绘制电影种类与票房折线图。
图中音乐电影的通货膨胀率调整数据与原数据有较大不同,主要原因是音乐电影在20世纪创收占比较大,经过调整后票房相对原数据变动较大。冒险类、动作类和音乐类电影的平均票房最高,它们也是最吸引人眼球的三类电影。这三类电影也是迪士尼拍摄最多的电影,说明公司的市场分析和决策部门的工作做的很好。
12. 电影评级数据分组聚合
下面绘制电影评级与票房折线图,分析电影评级是否是影响票房的因素。首先对数据进行预处理。
将数据按电影评级进行分组,计算每种评级平均每部电影总票房,代表该级电影卖座能力。
13. 电影评级分组票房数据按列值排序
将数据按电影票房均值升值排序,便于可视化分析。
14. 电影评级与票房折线图
使用处理后的数据绘制电影评级与票房折线图。
从折线图中可以得出,大众级电影的平均票房最高,说明迪士尼还是比较擅长制作大众级电影,观众也大多因为印象中迪士尼是个动画电影公司而去观看大众级电影;PG级和PG-13级电影虽然制作得多,但营收能力还是不如大众级电影。