北半球的夏季,除了空调、西瓜和恋爱的气息,最不能少的还有一样:就是让你燥起来的音乐和旋律。《中国有嘻哈》、《中国新歌声》等一大波音乐综艺的狂轰滥炸,更是推波助澜。数据侠哈士奇说喵搜罗了网易云音乐上30万随机用户的音乐行为数据,带你从情感共鸣到理性共振。
▍六度分割:从3亿用户里选择爬虫样本
我能想到最浪漫的事,就是在炎炎夏日:吃着西瓜吹着风,听着小曲儿睡个钟。
作为一个每天都在写代码的文艺青年,小曲儿听得多了,我渐渐对音乐网站产生了兴趣,就想知道大家在听什么小曲儿。
于是,我选择了网易云音乐作为样本,来分析了这个夏天用户们的听歌潮流,甚至想为那些小众歌手们,做一些微不足道的贡献。
选择网易云音乐作为爬虫样本,一方面因为它数据较全,具有代表性——在2016年联通的流量统计中,网易云的流量遥遥领先三倍于第二名;另一方面也是因为它的界面比较“爬虫友好”,且社交范围广,用户粘度大。
3个月前,网银云音乐CEO朱一闻刚刚宣布,其用户数已经突破3亿大关。作为一个第三方爬虫,我的服务器显然无法抓取所有的用户数据。
所以我借鉴了六度分割的理论和广度优先遍历的方法爬取了一些“随机”用户。
(图片说明:六度分割理论寻找网易用户概念示意图)
简单的说,就是通过id获取该id的粉丝和关注的人,再获取关注的人的id,然后再次迭代循环,经过几次迭代后,获得一定数量的用户数据。
我在选择初始化种子时,尽可能覆盖了各个区域和年龄层次,中间有加跳变参数和隔代跳变,还有遵循广度优先遍历的原则,最大程度上避免陷入局部圈子。
通过这种方式,我最终搜集了大概30万用户数量的样本。
▍Remix大热?别天真,哪种曲风都不好混
接着,我爬出了30万用户他们喜爱的歌曲列表数据,大概一共有500万首中外名曲。对这500万歌曲的名字进行了词频统计后,得出了以下词云图:
(图片说明:30万歌曲题目词云图)
图上,Remix和Mix的字眼大的宛如我家吉娃娃的眼睛,闪闪发亮。
样本中歌名含有Remix关键字的歌曲占了总歌曲的10.41%,这个比例非常惊,看来大家很好这一口。
但啥是Remix?
Remix,即混音或重混,是一种创作音乐的方式,一般通过对原曲的音乐元素进行增加、删减、混排等方式,创作出新的歌曲或者音频。如果说原作是原汁原味的传统菜,那重混版本就是各位名厨根据个人口味加入不同调料后的新派混搭菜,是歌曲的另一次“洗心革面”。
接下来,我把这么多remix歌曲按收藏量列了出来。
下面这张图里,横坐标代表歌曲的流行度(这里统计的是收藏次数,假设一首歌被收藏次数为200次,那么这首歌的流行度就是200),纵坐标代表对应流行度上的歌曲数量(即同为200流行度的歌曲有多少),当我们把所有Remix歌曲都放入这个坐标系,你可以看到一个更清晰的长尾分布——被收藏次数越多的歌曲,这类歌曲的数量就越少。
(图片说明:网易云音乐的Remix歌曲流行度长尾分布情况)
分布图显示,Remix歌曲的在各收藏量上均有分布,并出现“大部分集中于低收藏量”的分布情况,整体呈现出了一个长尾分布的特征。
那对于所有歌曲来说,是不是也符合这个分布呢?
当我们把所有歌曲都放入这个坐标系,结果也是相似的:
(图片说明:网易云音乐的歌曲流行度长尾分布情况)
长尾效应本意说的是,这长长的尾巴聚合起来的商业价值不容小觑。但另一方面,对于在长尾中的个体而言,这也意味着很难脱颖而出。有大量歌曲依然停留在收藏量少的位置,而那些被大量收藏的永远只是少部分歌曲,这是一个客观现实。
其实也就是说,歌手如果想要靠制作Remix音乐出名,虽然看似很容易站在某个成名作的肩上,但这个方向,依然和走别的音乐路线一样困难重重。
▍想要在音乐界一鸣惊人,你得先来首“惊喜”
很多时候,歌手要火需要的仅仅是一首令人惊喜的“主打歌”,比如当年《认真的雪》,我真的没有在黑。
于是,我根据数据提出了“单曲惊喜度”,即在一个专辑中的单曲抢眼程度——这个灵感借鉴自常出现在推荐系统中的“惊喜度”概念。
这里有两个假设的前提条件:第一,我认为这首歌曲是受欢迎的;第二,这首歌在该专辑中表现非常突出。
粗糙的公式可以表示为如下:
这里,K为专辑中某首单曲的热度(这里指热度均指收藏数),Ki为专辑中第i首歌曲的热度,μ是专辑中各歌曲的平均热度。
简单来说,单曲惊喜度就是某单曲热度,和专辑热度标准差的乘积。
我们知道标准差越大,说明越不稳定,但惊喜度恰恰是需要最不稳定的,所以单曲惊喜度可以用这两者简单相乘来代表。
对于那些希望横空出世的歌手来说,一张专辑并不需要首首都是精品(客观上这也非常难),只需要有一首惊喜度很高的作品,就足够了。
例如,嗯,《演员》。
(图片说明:薛之谦《演员》EP概念宣传海报)
如下图对比,通过计算得出《演员》的惊喜度和专辑标准差都达到了很高的程度。一方面来说,这首歌所属专辑里面的歌曲只有三首,作为其中热度最高的单曲,《演员》很容易在专辑中被凸显出来,形成冲击感。
但是对于成熟歌手来说,他们的惊喜度就会相对较低。因为人们已经相对习惯这些歌手的风格,他们制作专辑的过程也会更加专业化,会均衡评估歌曲的质量。
比如,嗯,周杰伦。
虽然在专辑热度上,周杰伦和薛之谦相差无几,但在周董的两张专辑《叶惠美》和《周杰伦的床边故事》中,各自最热的单曲《晴天》和《告白气球》,惊喜度和专辑标准差都比《演员》低了不少。
一方面,周董专辑中的其他歌曲承接了一部分热度,使得在专辑热度总体较高的时候,单曲也未爆表;另一方面,周董的粉丝们也许非常了解周董专辑的质量,所以有更多的机会去点击进入专辑,再去听该专辑的其他歌曲。
其实,惊喜度包含了两层意义:一层,听众只喜欢专辑中某一首歌的程度和惊喜度保持正相关,另一层,与惊喜度成负相关的是整个专辑的平均受欢迎程度。
简单粗暴一点,惊喜度越高,说明专辑中有个别单曲越突出;惊喜度越低,说明专辑中各歌曲受众较分散,无特别突出的曲目。
至于只想让听众记得一首成名曲,还是想让更多的不同爱好的人喜欢这个专辑?
个人认为从知名度提升角度走第一个(其他歌爱听不听,但有一首歌非常非常棒),从专业歌手销售专辑角度走第二个(水平均匀,都比较好听)。
这篇文章是我从数据视角观察音乐的一个尝试,某种程度上也算是音乐和数据的Remix吧。
作为一个吃瓜听歌的群众,我希望,这个夏天除了《中国新歌声》和《中国有嘻哈》,我的“中国有数据”也可以在音乐领域稍微冒一个泡。
最后,对于那些在网易云音乐中默默努力的歌手来说,我有一个小小的建议:
不妨按照数据的指引,从一首爆款歌曲开始,说不定你就是下一个薛之谦呢,科科。
文章仅代表作者观点,想获取本文数据侠提供的1万条音乐数据,后台回复“网易云音乐”,获取链接~
作者| 哈士奇说喵
编辑| 程一祥
想浏览更多数据侠文章?快戳“阅读原文”吧~各路大牛带你玩转大数据!
▍数据侠门派
数据侠哈士奇说喵,哈尔滨工程大学信息与通信专业研究生,数据实践派的笃行者。兴趣在于数据挖掘和机器学习,以及,哈士奇。
哦,对了,他还有另一个身份,就是传说中【DT君Python学习小组】的课代表,我们的口号是“不学习就心慌”。别瞅了,想学Python不戳链接等啥呢?