“
有好点子,想创业,但没钱,怎么办?Kickstarter是美国著名的众筹网站,在这里可以帮有好点子的创业者实现梦想!本文数据侠抓取了Kickstarter的众筹数据,在进行数据可视化与分析后,得出了一些洞察结果,也许可以帮助到想要创业的朋友哟!
具备哪些特点,能够让一个初创项目最大可能获得成功?
▍项目概况
Kickstarter是最知名的众筹网站之一,在其平台上的筹款总额已经超过39亿美元。这个项目的目标是通过爬取Kickstarter数据并进行分析,来找出成功项目具备的特点。
与传统的融资方式(天使投资、小微贷款等)相反,Kickstarter上的投资人需要充分信任投资的项目,我说的项目不是那些有着可大规模盈利的商业模式,也不是说那些能带来高回报的项目。这些投资者其实是被项目方设置的“奖励”(Rewards)所吸引,它与投资者的投入额度等级有关,保证了投资者能从投入中获得相应等级的回馈。
在平台上开始一个项目的步骤很简单,下面我们也会具体深入研究如何让融资成功的机率最大化。
- 创建一个项目
- 设置最低融资目标
- 设置“回报”的额度
- 选择一个截止日期
值得注意的是,如果无法达到最低融资目标,项目需要把钱退回给用户个人。
▍爬取数据
在写爬虫脚本之前,需要搞清楚如何在不同项目页面中自动翻页,来爬取这20多项变量。为此我设置了三个主要的循环,第一个循环会浏览所有分类和次级分类,并得到每个次级分类的首页信息。我发现Kickstarter只允许次级分类的页面控制在200以内。
第二个循环使用从循环一得到的所有网址,并且加上一个网页编号。之后为每个页面提取出特定的项目网址,每个次级分类最多只有12个项目/网页。第三个循环会从所有项目页面中爬取需要的变量,比如预融资金额、创建日期、截止日期、创办者信息等。
第四个循环要更小一些,它从第三个循环得到的每个网页所对应的常见问题页面中爬取数据,来补充用于分析的变量。
在检查所有Kickstarter网页元素以及在 Scrapy Shell里测试我的XPath(在XML 文档中查找信息的语言)后,我发现,Kickstarter的网站基本是运行在JavaScript上的,但不幸的是Scrapy本身完全无视了JS元素。这导致我只收集到了15%的数据。在做了一点研究后,我加入了一个轻量的浏览器Scrapy Splash,它能帮助我处理JS网页,让Scrapy能读取网页元素。
另一个问题是Kickstarter会禁你的IP,最后我把爬取的间隔加到3秒,并且在另一台机器上运行我的爬虫。
▍数据清洗
在提取了所有需要的数据后,我需要在Python里进行处理,从而将数据清洗得到可以用于分析的数据。下面是5个主要的变化:
1 )将地址字符串转换成单独的城市,州字符串。
2 )将更新次数,回报水平,创办项目数和日期的字符串转化成整数。
3 )创建了众筹完成度的变量(已融资额/计划融资目标),作为我项目成功的指标。
4 )创建一个项目时长的变量,基于项目创办时间和截止时间。
5) 去掉丢失数据和零数据的变量。
▍数据分析
我首先看了一下成功机率的分布。
很明显我们有几个异常值,我使用基本的IQR(四分位数间距)方法来进行调整。我调整IQR的值,从而让有关的融资百分比可以被包含进来。下面是相关结果:
接下来就是提炼构成一个成功项目的主要特征。
1 )根据四分位数分布和融资比例得到的比较成功的项目类型:舞蹈、剧院和音乐
在次级分类方面,舞蹈和剧院类项目的次级细分类别之间区分不大。而音乐累项目,最好可以避开嘻哈和电子舞曲,因为这两个的平均融资度只在40%左右。
2)最理想的融资目标:在300到1700美元之间比较理想,更具体的,300美元或者400美元比较合适。
3) 项目时长:除了那种只有一天的项目外,比价理想的时长是一周,或者4周。因为1天,9天和15天的项目成功率更高。
4.) 项目落地的地点,佛蒙特州最好,怀俄明州最差。
5.) 评论和项目更新次数对融资完成度有最明显影响,它们对应的数值超过20时,都可以明显提高项目成功率。
▍未来可优化工作
- 收集更多数据,至少200行/次级分类。
- 设计更高效的scrapy代码,来尽可能减少爬取的用时。
- 建一个模型来预测项目是否可能成功。
注:本文编译自纽约数据科学院文章Building a Successful Kickstarter Campaign,点击“阅读原文”查看。内容仅为作者观点,不代表DT数据侠立场。文中图片部分来自作者。
作者 | Tristan Dresbach
题图 | 站酷海洛
期待更多数据侠干货分享、话题讨论、福利发放?在公众号DT数据侠(ID:DTdatahero)后台回复“数据社群”,可申请加入DT数据社群。
▍关于DT×NYCDSA
DT×NYCDSA是DT财经与纽约数据科学学院合作专栏。纽约数据科学学院(NYC Data Science Academy)是由一批活跃在全球的数据科学、大数据专家和SupStat Inc. 的成员共同组建的教育集团。
▍数据侠门派
本文数据侠Tristan Dresbach,前Target(塔基特百货)商业分析师,卡尔顿学院经济学学士,曾在剑桥大学和华东师范大学学习,2018年在纽约数据科学院学习数据科学课程。
那些你可能错过的干货
▍加入数据侠
数据侠计划是由第一财经旗下DT财经发起的数据社群,包含数据侠专栏、数据侠实验室系列活动和数据侠联盟,旨在聚集大数据领域精英,共同挖掘数据价值。申请入群请添加DT君微信(dtcaijing003)并备注“数据社群”,合作请联系datahero@dtcj.com。