首页
首页 >> 科技咖 >> 正文

分析了 7 万款 App,全是没想到

日期:2019-01-11 11:50:15 来源:互联网 编辑:小狐 阅读人数:154

对商业智能BI、大数据分析挖掘、机器学习,python,R等数据领域感兴趣的同学加:tstoutiao,邀请你进入数据爱好者交流群,数据爱好者们都在这儿。

相关历史文章推荐:

绝对值得安装的 24 款 App

有了它,你手机上的很多 App 都可以卸了

摘要:使用 Scrapy 爬取豌豆荚全网 70,000+ App,并进行探索性分析。

写在前面:若对数据抓取部分不感兴趣,可以直接下拉到数据分析部分。

1 分析背景

之前我们使用了 Scrapy 爬取并分析了酷安网 6000+ App,为什么这篇文章又在讲抓 App 呢?

因为我喜欢折腾 App,哈哈。当然,主要是因为下面这几点:

第一、之前抓取的网页很简单

在抓取酷安网时,我们使用 for 循环,遍历了几百页就完成了所有内容的抓取,非常简单,但现实往往不会这么 easy,有时我们要抓的内容会比较庞大,比如抓取整个网站的数据,为了增强爬虫技能,所以本文选择了豌豆荚这个网站。

目标是: ,数量在 左右,比酷安升了一个数量级。

第二、再次练习使用强大的 Scrapy 框架

第三、对比一下酷安和豌豆荚两个网站

话不多说,下面开始抓取流程。

▌分析目标

首先,我们来了解一下要抓取的目标网页是什么样的。

可以看到该网站上的 App 分成了很多类,包括:应用播放、工具等,一共有 14 个大类别,每个大类下又细分了多个小类,例如,影音播放下包括:直播等。

分析了 7 万款 App,全是没想到(图1)

本文相关词条概念解析:

豌豆荚

豌豆荚婴童毛巾,追求于研发织造出更适合婴童群体的毛巾制品。为孩子为国家和民族打造有世界地位的高端婴童毛巾品牌。

网友评论
  • wifi爆满好嘛
    ⽤户规模,⽇活/周活/⽉活⽤户数⽤户类型
    2019-06-15 18:34 3
  • 172109548
    庄家依靠盘口水位的变化来均衡受注额,而玩家则依靠这些来判断比赛的胜负走势
    2019-06-08 06:32 28
  • yuliu12345
    实际在进行漏斗模型的分析时,结合不同的业务场景和产品类型,漏斗模型大致可分为以下几种
    2019-06-15 00:01 11
  • 最终版好男
    常⻅的问题包括,通过海量⽤户⾏为数据的沉淀,利⽤⼤数据技术,可绘制⽤户的兴趣画像
    2019-06-13 10:12 11
  • 卓别林的胡
    有哪些学习竞彩分析的APP?
    2019-06-17 07:05 47
  • 无人像你一
    假如你的APP是高频的,那么,你APP的内容,架构,服务体系,玩法是否有特色,而不是为了设计而设计
    2019-06-15 12:48 36
  • lvzhouhun
    功能使⽤频次、使⽤时⻓问题诊断APP问题诊断的前提是对业务有⾜够的深度和⼴度的理解,结合产品逻辑和商业价值,能从各个维度进⾏分析
    2019-06-12 10:13 35
  • 图坦卡蒙的
    电商漏斗模型,功能优化漏斗模型
    2019-06-12 05:33 25
  • 一乐乐乐乐
    App数据分析到底要分析什么?
    2019-06-11 19:21 13
  • 狗狗爱喝奶
    Retention用户留存与活跃,Revenue用户产生收入,到发起传播Refer
    2019-06-14 16:19 4
  • 夜里游泳的
    猫眼为什么要做票房分析app?
    2019-06-14 14:54 14
  • 一生所爱98
    ⽤户增⻓率,留存率,流失率⽤户产品粘度
    2019-06-09 10:50 17
  • 小情绪小
    用其它自带流量的公众号或者小程序的形式是否也可以满足企业诉求,如果满足不了,那好,我们再回到APP上
    2019-06-15 01:39 7