python

当前位置:中华考试网 >> python >> python数据分析 >> 文章内容

python数据分析:代码实践

来源:中华考试网  [2020年9月23日]  【

  由于我们这边没有使用 M/R join的方法来实现 IP对应的区域,我们是使用M/R结合Pandas来实现。

  我们计算每日PV经过这四个步骤:

  Mapper: 将以行数据解析成 key=real_ip value=1的形式

  Shuffle: 通过Shuffle后的结果会生成以 key 的值排序的 value迭代器

  结果如: real_ip [1, 1, 1 ... 1, 1]

  Reduce 1: 在这边我们计算出 real_ip 的访问量

  输出如: None [sum([1, 1, 1 ... 1, 1]), key]

  Reduce 2:

  初始化 area_ip pandas 数据

  对sum([1, 1, 1 ... 1, 1]) 进行排序并输出 TOP 100

  输入如: 31943 140.205.127.2 浙江省杭州市

  1.2. 代码

  运行统计和输出结果

责编:hym
  • 会计考试
  • 建筑工程
  • 职业资格
  • 医药考试
  • 外语考试
  • 学历考试