Python怎么抓取京东商城评价

发布时间:2021-12-01 11:15:12 作者:iii
来源:亿速云 阅读:314

这篇文章主要讲解了“Python怎么抓取京东商城评价”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“Python怎么抓取京东商城评价”吧!

分布式抓取京东商城的评价信息

采用分布式抓取的目的是快速的在短时间内尽量抓取足够多的商品评价,使分析结果更精确

  1. 找出评价请求 URL 规律,获取到如下 URL 组合链接

  2. 利用 Chrome 插件 Postman 测试链接是否可用,发现京东获取评价信息并没有验证 Cookie 之类的反爬措施

  3. 开始编码利用 scrapy 抓取京东商城的商品评价信息并存入数据库以备使用

数据分析

  1. 从数据库中取出相应数据,开始分析

  2. 使用 python 的扩展库 wordcloud 分别提取好评、中评、差评的关键字,并且生成相应的词云图片

  3. 分析该商品不同颜色的销量占比,并且生成柱状图,例如 iphone7 的不同颜色金色、玫瑰金色、银色、黑色、亮黑色、还有***出的红色的占比

  4. 分析该商品不同配置的销量占比,并且生成柱状图,例如 iphone7 32G 、 64G、128G 存储

  5. 分析该商品销售和评论时间并且生成折线图,分析出商品在什么时间最畅销

  6. 分析用户购买该商品的渠道,例如用户通过京东 Android 客户端、微信京东购物、京东 iPhone 客户端购物的比例,并且生成柱状图

  7. 分析购买该商品的用户的地域省份。例如北京、上海、广州那个城市在京东上购买 iPhone7 的人更多

  8. 将以上分析结果都存储保留

Django 后台 WEB

使用 Django 搭建一个简易的后台 jd_analysis,将分布式抓取数据和数据分析连起来,并且将分析结果返回前端显示。

  1. jd_analysis 提供一个接口接受用户请求分析的京东商城商品的 URL 链接

  2. jd_analysis 接受到商品链接后开启爬虫进程开始抓取需要分析的商品的名称和评价数量

  3. 组合出完整的评价链接插入到 redis 中,实现分布式爬虫抓取,尽可能在短时间内抓取足够多的该商品评价信息(我现在是 30s 时间大概可以抓取 3000  条评价信息)

  4. 服务器等待一定的抓取时间,例如主服务器等待 30s,30s 后一定要给前端返回分析结果,所以等 30s 后清空 redis  中该商品的链接,从服务器没有读取不到需要抓取的链接也就自动关闭

  5. 开启分析进程,开始分析抓取到的所有数据,并且生成图标等信息

前端展示

在客户端***次请求时,生成一个 GUID,并且存储在 cookie 中。然后开启一个定时器,带上 GUID 不断的向 jd_analysis  后台请求结果。jd_analysis 后台利用请求的 GUID 从 redis 中获取抓取信息和分析结果的所有内容,返回给前端。前端显示请求到的结果。

***附上两张效果图

购买和评论时间折线图

Python怎么抓取京东商城评价

购买渠道柱状图

Python怎么抓取京东商城评价

感谢各位的阅读,以上就是“Python怎么抓取京东商城评价”的内容了,经过本文的学习后,相信大家对Python怎么抓取京东商城评价这一问题有了更深刻的体会,具体使用情况还需要大家实践验证。这里是亿速云,小编将为大家推送更多相关知识点的文章,欢迎关注!

推荐阅读:
  1. Python如何爬取京东的评价信息
  2. Python爬虫技术干货,教你如何实现抓取京东店铺信息及下载图片

免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。

python

上一篇:Python的logger怎么配置

下一篇:python切片模拟LRU算法怎么实现

相关阅读

您好,登录后才能下订单哦!

密码登录
登录注册
其他方式登录
点击 登录注册 即表示同意《亿速云用户服务条款》