淘宝数据分析实战，三只松鼠居然这么强？科研成果食品资讯食品加盟网

快过年了，我老婆又开始囤年货了，购物车里全是她加购的零食，闲来无事，就顺手爬了淘宝搜索美食出来的商品信息，简单做了个分析，借此案例给大家学习参考。

数据采集

淘宝的页面也是通过Ajax来抓取相关数据，但是参数比较复杂，甚至包含加密秘钥。用selenium来模拟浏览器操作，抓取淘宝商品信息，即可做到可见即可爬。我就用selenium爬了淘宝网页上能显示的100页的数据，大约4400个左右，速度也不慢，具体步骤如下：

【1】准备工作

用selenium抓取淘宝商品，并用pyquery解析得到商品的图片，名称，价格，购买人数，店铺名称和店铺所在位置。需要安装selenium，pyquery，以及Chrome浏览器并配置ChromeDriver。

我们的目标是获取商品的信息，那么先搜索，例如我们搜索美食。而我们需要的信息都在每一页商品条目里。

在页面的最下面，有个分页导航，为100页，要获得所以的信息只需要从第一页到带一百页顺序遍历。采用selenium模拟浏览器不断的遍历即可得到，这里为直接输入页数然后点击确定转跳。这样即使程序中途出错，也可以知道爬到那一页了，而不必从头再来。

我们爬取淘宝商品信息，只需要得到总共多少条商品条目，而淘宝默认100页，则只需要每一页商品条目都加载完之后爬取，然后再转跳就好了。用selenium只需要定位到专业和条目即可。

淘宝数据分析实战，三只松鼠居然这么强？