PHP实现采集抓取淘宝网单个商品信息

程序员文章站 2022-05-26 12:17:37

...

这篇文章主要介绍了PHP实现采集抓取淘宝网单个商品信息,本文是一种实现思路,使用file_get_contents函数实现,并给出了采集正则,需要的朋友可以参考下

调用淘宝的数据可以使用淘宝提供的api，如果只需调用淘宝商品图片名称等公开信息在自己网站上，使用php中的 file_get_contents 函数实现即可。

思路：

file_get_contents(url) 该函数根据 url 如将该网页内容（源码）以字符串形式输出（一个整字符串），然后配合preg_match，preg_replace等这些正则表达式操作就可以实现获取该url特定div，img等信息了。当然前题是淘宝在单个商品页面的结构是固定的，如500图的img中id就是J_ImgBooth！

具体实现方法：（获取500图，名称，价格，属性及商品描述）

复制代码代码如下:

$text=file_get_contents("http://item.taobao.com/item.htm?id=2380347279"); //将url地址上页面内容保存进$text

A.获取500图：

复制代码代码如下:

preg_match('/ PHP实现采集抓取淘宝网单个商品信息 ]*id="J_ImgBooth"[^r]*rc=\"([^"]*)\"[^>]*>/', $text, $img);
//运用正则抓取img标签中id为J_ImgBooth的img，$img[0]为该500图img标签，$img[1]为500图的图片地址；

B. 获取名称：

复制代码代码如下:

preg_match('/

([^]*)/', $text, $title); //因为正文中的商品名称标签没有特殊class或id正则不好抓取，就抓<title>标签中的内容了，一般来说title中内容就是商品名称了（实际有些出入），$title[0]整个title标签 $title[1]标签中内容； $title=iconv('GBK','UTF-8',$title); //如果你的网站是utf8编码，那么需要进行一下转码（淘宝是gbk编码） C.获取价格： 复制代码 代码如下: preg_match('/]*>([^/is', $text, $price); //同理获取id为J_StrPrice的标签内容$price[2], $price[0]是整个标签， $price[1]为strong标签名； $price=floatval($price);//放入数据库估计还有转一下变量类型 D.获取属性： 这之前获取的内容都是在单标签中相对只需一个正则就可搞定，然而如果要获取如 复制代码 代码如下: … <div id="”xxx”"> … <ul> … </ul> <div>… <div>… </div> </div> </div> … 这样特定div中有未知n个标签，获取该特定div将会非常的困难，搜了下网上，最接近的也只是”/]*>([^]|(?R))*/”这样使用递归抓取标签对，但是他不能抓特定标签，所以想要轻松抓取class=”attributes”的div我是没法办到了。但是淘宝网页有其特殊性，就是它的各个标签结构基本是固定的… <div>…</div>标签后面不是

相关标签： PHP 采集抓取淘宝网单个商品信息

上一篇： css 元素样式来源，基本选择器，上下文选择器与权重（重要）解析

下一篇：用table做课程表、用表单做注册界面

PHP实现采集抓取淘宝网单个商品信息