欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  后端开发

php curl 抓網頁數據問題,聽說內地神人很多,求神人解

程序员文章站 2022-05-01 13:42:35
...
因工作需求,需要抓取别人网站的数据,使用php + curl 但是遇到问题无解

听说内地的神人很多,请各位神人帮帮小弟,来自*的小弟已经爬文爬文三天了。


网址:http://www.cbssports.com/mlb/scoreboard

然后,选择下方正在比赛中的赛事,点选GAMETRACKER 就可以看到直播

问题来了

以这个网址为例:(当各位大大看到时,也许赛事已经结束了)

ttp://www.cbssports.com/mlb/gametracker/live/MLB_20140527_TB@TOR

小弟写的程序如下:

$game=array();
$ch = curl_init(); 
$search1=$_GET['searcharg']; 
$url ="http://www.cbssports.com/mlb/gametracker/live/MLB_20140527_TB@TOR"; 


$ch = curl_init(); 
curl_setopt($ch, CURLOPT_URL, $url); 
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); 
curl_setopt($ch, CURLOPT_USERAGENT, "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11");
$data = curl_exec($ch);

curl_close($ch);
preg_match_all('/(.*?)/is',$data,$teamCity);

….(进行字符串解析)

目前已知问题:
不管是 「另存新檔」save as ,还是 检视原始档 ,一些该出现的html都没有出现,例如:
原网站为:


php curl 抓網頁數據問題,聽說內地神人很多,求神人解
    
Pitcher:M. Mariot |  # 48 RP
        
Game Stats
0.1 IP
0-0, 5.73 ERA, 11.0 IP, 9 K's, 6 BB

不管是另存新档的网页或是curl 抓出来的结果为


不管是另存新档的网页或是curl 抓出来的结果为


php curl 抓網頁數據問題,聽說內地神人很多,求神人解 Pitcher:
Game Stats

上面蓝色代表没有显示出来的,

目前我试过的方式,送cookie!模拟浏览器 ,还是没效,
不知道各位内地的神人有没有解?请给小弟一个方向吧(跪求)

回复内容:

因工作需求,需要抓取别人网站的数据,使用php + curl 但是遇到问题无解

听说内地的神人很多,请各位神人帮帮小弟,来自*的小弟已经爬文爬文三天了。


网址:http://www.cbssports.com/mlb/scoreboard

然后,选择下方正在比赛中的赛事,点选GAMETRACKER 就可以看到直播

问题来了

以这个网址为例:(当各位大大看到时,也许赛事已经结束了)

ttp://www.cbssports.com/mlb/gametracker/live/MLB_20140527_TB@TOR

小弟写的程序如下:

$game=array();
$ch = curl_init(); 
$search1=$_GET['searcharg']; 
$url ="http://www.cbssports.com/mlb/gametracker/live/MLB_20140527_TB@TOR"; 


$ch = curl_init(); 
curl_setopt($ch, CURLOPT_URL, $url); 
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); 
curl_setopt($ch, CURLOPT_USERAGENT, "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11");
$data = curl_exec($ch);

curl_close($ch);
preg_match_all('/(.*?)/is',$data,$teamCity);

….(进行字符串解析)

目前已知问题:
不管是 「另存新檔」save as ,还是 检视原始档 ,一些该出现的html都没有出现,例如:
原网站为:

php curl 抓網頁數據問題,聽說內地神人很多,求神人解 Pitcher:M. Mariot | # 48 RP
Game Stats
0.1 IP
0-0, 5.73 ERA, 11.0 IP, 9 K's, 6 BB
php curl 抓網頁數據問題,聽說內地神人很多,求神人解 Pitcher:
Game Stats

上面蓝色代表没有显示出来的,

目前我试过的方式,送cookie!模拟浏览器 ,还是没效,
不知道各位内地的神人有没有解?请给小弟一个方向吧(跪求)

额,不知道你碰到了什么问题,不过我看了下就是简单的抓取,完全没问题啊。另外,解析HTML请不要在用正则了,推荐你用一下 phpQuery 这个库,PHP抓取利器。以你给的网址为例:

include "phpQuery.php";
phpQuery::newDocumentFile("http://www.cbssports.com/mlb/gametracker/live/MLB_20140527_TB@TOR");
echo pq("#current-pitcher")->html();

php curl 抓網頁數據問題,聽說內地神人很多,求神人解

我遇到的问题 其实说穿了就是

...我用firbug 或 chrome debug时,所追踪的html 跟我 「检视原始档」和「另存新档」时所看到的资料不同:

目前有赛事 http://www.cbssports.com/mlb/gametracker/live/MLB_20140527_DET@OAK

神人求解

你想要抓去的html内容,是由javascript生成的,抓包工具都不会解析执行javascript的。
解决方法就是用phantomjs,可以跑一个受脚本控制的,*面的webkit。

php curl 抓網頁數據問題,聽說內地神人很多,求神人解

声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn核实处理。

相关文章

相关视频


网友评论

文明上网理性发言,请遵守 新闻评论服务协议

我要评论
  • php curl 抓網頁數據問題,聽說內地神人很多,求神人解
  • 专题推荐

    作者信息
    php curl 抓網頁數據問題,聽說內地神人很多,求神人解

    认证0级讲师

    推荐视频教程
  • php curl 抓網頁數據問題,聽說內地神人很多,求神人解javascript初级视频教程
  • php curl 抓網頁數據問題,聽說內地神人很多,求神人解jquery 基础视频教程
  • 视频教程分类
    相关标签: php

    上一篇: 一个互联网产品,需要开发Web端和客户端,如何进行设计更合理,科学,开发更方便?

    下一篇: Mysql 加索引_MySQL

    推荐阅读