袁来如此的工作笔记
袁来如此的工作笔记
竹杖芒鞋轻胜马,谁怕? 一蓑烟雨任平生。

解析PHP中的file_get_contents获取远程页面乱码的问题

qq不用实名怎么领红包:21

what:
PHP的file_get_contents获取远程页面内容,如果是gzip编码过的,返回的字符串就是编码后的乱码

how:
方法1、给你的url加个前缀,这样调用
$content = file_get_contents("compress.zlib://".$url);

方法2、使用curl模块解决

function curl_get($url, $gzip=false){
        $curl = curl_init($url);
        curl_setopt($curl, CURLOPT_RETURNTRANSFER, 1);
        curl_setopt($curl, CURLOPT_CONNECTTIMEOUT, 10);
        if($gzip) curl_setopt($curl, CURLOPT_ENCODING, "gzip"); // 关键在这里
        $content = curl_exec($curl);
        curl_close($curl);
        return $content;
}
$result = curl_get("http://www.xxx.com", true);


注意:

如果抓取页面跟你的页面编码不一样,需要把gb2312等网页常用格式转成utf8的

if(!mb_check_encoding($str, 'utf-8')) {
  $str = mb_convert_encoding($str,'UTF-8','gb2312');
}


打赏