首页 > 编程语言 > Python > Python 3.7 如何使用 chardet检测网页编码-附代码实例
2019
03-04

Python 3.7 如何使用 chardet检测网页编码-附代码实例

使用 chardet 可以方便的实现字符串/文件的编码检测。尤其是中文网页,有的页面使用GBK/GB2312,有的使用UTF8,如果你需要去爬一些页面,知道网页编码很重要的。

chardet的安装

  pip install chardet

chardet实例

import urllib

import chardet

def detectEncoding(self,website):

        self.encoding=’gbk’

        response = urllib.request.urlopen(website).read()

        json=chardet.detect(response)

        if json[“encoding”].find(‘utf-8’) >= 0 :

            self.encoding = ‘utf-8’

最后编辑:
作者:游戏创作者大陆

留下一个回复

你的email不会被公开。