位置:天津达内IT培训学校 > 学校动态 > 常见的网页形式主要有两大类
常见的网页形式主要有两大类:
* 静态网页
* 动态网页
所谓的静态的网页,就是网页编写者会将网页数据都直接写入到html中,对于这样的网页,一般而言是无法进行数据更新的,也就是说你今天打开这个网页获得的信息和你一个月后在这个网页获得信息是一样的,不会有任何的改变。
所谓的动态的网页,就是网页编写者只是将网页写成一个框架,具体的数据会放在服务器的数据库了。就比如说,网页是一个书架,你希望获得金融类的书籍,那你就可以向服务器发出这么一个请求——“我希望获得金融类的书籍”,那么服务器就会返回相应的书籍,书架上就会呈现相应的金融类的书籍。这里的请求实际上就是http请求,也就是网页作为前端与服务器作为后端之间的信息通信。动态网页是目前比较常见的网页形式,因为大数据的存在,网页逐渐成为一种呈现的方式,具体的数据会保存在服务器的数据库中,并且不断地改变着。
对于具体的爬虫来说,对于这两种方式,会采用不同的爬虫策略。
静态网页
对于静态网页,就不多说了,太简单了。只要用requests库直接把html爬下来,然后用正则表达式匹配即可。但是到了目前互联网发展阶段,已经很少有静态网页了。如果你遇到要爬虫静态网页,那你一定是非常幸福了。
例如这样的网页:你的名字 就可以认为是一个静态网页。
动态网页
动态网页是比较常见的爬虫目标,这里我给出一些比较常见的爬虫方法,仅供参考。
爬取数据包
一般来说,要爬虫的内容都是在格式上具有一定的重复性,但同时数据量又非常大。如果你曾经做过网页开发,你就会明白网页开发者对于这样的数据,一般都会采取从服务器发数据包到前端,在前端解析数据的方式来实现,于是这就给了爬虫者巨大的便利。因为一旦我找到了数据包的请求方式,我就可以仿照前端发送相同的请求,来获得相应的JSON数据。
尊重原创文章,转载请注明出处与链接:http://www.peixun360.com/2346/news/448309/违者必究! 以上就是天津达内IT培训学校 小编为您整理 常见的网页形式主要有两大类的全部内容。