小爬虫路上的知识模糊以及盲区

发布时间:2022-06-21 发布网站:脚本宝典
脚本宝典收集整理的这篇文章主要介绍了小爬虫路上的知识模糊以及盲区脚本宝典觉得挺不错的,现在分享给大家,也给大家做个参考。

Requests设置请求头Headers(具体操作请看下篇)

 1.设置headers 目的

 headers 是解决request请求的一种反爬机制,对反爬虫网页,可以设置一些headers信息,模拟成浏览器取访问网站 。

     2. headers 位置

cookies作用:(保持会话)(具体操作请看下篇)

 可以利用cookies跟踪统计用户访问该网站的习惯,比如什么时间访问,访问了哪些页面,在每个网页的停留时间等。利用这些信息,

 为用户提供个性化的服务,也可以作为了解所有用户行为的工具,对于网站经营策略的改进有一定参考价值。

cookie的用途是存储用户在特定网站上的密码和 ID。另外,也用于存储起始页的首选项。在提供个人化查看的网站上,将利用计算机硬驱上的少量空间来储存这些首选项。这样,每次登录该网站时,浏览器将检查是否有cookie。如果有,浏览器将此 cookie 随网页的请求一起发送给服务器。

确定微博每页评论的url(具体操作请看下篇)

微博的网页属于Ajax渲染,当向下滑动的时候会显示的评论,地址栏的URL不变,需要找到实际的请求URL。

 pandas库

Pandas 的主要数据结构是 Series (一维数据)与 DataFrame(二维数据),这两种数据结构足以处理金融、统计、社会科学、工程等领域里的大多数典型用例

其中:

       Series 是一种类似于一维数组的对象,它由一组数据(各种Numpy数据类型)以及一组与之相关的数据标签(即索引)组成。

  DataFrame 是一个表格型的数据结构,它含有一组有序的列,每列可以是不同的值类型(数值、字符串、布尔型值)。DataFrame 既有行索引也有列索引,它可以被看做由 Series 组成的字典(共同用一个索引)。

import pandas as pd #导入方法,pd为别名

简单实例

 1 import pandas as pd
 2 
 3 mydataset = {
 4   'sites': ["Google", "Runoob", "Wiki"],
 5   'number': [1, 2, 3]
 6 }
 7 
 8 myvar = pd.DataFrame(mydataset)
 9 
10 print(myvar)

运行结果

小爬虫路上的知识模糊以及盲区

DateFrame 

是Python中Pandas库中的一种数据结构,它类似excel,是一种二维表.DataFrame的单元格可以存放数值、字符串等,这和excel表很像,同时DataFrame可以设置列名columns与行名index。

具体内容请移步:Pandas 教程 | 菜鸟教程 (runoob.com)

 

df.to_csv()写入函数参数

写入之后将以excle表格呈现

df.to_csv('评论.csv', encoding='utf-8', mode='a+', index=False)
print(df.shape)

小爬虫路上的知识模糊以及盲区

 

Python 中 json 模块的应用

详细内容:Python JSON | 菜鸟教程 (runoob.com)

 json中遵循 “键值对” 的用法方式 ,“{“ age”: 18 }”  "{"name" : "ty"}"

json.dumps ()

json模块里的dumps函数是对数据进行编码,形成json格式的数据

1  import json
2  data_dict = {"key1": "value1", "key2": "value2", "key3": "value3"}# 有序转换json字符串
3  json1 = json.dumps(data_dict, sort_keys=True)# 默认无序
4  json2 = json.dumps(data_dict)
5  print(json1)
6  print(json2)

 

注:dumps里的参数“sort_keys=True”,使得输出json后对key和value进行0~9、a~z的顺序排序,如果不填,则按照无序排列,一些情况下,排序利于比较json中的数据  

json = json.dumps(data_dict,indent = 4)  # "Indent" 用于参数缩进,可使输出的json整齐美观,可读性更强

  

 

while True 循环语句

采用该语句的核心思想是如果出现错误的话,可以继续循环。while True 语句中一定要有结束该循环的break语句,否则会一直循环下去的。

简单举例:登录系统中用户名或密码出现错误,其一可继续输入,而不是全部重新输入 

来源:geerniya的博客-CSDN博客_python中while true的用法

脚本宝典总结

以上是脚本宝典为你收集整理的小爬虫路上的知识模糊以及盲区全部内容,希望文章能够帮你解决小爬虫路上的知识模糊以及盲区所遇到的问题。

如果觉得脚本宝典网站内容还不错,欢迎将脚本宝典推荐好友。

本图文内容来源于网友网络收集整理提供,作为学习参考使用,版权属于原作者。
如您有任何意见或建议可联系处理。小编QQ:384754419,请注明来意。
标签: