python奇葩反爬-你是故意的还是不小心的

问题

在挖掘数据时,数据存在于js文件内,所以主要思路就是,把数据提取出来,直接转json格式,通过字典的键索引获取数据。奈何在转json格式的时候一直报错。

报错:Expecting value: line 1 column 2012 (char 1)
我总不能一个一个字符地数吧!!

问题分析

通过json在线解析定位到了错误位置,然后发现这有个反爬。这个反爬并不涉及参数加密、混淆等手法。纯属是针对爬虫开发语言规则做出的反爬。
部分页面源码如下:

这里的\u0022指的就是双引号("),转换一下就是"introduction":"{"html":"我司是一家拥有多年羊毛衫生产经验的专业生产厂家"}"

不难发现,这里有一个错误,就是双引号套双引号"{"html":"..."}",我们只需要用replace把双引号替换成单引号就可以了。

# reInfo是获取到的文本
reInfo = reInfo.replace("\"html\":\"", "\'html\':\'"))

麻了,真不知道这位前端程序员是故意的还是不小心的!!!

0 条评论
请不要发布违法违规有害信息,如发现请及时举报或反馈
还没有人评论呢,速度抢占沙发!
相关文章
  • import numpy as np import matplotlib.pyplot as plt from pynverse import inversefunc def my_tah(x):...

  • 一、总结 一句话总结: 返回多个值:def min_max(list1): return min(list1),max(list1) 赋值多个值:min1,max1=min_max([1,3,5])...

  • 在Python的使用中,我们经常会遇到这样的函数定义: def my_func(x, y, *args, **kwargs): for arg in args: print(a...

  • 案例一 打印排序好的数据 #列表方式 lst_name=['林黛玉','薛宝钗','贾元春','贾探春','史湘云'] lst_sign=['①','②','③','④','⑤'] for i in ...

  • 操作系统 :CentOS 7.6.1810_x64 Python 版本 : 3.9.12 一、背景描述 使用python开发过程中,会遇到需要使用缓存加速应用的情况,比如下面这些场景: 数据转换加...

  • 使用Python通过拉马努金公式快速求π 一、前言 π是一个数学常数,定义为:圆的周长与直径的比值。 π是一个无理数,也是一个超越数,它的小数部分无限不循环。 π可以用来精确计算圆周长、圆面积、球体积...

  • 本文介绍基于Python的随机森林(Random Forest,RF)回归代码,以及模型超参数(包括决策树个数与最大深度、最小分离样本数、最小叶子节点样本数、最大分离特征数等)自动优化的代码。   本...

  • # 1.公共操作 # del 删除 删除变量或指定容器内数据 变量,容器里面的值 # + 将两个相同类型序列进行连接 字符串,列表,元组 print('1.公共操作') print('a' + 'b'...

  • 每条if语句的核心都是一个值为True或False的表达式。Python根据条件测试的值为True还是False来决定是否执行if语句中的代码。如果条件测试的值为True,Python就执行紧跟在if...

  • 摘要:本文主要讲解常见的图像锐化和边缘检测方法,即Roberts算子和Prewitt算子。 本文分享自华为云社区《[Python从零到壹] 五十七.图像增强及运算篇之图像锐化Roberts、Prewi...

  • 💡 作者:韩信子@ShowMeAI📘 机器学习实战系列:https://www.showmeai.tech/tutorials/41📘 本文地址:https://www.showmeai.tec...

  • 5.3 函数参数 示例2中定义的函数虽然能够计算总分数,但是每次计算后的结果是固定的,为了增加函数的灵活性,我们希望在调用函数的时候可以传入一些数据,然后根据传入的数据进行计算。要满足这种需求,就需要...

  • 单选题 1、将原始数据进行集成、变换、维度规约、数值规约是在( C )过程中的任务。 A.频繁模式挖掘B. 分类和预测C.数据预处理D.数据流挖掘 2、以下哪个选项可以创建一个 3x3的单位矩阵? (...

  • 最大公约数百度解析: 最大公因数,也称最大公约数、最大公因子,指两个或多个整数共有约数中最大的一个。 a,b的最大公约数记为(a,b),同样的,a,b,c的最大公约数记为(a,b,c),多个...

  • 前言 在Python中,一个.py文件代表一个Module。在Module中可以是任何的符合Python文件格式的Python脚本。了解Module导入机制大有用处。   1. Module组成 一个...

  • 哈喽,兄弟们,本文带大家来复习一下Python基础中的数。 在编程中,经常会使用到数。在一些计算题中,或者其他的可视化数据等。Python能够根据不同用法处理它们 1、整数 在Python...

  • Python类 Python类的设计原则 封装(Encapsulation):Python类被设计用来将相关数据和行为封装到一个独立的单元中。 继承(Inheritance):Python支持继承,...

  • 毋庸讳言,和传统架构(BS开发/CS开发)相比,人工智能技术确实有一定的基础门槛,它注定不是大众化,普适化的东西。但也不能否认,人工智能技术也具备像传统架构一样“套路化”的流程,也就是说,我们大可不必...

  • 深入理解 Python 虚拟机:字典(dict)的实现原理及源码剖析 在本篇文章当中主要给大家深入介绍一下在 cpython 当中字典的实现原理,在本篇文章当中主要介绍在早期 python3 当中的版...

  • 二分查找(搜索)是一种在有序列表中查找某一特定元素的搜索算法。 二分搜索是一种在有序数组中查找某一特定元素的搜索算法。搜索过程从数组的中间元素开始,如果中间元素正好是要查找的元素,则搜索过程结束;如果...