导航菜单
路很长,又很短
首页
Java
Web前端
网站
Linux
DB
服务器
大数据
SEO
消息队列
ES/Solr
面试
源码
苏说
微服务
线上问题
架构
Other
博主信息
昵 称:
Cocodroid
->
关于我
Q Q:
2531075716
博文数:
337
阅读量:
1424629
访问量:
166454
至今:
×
《《留言板》》
用户名:
留言:
博文栏目
Java (114)
Web前端 (16)
网站 (21)
Linux (16)
DB (26)
服务器 (12)
大数据 (19)
SEO (4)
消息队列 (16)
ES/Solr (16)
面试 (19)
源码 (12)
苏说 (20)
微服务 (3)
线上问题 (8)
架构 (2)
Other (13)
友情链接
个人网站-VerySu
su123-开发者网址导航
51cto-技术博客
IT大事件—IT人的大事件
吐槽!搞笑!内涵!
分享博文列表:【
爬虫
】
·
Python爬虫进阶一之爬虫框架Scrapy安装配置
初级的爬虫我们利用urllib和urllib2库以及正则表达式就可以完成了,不过还有更加强大的工具,爬虫框架Scrapy,这安装过程也是煞费苦心哪,在此整理如下。Windows平台:我的系统是Win7,首先,你要有Python,我用的是2.7.7版本,Python3相仿,只是一些 ...
更多
(1054)阅读 2015-12-26
·
Python爬虫入门八之Beautiful Soup的用法
上一节我们介绍了正则表达式,它的内容其实还是蛮多的,如果一个正则匹配稍有差池,那可能程序就处在永久的循环之中,而且有的小伙伴们也对写正则表达式的写法用得不熟练,没关系,我们还有一个更强大的工具,叫BeautifulSoup,有了它我们可以很方便地提取出HTML或XML标签中的内容 ...
更多
(849)阅读 2015-12-23
·
Python爬虫入门七之正则表达式
在前面我们已经搞定了怎样获取页面的内容,不过还差一步,这么多杂乱的代码夹杂文字我们怎样把它提取出来整理呢?下面就开始介绍一个十分强大的工具,正则表达式!1.了解正则表达式正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字 ...
更多
(988)阅读 2015-12-22
·
Python爬虫入门六之Cookie的使用
大家好哈,上一节我们研究了一下爬虫的异常处理问题,那么接下来我们一起来看一下Cookie的使用。为什么要使用Cookie呢?Cookie,指某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据(通常经过加密)比如说有些网站需要登录后才能访问某个页面,在登录 ...
更多
(847)阅读 2015-12-21
·
Python爬虫入门五之URLError异常处理
大家好,本节在这里主要说的是URLError还有HTTPError,以及对它们的一些处理。1.URLError首先解释下URLError可能产生的原因:网络无连接,即本机无法上网连接不到特定的服务器服务器不存在在代码中,我们需要用try-except语句来包围并捕获相应的异常。下 ...
更多
(830)阅读 2015-12-20
·
Python爬虫入门四之Urllib库的高级用法
1.设置Headers有些网站不会同意程序直接用上面的方式进行访问,如果识别有问题,那么站点根本不会响应,所以为了完全模拟浏览器的工作,我们需要设置一些Headers的属性。首先,打开我们的浏览器,调试浏览器F12,我用的是Chrome,打开网络监听,示意如下,比如知乎,点登录之 ...
更多
(786)阅读 2015-12-20
·
Python爬虫入门三之Urllib库的基本使用
那么接下来,小伙伴们就一起和我真正迈向我们的爬虫之路吧。1.分分钟扒一个网页下来怎样扒网页呢?其实就是根据URL来获取它的网页信息,虽然我们在浏览器中看到的是一幅幅优美的画面,但是其实是由浏览器解释才呈现出来的,实质它是一段HTML代码,加JS、CSS,如果把网页比作一个人,那么 ...
更多
(829)阅读 2015-12-19
·
Python爬虫入门二之爬虫基础了解
1.什么是爬虫爬虫,即网络爬虫,大家可以理解为在网络上爬行的一直蜘蛛,互联网就比作一张大网,而爬虫便是在这张网上爬来爬去的蜘蛛咯,如果它遇到资源,那么它就会抓取下来。想抓取什么?这个由你来控制它咯。比如它在抓取一个网页,在这个网中他发现了一条道路,其实就是指向网页的超链接,那么它 ...
更多
(924)阅读 2015-12-19
·
Python爬虫入门一之综述
大家好哈,最近博主在学习Python,学习期间也遇到一些问题,获得了一些经验,在此将自己的学习系统地整理下来,如果大家有兴趣学习爬虫的话,可以将这些文章作为参考,也欢迎大家一共分享学习经验。Python版本:2.7,Python3请另寻其他博文。首先爬虫是什么?网络爬虫(又被称为 ...
更多
(967)阅读 2015-12-18
热词:
大数据
Java
Spring
MySQL
JavaScript
消息队列
Tomcat
Solr
ElasticSearch
分享栏目( 746 篇)
分布式 (20)
资源分享 (3)
Java (90)
JVM (15)
Web前端 (28)
MySQL (13)
编程开发 (76)
Linux (30)
程序员 (2)
消息队列 (2)
大数据 (69)
SEO (15)
J2EE (7)
架构 (66)
操作系统 (4)
网络基础 (12)
运维 (1)
电商 (13)
数据库 (5)
网站建设 (54)
爬虫 (9)
插件 (2)
并发 (13)
安全 (20)
Solr (27)
ZooKeeper (6)
Netty (9)
面试/笔试 (38)
开源 (25)
移动 (15)
区块链 (10)
其它 (47)
云标签
标签球>>
云标签 - Su的技术博客
Hadoop(47)
IT大会(12)
JQuery(15)
JUC锁(11)
JVM(13)
Java(120)
Kafka(11)
Linux(20)
Netty(16)
Python(10)
SEO(31)
Solr(37)
Spring(13)
Web(13)
WordPress(16)
ZooKeeper(22)
javascript(10)
mysql(38)
redis(16)
事务(13)
云计算(22)
代码(10)
分布式(19)
多线程(28)
大型网站(11)
大数据(56)
安全(12)
对象(14)
并发(13)
开发(16)
开源(15)
性能优化(12)
插件(11)
搜索引擎(13)
数据(10)
数据库(18)
服务器(14)
架构(46)
架构师(9)
源码(11)
源码分析(27)
爬虫(16)
电商(10)
程序员(19)
缓存(11)
编程语言排行榜(11)
网站(50)
网站静态化(11)
问题(12)
面试(28)
面试题(17)