正文内容加载中...
posted @ 2018-07-11 09:33 ospider 阅读(842) 评论(0) 编辑
摘要: 欢迎关注我的公众号 spider learn (https://github.com/sharkdp/fd) 是 命令的一个更现代的替换。 对比一下 查找名字含有某个字符的文件 OLD NEW 使用正则表达式查找 比如说查找符合 模式的文件。 使用的正则表达式非常古老,比如说在这里我们不能使用 ,也阅读全文
posted @ 2018-04-09 18:28 ospider 阅读(639) 评论(0) 编辑
摘要: 楔子 好友李博士要买房了, 前几天应邀帮他抓链家的数据分析下房价, 爬到一半遇到了验证码. 李博士的想法是每天把链家在售的二手房数据都抓一遍, 然后按照时间序列分析. 链家线上在交易的二手房数据大概有30000余套, 而一天只有86400秒, 也就是最慢3s也要访问一个页面. 测试按照这种频率, 大阅读全文
posted @ 2017-10-07 19:31 ospider 阅读(10284) 评论(0) 编辑
摘要: 最近看过不少讲爬虫的教程[1][2],基本都是一个模式: 1. 开始先来拿正则、lxml、jquery/pyquery等等教大家从页面上抠出一个一个的值来 2. 然后深入一些在讲讲http 协议,讲讲怎么拿出 cookie 来模拟登录之类的,讲讲基本的反爬虫和反反爬虫的方法 3. 最后在上一个 简单阅读全文
posted @ 2017-04-30 23:30 ospider 阅读(5447) 评论(2) 编辑
摘要: Chapter I 简介 ====== 为什么要写爬虫? 1. 每个网站都应该提供 API,然而这是不可能的 2. 即使提供了 API,往往也会限速,不如自己找接口 注意已知条件(robots.txt 和 sitemap.xml) 1. robots.txt 中可能会有陷阱 2. sitemap 中阅读全文
posted @ 2017-02-06 22:53 ospider 阅读(892) 评论(0) 编辑
摘要: 原文链接: "http://yifei.me/note/464" 最近要做下微信爬虫,之前写个小东西都是直接用正则提取数据就算了,如果需要更稳定的提取数据,还是使用 xpath 定位元素比较可靠。周末没事,从爬虫的角度研究了一下 python xml 相关的库。 Python 标准库中自带了 xml阅读全文
posted @ 2016-09-27 02:11 ospider 阅读(48235) 评论(2) 编辑
摘要: 最近经常在服务器上开发,经常会遇到不认识的单词,然而 linux 下实在没有什么好用的词典,索性自己写一个好了。 词典 API 首先,Google 了一下可用的词典的 API,发现金山的 iciba 还是不错的。要使用 iciba 的 API 需要首先申请一个 key,目前 key 是免费的,并且没阅读全文
posted @ 2016-04-21 07:58 ospider 阅读(670) 评论(0) 编辑
摘要: 下午小伙伴问了一个有趣的问题, 怎么用 Python 的 with 语句同时打开多个文件? 首先, Python 本身是支持同时在 with 中打开多个文件的 当然, 小伙伴的问题不可能这么简单, 他需要从打开一个列表中的所有文件, 而不是打开固定的一个文件, 这时候上面的语法显然就没法满足要求了.阅读全文
posted @ 2016-03-12 01:30 ospider 阅读(4888) 评论(0) 编辑
摘要: 前两天(其实是几个月以前了)看到了代码中有 一段,感觉好像是 OpenMP,以前看到并行化的东西都是直接躲开,既然躲不开了,不妨研究一下: OpenMP 是 Open MultiProcessing 的缩写。OpenMP 并不是一个简单的函数库,而是一个诸多编译器支持的框架,或者说是协议吧,总之,不阅读全文
posted @ 2016-03-11 15:48 ospider 阅读(36772) 评论(0) 编辑
摘要: 搭建服务器 假设服务器的名字是 git.example.com.首先,添加一个叫做git的用户 。然后如果不存在的话, 为这个用户新建一个主目录 ,然后把这个目录设为git所有 再在本地把你的ssh公钥拷贝到服务器上 ssh copy id git@git.example.com服务器就这样搞好...阅读全文
posted @ 2016-01-15 19:53 ospider 阅读(209) 评论(1) 编辑