网页
资讯
视频
图片
知道
文库
贴吧
地图
采购
进入贴吧
全吧搜索
吧内搜索
搜贴
搜人
进吧
搜标签
日
一
二
三
四
五
六
签到排名:今日本吧第
个签到,
本吧因你更精彩,明天继续来努力!
本吧签到人数:0
一键签到
成为超级会员,使用一键签到
一键签到
本月漏签
0
次!
0
成为超级会员,赠送8张补签卡
如何使用?
点击日历上漏签日期,即可进行
补签
。
连续签到:
天 累计签到:
天
0
超级会员单次开通12个月以上,赠送连续签到卡3张
使用连续签到卡
10月16日
漏签
0
天
seraphim家族吧
关注:
3,266
贴子:
35,797
看贴
图片
吧主推荐
视频
游戏
12
回复贴,共
1
页
<<返回seraphim家族吧
>0< 加载中...
分享一下计算机行业的内情
取消只看楼主
收藏
回复
白泽小白白
中级粉丝
2
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
头发日渐莫得,莫得啦~~~
白泽小白白
中级粉丝
2
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
分享一些有用的内容,大家可以瞅瞅
白泽小白白
中级粉丝
2
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
命令历史
以:和/开头的命令都有历史纪录,可以首先键入:或/然后按上下箭头来选择某个历史命令。
白泽小白白
中级粉丝
2
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
启动vim
在命令行窗口中输入以下命令即可
vim 直接启动vim
vim filename 打开vim并创建名为filename的文件
白泽小白白
中级粉丝
2
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
文件命令
打开单个文件
vim file
同时打开多个文件
vim file1 file2 file3 ...
在vim窗口中打开一个新文件
:open file
在新窗口中打开文件
:split file
切换到下一个文件
:bn
切换到上一个文件
:bp
查看当前打开的文件列表,当前正在编辑的文件会用[]括起来。
:args
打开远程文件,比如ftp或者share folder
:e
ftp://192.168.10.76/abc.txt
:e \\qadrive\test\1.txt
白泽小白白
中级粉丝
2
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
vim的模式
正常模式(按Esc或Ctrl+[进入) 左下角显示文件名或为空
插入模式(按i键进入) 左下角显示--INSERT--
可视模式(不知道如何进入) 左下角显示--VISUAL--
白泽小白白
中级粉丝
2
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
导航命令
% 括号匹配
白泽小白白
中级粉丝
2
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
插入命令
i 在当前位置生前插入
I 在当前行首插入
a 在当前位置后插入
A 在当前行尾插入
o 在当前行之后插入一行
O 在当前行之前插入一行
白泽小白白
中级粉丝
2
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
替换命令
ra 将当前字符替换为a,当期字符即光标所在字符。
s/old/new/ 用old替换new,替换当前行的第一个匹配
s/old/new/g 用old替换new,替换当前行的所有匹配
%s/old/new/ 用old替换new,替换所有行的第一个匹配
%s/old/new/g 用old替换new,替换整个文件的所有匹配
:10,20 s/^/ /g 在第10行知第20行每行前面加四个空格,用于缩进。
ddp 交换光标所在行和其下紧邻的一行。
白泽小白白
中级粉丝
2
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
最近想在工作相关的项目上做技术改进,需要全而准的车型数据,寻寻觅觅而不得,所以就只能自己动手丰衣足食,到网上获(窃)得(取)数据了。
汽车之家是大家公认的数据做的比较好的汽车网站,所以就用它吧。(感谢汽车之家的大大们这么用心地做数据,仰慕)
俗话说的好,“十爬虫九python”,作为一只java狗,我颤颤巍巍地拿起了python想要感受一下scrapy的强大。。。
在写这个爬虫之前,我用urllib2,BeautifulSoup写了一个版本,不过效率太差,而且还有内存溢出的问题,作为python小白感觉很无力,所以用scrapy才是正道。
嗯,开搞。
白泽小白白
中级粉丝
2
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
准备工作
安装python,版本是2.7
安装scrapy模块, 版本是1.4.0
白泽小白白
中级粉丝
2
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
初始化工程
scrapy工程的初始化很方便,在shell中的指定目录下执行scrapy start startproject 项目名称,就自动化生成了。
执行这步的时候遇到了一个问题,抛出了异常"TLSVersion.TLSv1_1: SSL.OP_NO_TLSv1_1",解决方法是执行sudo pip install twisted==13.1.0,应该是依赖库版本不兼容。
白泽小白白
中级粉丝
2
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
目录结构
工程初始化后,scrapy中的各个元素就被构建好了,不过构建出来的是一副空壳,需要我们往里边写入我们的爬虫逻辑。
初始化后的目录结构是这样的:
spiders:爬虫目录,爬虫的爬取逻辑就放在个目录下边
items.py:数据实体类,在这里定义我们爬到的数据结构
middlewares.py:爬虫中间件(我自己翻译的哈),在这里定义爬取前、爬取后需要处理的逻辑
pipelines.py:数据管道,爬取后的数据实体会经过数据管道的处理
settings.py:配置文件,可以在这里配置爬虫的爬取速度,配置中间件、管道是否开启和先后顺序,配置数据输出的格式等。
了解过这些文件的作用后就可以开始写爬虫了。
登录百度账号
扫二维码下载贴吧客户端
下载贴吧APP
看高清直播、视频!
贴吧页面意见反馈
违规贴吧举报反馈通道
贴吧违规信息处理公示