晨星LL提示您:看后求收藏(吾看中文5kzw.net),接着再看更方便。
爬围脖上的博文?
爬贴吧的帖子?
好像挺无聊的。
关键是爬下来的数据拿在手上没用,多了连放的地方都没有。
忽然,他心中一动,不知怎么的就回忆起了每次回家痛苦的抢票经历。倒不是因为他电脑卡,而是因为铁道部官网的ui设计实在是太反人类了。
“用爬虫技术爬取12306网站的各车站、车次、余票数据信息……这个好像可以搞啊。”
一想到这里,陆舟也不再磨蹭了,立刻开始干活。
毕竟作为python语言的一种典型运用范例,爬虫程序的模板在书中都是有提到的,而且针对不同种情况,书中还针对算法进行了不同程度的改良。
当然了,12306毕竟不是一般BBS论坛,把这个作为初学者的练习目标,还是有不小难度的。
不过也仅仅是不小而已,对于已经吃透了整本书的陆学霸来说,问题却是不大。爬虫本身并没有太高的技术难度,不到30行代码就搞定了整个程序,完美运行无bug。
然后紧接着就是抓取了。
将网站的url复制在代码后面,陆舟选择运行,并且将数据生成表格,导入到预先建好的文件夹中。