Why?
学习资料:
- 我的爬虫教学代码
其实你身边到处都是爬虫的产物, 比如说搜索引擎 (Google, 百度), 他们能为你提供这么多搜索结果, 也都是因为它们爬了很多信息, 然后展示给你. 再来说一些商业爬虫, 比如爬爬淘宝的同类商品的价格信息, 好为自己的商品挑选合适的价格. 爬虫的用途很多很多, 如果你搞机器学习, 爬虫就是你获取数据的一种途径, 网上的信息成百上千, 只要你懂爬虫, 你都能轻松获取.
我做过的一些有趣的爬虫 ¶
直接开始教学太没意思了, 不如先来看看我做过的一些爬虫吧. 我有 Github 的代码库, 里面有很多机器学习的教学代码 (爬虫的教学代码也在这里哦). 为了对比我的代码库质量好坏. 通过这一节 内容的知识, 我爬取了 Github 上分类为 Machine-learning 的 Python 库, 然后整理了数据, 并可视化了一些潜在关系, 比如 fork (被下载)数 和 star (被点赞)数的关系. 放个视频给大家看看结果.
图片结果可以在这里看到:
另外一个有意思的是, 我现在住在悉尼, 悉尼的租房价格可贵了, 为了了解每个区的整体价格, 方便确定自己将要在哪里租房. 通过这一节 和 这一节内容的知识, 我做了个爬虫帮我爬取著名华人住房社区-今日悉尼 的租房价格. 注意澳洲的租房一般是以周计算, 单位是澳刀, 我给大家展示一下结果的前半部分, 因为图太长了, 后半部分请在这里查看.
为什么做这个教程 ¶
这个教程提供了你一次入门的机会, 当然网上还有很多很好的入门教程, 比如:
- 崔庆才 的Python爬虫学习系列教程
- 知乎问答中的各种推荐
- 孔淼 的一看就明白的爬虫入门讲解
这些都是非常好的参考资料, 你的学习请不要只限于一个网站. 因为像机器学习一样, 爬虫也囊括的东西绝非不止一点点. 而你为什么要看看我的爬虫教程呢? 因为我只关注基础, 我认为入门是最重要的, 能帮你成功引上路子, 我想你会轻松很多. 而且搭配视频讲解的形式, 也会更加容易理解. 是为初学者定制的. 如果你已经入过门, 想着如何商业化爬虫, 这个教程应该不能满足你的需求了.
当我第一次接触爬虫的时候, 其实很陌生, 完全不知道从何开始. 在网上自己搜一些介绍, 但是他们的介绍都太笼统了, 给你丢几个关键词, 让你自己解决. 当时我就懵逼了, 看着那些关键词 (requests, urllib, beautifulsoup, scrapy) 不知道从何下手, 我估计你也会有这种感觉. 当时, 我花了大把的精力, 想弄懂这些东西和爬虫的关系. 而且分清如果只想入门, 我们需要掌握哪些? 毕竟商业化和入门还是有很大不同的. 有些关键词或者模块是为了商业化而用的. 所以我花了很多时间, 整理网上的这些信息. 总结出一条入门爬虫的便捷之路.
课程介绍 ¶
这系列教程按照上面的逻辑来教会你爬虫, 我们会从网页的基本结构开始讲述, 慢慢使用一些简单的工具, 做一些简单的爬虫. 还会有一些小练习, 让你爬爬真正的互联网. 下载美图, 逛逛百度百科, 全网爬取等等. 当你懂得了爬虫的概念, 我们在深入一些, 谈谈如何加速你那和蠕虫(爬的慢)一样的爬虫, 把它升级为一只小飞虫(多进程,异步爬取). 当然这些内容都不会特别深入, 重点是把你带入门. 但是我会在每节内容里加一些链接, 提供给想要深入了解的朋友们.
下次我们就正式开始学习爬虫啦.
相关教程
分享到:
如果你觉得这篇文章或视频对你的学习很有帮助, 请你也分享它, 让它能再次帮助到更多的需要学习的人.
UnityTutorial没有正式的经济来源, 如果你也想支持 UnityTutorial 并看到更好的教学内容, 赞助他一点点, 作为鼓励他继续开源的动力.