[转]实用Python开源爬虫项目列表
WechatSogou [1] – 微信公众号爬虫基于搜狗微信搜索的微信公众号爬虫接口,可以扩展成基于搜狗搜索的爬虫,返回结果是列表,每一项均是公众号具体信息字典。 github地址:https://github.com/Chyroc/WechatSogou DouBanSpider [2] – 豆瓣读书爬虫可以爬下豆瓣读书标签下的所有图书,按评分排名依次存储,存储到Excel中,可方便大家筛选
WechatSogou [1] – 微信公众号爬虫基于搜狗微信搜索的微信公众号爬虫接口,可以扩展成基于搜狗搜索的爬虫,返回结果是列表,每一项均是公众号具体信息字典。 github地址:https://github.com/Chyroc/WechatSogou DouBanSpider [2] – 豆瓣读书爬虫可以爬下豆瓣读书标签下的所有图书,按评分排名依次存储,存储到Excel中,可方便大家筛选
这一段时间突然想起来一件非常关键的事情,就是每次运行程序的时候模型都是重复训练的。试想一下,如果数据集非常庞大的时候,训练的时间将会被极大的放大,这对于系统来说是不可接受的。我们相有没有一种方式能够很快速地使用模型呢?答案是肯定的。 Weka训练模型保存可以看到前面不管是使用J48决策树也好,还是Kmeans也好,都是一次性的模型训练构建和使用,下一次启动程序的时候一样还是要重新训练,非常浪费时间
装饰者模式包装一个对象以提供新的行为。文章地址:https://qinjiangbo.com/design-pattern-decoration.html 状态模式封装基于状态的行为,并且利用委托来实现各种状态之间的切换。文章地址:https://qinjiangbo.com/design-pattern-state.html 迭代器模式提供一种遍历对象却又不暴露它们内部实现的方法。文章地址:h
什么是模板方法模式模板方法模式(Template Method Pattern)在一个方法中定义一个算法的骨架,而将一些步骤延迟到子类中。模板方法使得子类可以在不改变算法接口的情况下,重新定义算法的某些步骤。 理解模板方法模式这个模式是用来创建一个算法的模板的。什么是模板呢?其实模板就是一个方法,只不过这个方法可以有很多不同的实现方法而已。更具体地说,这个方法将算法定义成一系列步骤,其中的任何步骤
我们前一篇文章已经说明了什么是代理模式,本文就谈谈Java中的三种代理模式。它们分别是静态代理,JDK动态代理,以及Cglib动态代理。 静态代理所谓静态代理,就是经典的代理模式,一个代理者需要对应一个被代理者,如下图所示: 不过缺点也很明显,就是不够灵活,如果需要被代理的对象数量一增加,对于编写代理类的同学来说无疑是灾难。下面给出一个具体的例子: 代理接口类 123456789package
什么是代理模式代理模式(Proxy Design Pattern)为另一个对象提供一个替身或占位符以控制对这个对象的访问。 理解代理模式代理模式所要解决的问题其实是要控制对某一个对象的访问,这句话怎么理解呢?就好比生活中我们需要去做某些事情,比如买房,出国旅游等,由于我们对买房,出国旅游的相关办理手续不是很熟悉,所以我们希望找一个人帮助我们去解决这个事情。委托他代理我们去找相关的机构办理相关的业务
性能度量(performance measure)反映了任务需求,在对比不同模型的能力时,使用不同的性能度量往往会导致不同的评判结果;这意味着模型的“好坏”是相对的,什么样的模型是好的,不仅仅取决于算法和数据,还决定于任务需求。 这里就不具体展开啦,因为我也才刚开始学习,所以就从查准率、查全率与F1来说吧。错误率和精度虽常用,但是并不能满足所有的任务需求。 查准率、查全率从《机器学习》一书中引用的
这篇文章的信息量有点多,因为需要从这一点衍生出不少容易踩的坑。先说说标题中的问题,主要是使用了Nginx做反向代理服务器,然后后端Tomcat服务器无法获取用户真实的IP地址,使用httpServletRequest.getRemoteAddr()一直都是127.0.0.1。我们先来说一说为什么是这样? 为什么getRemoteAddr()一直是127.0.0.1?首先需要明白整体的架构图,如下
Nginx作为一款性能非常高的Web服务器,广泛地应用于各大网站的后台。博主的毕设研究项目也使用了Nginx做反向代理,但是网站的首页访问速度非常慢,因此需要进一步开发Nginx的功能,于是就有了本文利用Gzip模块加速了。 Nginx配置使用Gzip压缩页面的时候,需要在http配置区域配置。例子如下: 123456789101112http { # 添加Gzip压缩功能
前两天完成了Quartz和Spring的整合,见《Spring与Quartz整合实践》,但是当时给出的例子中并没有使用Spring的Service来实现一些功能,今天调试的时候问题就出现了。Quartz中的Job居然无法识别Spring的Service Bean对象?! 在各大论坛找了很久,发现一点问题了。原因是Job类是由Quartz的Job工厂来加载的,而在Spring中,这个Job工厂加载的