主页

0

网络爬虫原理简析

最近需要给一些新来的同学讲一讲爬虫相关的知识,决定写一个简单的入门系列教程吧。会从基础到进阶逐渐加深,并结合一些常见的网站给出爬虫的实战教程。下面主要从六个方面来介绍爬虫的基本原理以及进行爬虫实战所遵循的基本思路。 爬虫是什么爬虫是什么?根据维基百科的定义,网络爬虫也叫网络蜘蛛(Web Spider),是一种用来自动浏览万维网的网络机器人(Web Robot)。本质上就是一些根据特定的规则访问万

0

Python中对象转JSON问题

这篇博客解决的问题主要是xxx is not JSON serializable,这个问题是由于Python中对象不能够直接转化为JSON对象导致的。按照在Java中的开发经验,这个对象只要声明了各个属性应该可以直接转化的,但是Python中的JSON并不认同这一套。错误如下图所示: 在网上着了很多解决方案,大多数是建议将其转化为list对象,但是这里还有另外一种解决方法,就是直接指定JSON序

0

Linux监控进程存活状态

早上起来发现wiki系统挂了,也许是有同学手动将其关闭了,也许是它自己关闭了。查找各种运行日志没有发现任何异常的地方。因此,需要时不时地检查一下wiki系统是否还存活着?如果不是存活的状态,则需要将其重新启动。 进程监控脚本我们知道,查看进程的命令是ps,通常我们更喜欢带上参数,如ps -ef或者是ps -aux。要查找某一个进程的时候,我们需要加上这个进程的特征字符串,比如wiki系统的进程中包

0

Linux系统释放buff/cache内存

一直都没怎么关注buff/cache这个部分,因为平时在服务器上使用的过程中内存是够用的。但是最近在部署应用的时候发现内存已经严重不够用的,只剩100多M,使用top命令一看,buff/cache占用了好多内存,几乎是这个剩余空间的4-5倍。如下所示: 1234567891011121314top - 16:20:24 up 11 days, 11 min, 2 users, load ave

0

Confluence利用Nginx实现https访问

利用Confluence创建了自己的wiki系统以后,觉得通过http访问显得不是很权威,感觉有点假(小绿锁看多了就会这样)。因此,需要动手将wiki系统改造为https加密的系统。 证书申请证书的申请非常简单,需要自己拥有一个域名,然后要在这个域名所在的域名注册中心进行解析,校验通过以后就可以导出证书了。关于这申请部分的详细内容,我建议大家读一读我的这篇文章。《利用FreeSSL升级网站系统到H

0

Nginx内部应用重定向问题解决

由于爬虫小组有很多项目要运行在同一个服务器上,而且大家都想使用80端口,这个时候就需要使用神器Nginx了。关于Nginx的反向代理配置其实网上有很多,但是这里还是有必要仔细说一说本小组的实际情况。 部署项目介绍以反爬虫项目为例,有两个子项目,分别是反爬虫系统和反爬虫后台管理系统,项目如下: 可以看到,这两个项目分别是acs和acsd,一旦Tomcat成功在本地启动,这两个项目对应的接口分别如下

0

Confluence中给团队空间添加成员

最近需要在团队空间的首页展示团队的各个成员信息,在Confluence提供的功能模块中找了好久,都没有找到能够编辑团队成员的功能,因此只能自己进行手工编辑。编辑的步骤如下: 打开团队空间的首页并进行首页的编辑 在最后一个成员的图片后面点击一下,将光标移动到这里 然后在表格的菜单编辑栏寻找并点击此后插入列 在新的列中任意地方进行点击,将光标移动进来 按住Ctl+Shift+A或者是选择菜单栏中的插

0

Confluence配置邮件服务器

配置Confluence的时候踩了很多坑,各种各样的原因都有,现在写这篇博客记录下踩过的这些坑,以供大家参考。在说这些坑之前先说一下如何配置Confluence的邮件服务器,比较简单。 配置Confluence邮件服务器进入配置中心,选择邮件服务器选项,如下图所示。 然后点击增加新的SMTP邮件服务器,如下图 填好对应的字段就可以了,注意区分各个服务器主机名对应的端口号,如果不填好,后面就会踩

0

Confluence导出PDF文件不显示中文

最近自己搭建了一个Confluence服务器,结果发现导出页面为PDF文件的时候,中文全部消失了,其实问题比较简单,就是Confluence默认字体设置的问题,按照下面的方式设置一下就可以了。 其中,simhei.ttf这个字体的可以点击此处下载。