分类:: Python

0

网络爬虫原理简析

最近需要给一些新来的同学讲一讲爬虫相关的知识,决定写一个简单的入门系列教程吧。会从基础到进阶逐渐加深,并结合一些常见的网站给出爬虫的实战教程。下面主要从六个方面来介绍爬虫的基本原理以及进行爬虫实战所遵循的基本思路。 爬虫是什么爬虫是什么?根据维基百科的定义,网络爬虫也叫网络蜘蛛(Web Spider),是一种用来自动浏览万维网的网络机器人(Web Robot)。本质上就是一些根据特定的规则访问万

0

Python中对象转JSON问题

这篇博客解决的问题主要是xxx is not JSON serializable,这个问题是由于Python中对象不能够直接转化为JSON对象导致的。按照在Java中的开发经验,这个对象只要声明了各个属性应该可以直接转化的,但是Python中的JSON并不认同这一套。错误如下图所示: 在网上着了很多解决方案,大多数是建议将其转化为list对象,但是这里还有另外一种解决方法,就是直接指定JSON序

0

Crontab执行脚本失效原因分析

近期需要在服务器上跑一个python脚本,但是发现单独使用python命令去调用这个脚本是可以的,但是一旦加入到定时任务中就不行了。找了很多原因,现总结如下。先给出我的运行时脚本内容和定时任务: 12#!/bin/bash/bin/echo "Hello World!">>/root/hello.txt crontab -e编辑定时任务,本文的定时任务为每分钟执行一次: 1* * *

0

利用Tesseract OCR引擎识别验证码

最近研究了一下验证码识别的技术,基本上都是在做图像的识别,具体一点来说就是文字的识别。比较流行的就是使用Google的Tesseract OCR引擎来做支撑,识别图像中的文字。本文主要讲解如何利用Tesseract OCR识别最简单的验证码和文章内容。 安装Tesseract OCR引擎关于Windows下如何安装Tesseract OCR引擎的文章实在是太多了,我就不赘述了,这里重点讲一下如何在

0

解决Python3不能导入pip3安装包问题

最近要跑一个机器学习的demo,按照要求使用pip3命令安装好了相关的模块,结果出现了一个重大的问题,就是使用python3命令导入相关模块的时候直接出现了一个很尴尬的问题,无法查找到该模块。如下: 12345678$ python3Python 3.6.3 (v3.6.3:2c5fed86e0, Oct 3 2017, 00:32:08) [GCC 4.2.1 (Apple Inc. bui

0

MacOS为Python3安装OpenCV3

说到OpenCV,大家也许并不陌生,就是一个非常强大的库,主要用于面部识别,物体识别,边缘检测以及图像处理等等很多方面。本文呢,主要就是告诉大家如何在macOS下面安装好OpenCV,因为国内的大多数博客都是在介绍如何在Windows下安装。 安装Homebrew [已安装请跳过]官方提供的方式如下: 1$ /usr/bin/ruby -e "$(curl -fsSL https://raw.g

0

[转]实用Python开源爬虫项目列表

WechatSogou [1] – 微信公众号爬虫基于搜狗微信搜索的微信公众号爬虫接口,可以扩展成基于搜狗搜索的爬虫,返回结果是列表,每一项均是公众号具体信息字典。 github地址:https://github.com/Chyroc/WechatSogou DouBanSpider [2] – 豆瓣读书爬虫可以爬下豆瓣读书标签下的所有图书,按评分排名依次存储,存储到Excel中,可方便大家筛选

0

macOS下pip3安装scrapy错误

一直比较依赖IDE,是一个工具控,因为好的工具能提升工作的效率。但是今天发现PyCharm有一个设置把我给坑了(咋不说你自己不小心呢?)。就是使用PyCharm安装Python的第三方依赖包的时候发生了一个神奇的事情。正如标题所说,安装scrapy的标准做法是: 1pip3 install scrapy 但是我使用PyCharm直接安装的,发现并不能像官网那样直接使用scrapy命令来创建项目。

0

PEP8 Python编码规范

决定开始Python之路了,利用业余时间,争取更深入学习Python。编程语言不是艺术,而是工作或者说是工具,所以整理并遵循一套编码规范是十分必要的。所以今天下午我根据PEP8整理了一份,以后都照此编码了,还会持续更新。 PEP8 Python编码规范一 代码编排 缩进。4个空格的缩进(编辑器都可以完成此功能),不使用Tap,更不能混合使用Tap和空格。 每行最大长度79,换行可以使用反斜杠,最好