利用tesseract.js实现OCR
最近做了关于OCR的一个研究和学习,发现谷歌的OCR框架已经开始支持JavaScript了,叫做Tesseract.js,很是惊奇,于是乎决定好好体验一把。 安装Tesseract.js官方文档上说其实安装的过程非常简单,就是在你的JS中引入下面一段代码: 1<script src='https://cdn.rawgit.com/naptha/tesseract.js/1.0.10/dist
最近做了关于OCR的一个研究和学习,发现谷歌的OCR框架已经开始支持JavaScript了,叫做Tesseract.js,很是惊奇,于是乎决定好好体验一把。 安装Tesseract.js官方文档上说其实安装的过程非常简单,就是在你的JS中引入下面一段代码: 1<script src='https://cdn.rawgit.com/naptha/tesseract.js/1.0.10/dist
还是最近的这个Java Web项目,在本机运行好好的,一到服务器就出现了中文乱码的问题。虽然感觉很奇怪,但是还是顺着思路一步一步给解决了。解决的思路如下。 查看Java Web项目中接收的中文是否乱码有一个业务逻辑就是要获取浏览器输入的中文,在处理中文输入的地方加上一句输出语句可以看到日志中记录如下: 122018-03-28 11:26:33 [INFO] - org.springframewo
在网上着了一些方法,但是大多都不是很全,这里转载一篇文章,有各种方式的MySQL在CentOS下面的重启方式,推荐。 通过rpm包安装的MySQL12$ service mysqld restart$ /etc/inint.d/mysqld start 从源码包安装的MySQL12345# linux关闭MySQL的命令$ $mysql_dir/bin/mysqladmin -uroot -p s
这一段时间突然想起来一件非常关键的事情,就是每次运行程序的时候模型都是重复训练的。试想一下,如果数据集非常庞大的时候,训练的时间将会被极大的放大,这对于系统来说是不可接受的。我们相有没有一种方式能够很快速地使用模型呢?答案是肯定的。 Weka训练模型保存可以看到前面不管是使用J48决策树也好,还是Kmeans也好,都是一次性的模型训练构建和使用,下一次启动程序的时候一样还是要重新训练,非常浪费时间
性能度量(performance measure)反映了任务需求,在对比不同模型的能力时,使用不同的性能度量往往会导致不同的评判结果;这意味着模型的“好坏”是相对的,什么样的模型是好的,不仅仅取决于算法和数据,还决定于任务需求。 这里就不具体展开啦,因为我也才刚开始学习,所以就从查准率、查全率与F1来说吧。错误率和精度虽常用,但是并不能满足所有的任务需求。 查准率、查全率从《机器学习》一书中引用的
之前读了周志华的《机器学习》,学习了决策树这一章的相关内容,觉得收获很大。尤其是作者提出的这个数据集,以它为例进行了非常精彩的论述。本文决定也采用《机器学习》书上的例子—-西瓜数据集。 数据集介绍西瓜数据集是作者自己独创的一个数据集,也是书的封面插图。数据集可以描述如下: 训练集12345678910青绿,蜷缩,浊响,清晰,凹陷,硬滑,是乌黑,蜷缩,沉闷,清晰,凹陷,硬滑,是乌黑,蜷缩,浊响,清晰
本文重点讲述如何使用Weka API中的Kmeans算法进行实践。这一篇是所有机器学习文章里面的第一篇,因此选择的是Kmeans算法来进行实践。废话不多说,开始吧! 实践环境这里的环境主要是介绍使用的Maven包,pom文件如下: 123456789101112<dependencies> <dependency> <groupId>nz.a
开始机器学习相关的探索啦!作为一名Java程序员,想学习机器学习相关的技术,那么如何入手呢?有很多选择的,Java也是机器学习非常热门的语言之一,虽然Python是老大。博主决定从Weka入手,逐渐熟习机器学习常用的算法,然后再学习SparkMLLib等。我认为如果想在机器学习领域继续深挖,那么Python的学习是非常有必要的,因为现在很多非常前沿的机器学习相关技术都是先在Python的平台上发
今天利用MySQL导入数据的时候发生了一个错误,报错的信息是“MySQL server has gone away”。这个如何解决呢?我先说说我的工具,我导入数据使用的是Navicat Premium 12.0.13,然后MySQL使用的是Homebrew安装的。 写这篇文章目的主要是记录一下这个问题的解决方案,以免以后重蹈覆辙。其实答案很简单,就是调整MySQL一个配置项max_allowed_