利用tesseract.js实现OCR

最近做了关于OCR的一个研究和学习，发现谷歌的OCR框架已经开始支持JavaScript了，叫做Tesseract.js，很是惊奇，于是乎决定好好体验一把。安装Tesseract.js官方文档上说其实安装的过程非常简单，就是在你的JS中引入下面一段代码： 1<script src='https://cdn.rawgit.com/naptha/tesseract.js/1.0.10/dist

2017

0

数据科学机器学习

2017-12-28

Weka机器学习实战之模型存储与读取

这一段时间突然想起来一件非常关键的事情，就是每次运行程序的时候模型都是重复训练的。试想一下，如果数据集非常庞大的时候，训练的时间将会被极大的放大，这对于系统来说是不可接受的。我们相有没有一种方式能够很快速地使用模型呢？答案是肯定的。 Weka训练模型保存可以看到前面不管是使用J48决策树也好，还是Kmeans也好，都是一次性的模型训练构建和使用，下一次启动程序的时候一样还是要重新训练，非常浪费时间

0

数据科学机器学习

2017-12-18

Weka机器学习实战之性能度量

性能度量(performance measure)反映了任务需求，在对比不同模型的能力时，使用不同的性能度量往往会导致不同的评判结果；这意味着模型的“好坏”是相对的，什么样的模型是好的，不仅仅取决于算法和数据，还决定于任务需求。这里就不具体展开啦，因为我也才刚开始学习，所以就从查准率、查全率与F1来说吧。错误率和精度虽常用，但是并不能满足所有的任务需求。查准率、查全率从《机器学习》一书中引用的

0

数据科学机器学习

2017-12-04

Weka机器学习实战之决策树

之前读了周志华的《机器学习》，学习了决策树这一章的相关内容，觉得收获很大。尤其是作者提出的这个数据集，以它为例进行了非常精彩的论述。本文决定也采用《机器学习》书上的例子—-西瓜数据集。数据集介绍西瓜数据集是作者自己独创的一个数据集，也是书的封面插图。数据集可以描述如下：训练集12345678910青绿,蜷缩,浊响,清晰,凹陷,硬滑,是乌黑,蜷缩,沉闷,清晰,凹陷,硬滑,是乌黑,蜷缩,浊响,清晰

0

数据科学机器学习

2017-12-02

Weka机器学习实战之KMeans

本文重点讲述如何使用Weka API中的Kmeans算法进行实践。这一篇是所有机器学习文章里面的第一篇，因此选择的是Kmeans算法来进行实践。废话不多说，开始吧！实践环境这里的环境主要是介绍使用的Maven包，pom文件如下： 123456789101112<dependencies> <dependency> <groupId>nz.a

0

数据科学机器学习

2017-11-28

Weka数据集文件格式ARFF

开始机器学习相关的探索啦！作为一名Java程序员，想学习机器学习相关的技术，那么如何入手呢？有很多选择的，Java也是机器学习非常热门的语言之一，虽然Python是老大。博主决定从Weka入手，逐渐熟习机器学习常用的算法，然后再学习SparkMLLib等。我认为如果想在机器学习领域继续深挖，那么Python的学习是非常有必要的，因为现在很多非常前沿的机器学习相关技术都是先在Python的平台上发

2016

0

数据科学机器学习

2016-10-06

[转]机器学习相关视频

原文地址： http://liliphd.iteye.com/blog/1929358 近日，在网易公开课视频网站上看完了《机器学习》课程视频，现做个学后感，也叫观后感吧。学习时间从2013年7月26日星期五开始，在网易公开课视频网站上，观看由斯坦福大学Andrew Ng教授主讲的计算机系课程（编号CS229）《机器学习》（网址http://v.163.com/special/opencou

DON'T BE THE SAME, BE BETTER!

分类：: 机器学习

利用tesseract.js实现OCR

Weka机器学习实战之模型存储与读取

Weka机器学习实战之性能度量

Weka机器学习实战之决策树

Weka机器学习实战之KMeans

Weka数据集文件格式ARFF

[转]机器学习相关视频