分类:: 机器学习

0

利用tesseract.js实现OCR

最近做了关于OCR的一个研究和学习,发现谷歌的OCR框架已经开始支持JavaScript了,叫做Tesseract.js,很是惊奇,于是乎决定好好体验一把。 安装Tesseract.js官方文档上说其实安装的过程非常简单,就是在你的JS中引入下面一段代码: 1<script src='https://cdn.rawgit.com/naptha/tesseract.js/1.0.10/dist

0

Weka机器学习实战之模型存储与读取

这一段时间突然想起来一件非常关键的事情,就是每次运行程序的时候模型都是重复训练的。试想一下,如果数据集非常庞大的时候,训练的时间将会被极大的放大,这对于系统来说是不可接受的。我们相有没有一种方式能够很快速地使用模型呢?答案是肯定的。 Weka训练模型保存可以看到前面不管是使用J48决策树也好,还是Kmeans也好,都是一次性的模型训练构建和使用,下一次启动程序的时候一样还是要重新训练,非常浪费时间

0

Weka机器学习实战之性能度量

性能度量(performance measure)反映了任务需求,在对比不同模型的能力时,使用不同的性能度量往往会导致不同的评判结果;这意味着模型的“好坏”是相对的,什么样的模型是好的,不仅仅取决于算法和数据,还决定于任务需求。 这里就不具体展开啦,因为我也才刚开始学习,所以就从查准率、查全率与F1来说吧。错误率和精度虽常用,但是并不能满足所有的任务需求。 查准率、查全率从《机器学习》一书中引用的

0

Weka机器学习实战之决策树

之前读了周志华的《机器学习》,学习了决策树这一章的相关内容,觉得收获很大。尤其是作者提出的这个数据集,以它为例进行了非常精彩的论述。本文决定也采用《机器学习》书上的例子—-西瓜数据集。 数据集介绍西瓜数据集是作者自己独创的一个数据集,也是书的封面插图。数据集可以描述如下: 训练集12345678910青绿,蜷缩,浊响,清晰,凹陷,硬滑,是乌黑,蜷缩,沉闷,清晰,凹陷,硬滑,是乌黑,蜷缩,浊响,清晰

0

Weka机器学习实战之KMeans

本文重点讲述如何使用Weka API中的Kmeans算法进行实践。这一篇是所有机器学习文章里面的第一篇,因此选择的是Kmeans算法来进行实践。废话不多说,开始吧! 实践环境这里的环境主要是介绍使用的Maven包,pom文件如下: 123456789101112<dependencies> <dependency> <groupId>nz.a

0

Weka数据集文件格式ARFF

开始机器学习相关的探索啦!作为一名Java程序员,想学习机器学习相关的技术,那么如何入手呢?有很多选择的,Java也是机器学习非常热门的语言之一,虽然Python是老大。博主决定从Weka入手,逐渐熟习机器学习常用的算法,然后再学习SparkMLLib等。我认为如果想在机器学习领域继续深挖,那么Python的学习是非常有必要的,因为现在很多非常前沿的机器学习相关技术都是先在Python的平台上发

0

[转]机器学习相关视频

原文地址: http://liliphd.iteye.com/blog/1929358 近日,在网易公开课视频网站上看完了《机器学习》课程视频,现做个学后感,也叫观后感吧。 学习时间从2013年7月26日星期五开始,在网易公开课视频网站上,观看由斯坦福大学Andrew Ng教授主讲的计算机系课程(编号CS229)《机器学习》(网址http://v.163.com/special/opencou