分类:: 数据科学

0

Weka机器学习实战之模型存储与读取

这一段时间突然想起来一件非常关键的事情,就是每次运行程序的时候模型都是重复训练的。试想一下,如果数据集非常庞大的时候,训练的时间将会被极大的放大,这对于系统来说是不可接受的。我们相有没有一种方式能够很快速地使用模型呢?答案是肯定的。 Weka训练模型保存可以看到前面不管是使用J48决策树也好,还是Kmeans也好,都是一次性的模型训练构建和使用,下一次启动程序的时候一样还是要重新训练,非常浪费时间

0

Weka机器学习实战之性能度量

性能度量(performance measure)反映了任务需求,在对比不同模型的能力时,使用不同的性能度量往往会导致不同的评判结果;这意味着模型的“好坏”是相对的,什么样的模型是好的,不仅仅取决于算法和数据,还决定于任务需求。 这里就不具体展开啦,因为我也才刚开始学习,所以就从查准率、查全率与F1来说吧。错误率和精度虽常用,但是并不能满足所有的任务需求。 查准率、查全率从《机器学习》一书中引用的

0

Weka机器学习实战之决策树

之前读了周志华的《机器学习》,学习了决策树这一章的相关内容,觉得收获很大。尤其是作者提出的这个数据集,以它为例进行了非常精彩的论述。本文决定也采用《机器学习》书上的例子—西瓜数据集。 数据集介绍西瓜数据集是作者自己独创的一个数据集,也是书的封面插图。数据集可以描述如下: 训练集12345678910青绿,蜷缩,浊响,清晰,凹陷,硬滑,是乌黑,蜷缩,沉闷,清晰,凹陷,硬滑,是乌黑,蜷缩,浊响,清晰,

0

Weka机器学习实战之KMeans

本文重点讲述如何使用Weka API中的Kmeans算法进行实践。这一篇是所有机器学习文章里面的第一篇,因此选择的是Kmeans算法来进行实践。废话不多说,开始吧! 实践环境这里的环境主要是介绍使用的Maven包,pom文件如下: 123456789101112<dependencies> <dependency> <groupId>nz.a

0

Weka数据集文件格式ARFF

开始机器学习相关的探索啦!作为一名Java程序员,想学习机器学习相关的技术,那么如何入手呢?有很多选择的,Java也是机器学习非常热门的语言之一,虽然Python是老大。博主决定从Weka入手,逐渐熟习机器学习常用的算法,然后再学习SparkMLLib等。我认为如果想在机器学习领域继续深挖,那么Python的学习是非常有必要的,因为现在很多非常前沿的机器学习相关技术都是先在Python的平台上发

0

MySQL导入大文件调参

今天利用MySQL导入数据的时候发生了一个错误,报错的信息是“MySQL server has gone away”。这个如何解决呢?我先说说我的工具,我导入数据使用的是Navicat Premium 12.0.13,然后MySQL使用的是Homebrew安装的。 写这篇文章目的主要是记录一下这个问题的解决方案,以免以后重蹈覆辙。其实答案很简单,就是调整MySQL一个配置项max_allowed_

0

高性能MySQL之多版本并发控制MVCC(六)

锁的代价前面一节讲到过死锁,以及事务型数据库中需要经常地检测死锁的问题,提出的对应解决方案就是使用行级锁,将需要锁定的行锁定起来。那么,这里就不得不说到锁的代价了,其实锁定一行的代价还是很高的,因为它对其它事务来说就是在短期内不可用的了,这对数据库的吞吐量来说是极大的损害! 那么有没有什么方法能有效地减少锁的的创建呢?这就是我们接下来要介绍的MVCC啦。MVCC其实是行级锁的一个变种,但是很多情况

0

高性能MySQL之死锁(五)

死锁本文聊一聊事务中的死锁现象。死锁的定义是什么?死锁是指两个或者多个事务在同一个资源上相互占用,并请求锁定对方占用的资源,从而导致恶性循环的现象。当多个事务试图以不同的顺序锁定相同的资源时,就很容易产生死锁。或者是多个事务同时锁定某一个相同的资源时,也非常容易产生死锁哦! StockPrice表实例分析假设现在有两个事务同时针对StockPrice表进行相关的操作,如下: 事务一: 1234ST

0

高性能MySQL之事务隔离级别(四)

事务概念回顾这里再回顾一下事务的概念:事务一组原子性的SQL查询。事务处理系统一般包括四个特性ACID(原子性Atomicity,一致性Consistency,隔离性Isolation以及持久性Durability)。今天重点聊一聊这里面的隔离性Isolation。 隔离级别隔离性远比想象的要复杂很多,因为涉及到系统各个事务之间的数据更新操作可见性。一般来说,隔离级别会分为四种: READ UN

0

高性能MySQL之事务(三)

事务先说说什么是事务?不同的同学对这个概念有很多不同的理解。我以前对事务就有很长时间的不理解,单纯认为事务是一件很复杂的事情,到底多复杂,我也不清楚,总之就是需要处理各种操作的事情。现在给出一个比较准确的定义哈,数据库中的事务就是指一组原子性的SQL查询,或者说一个独立的工作单元。这句话怎么理解呢?你一共要执行一些SQL语句去完成某个操作对吧,但是完成的过程当中,执行到一半的时候,某个语句失败了,