您当前的位置: 首页 > 编程

Kaggle入门——使用scikit-learn解决DigitRecognition有关问题

发布时间：2011-06-30 11:42:50 文章来源：www.iduyao.cn 采编人员：星星草

Kaggle入门——使用scikit-learn解决DigitRecognition问题

@author: wepon

@blog: http://blog.csdn.net/u012162613

1、scikit-learn简介

scikit-learn是一个基于NumPy、SciPy、Matplotlib的开源机器学习工具包，采用Python语言编写，主要涵盖分类、

回归和聚类等算法，例如knn、SVM、逻辑回归、朴素贝叶斯、随机森林、k-means等等诸多算法，官网上代码和文档

都非常不错，对于机器学习开发者来说，是一个使用方便而强大的工具，节省不少开发时间。

scikit-learn官网指南：http://scikit-learn.org/stable/user_guide.html

上一篇文章《大数据竞赛平台—Kaggle入门》我分两部分内容介绍了Kaggle，在第二部分中，我记录了解决Kaggle上的竞赛项目DigitRecognition的整个过程，当时我是用自己写的kNN算法，尽管自己写歌kNN算法并不会花很多时间，但是当我们想尝试更多、更复杂的算法，如果每个算法都自己实现的话，会很浪费时间，这时候scikit-learn就发挥作用了，我们可以直接调用scikit-learn的算法包。当然，对于初学者来说，最好还是在理解了算法的基础上，来调用这些算法包，如果有时间，自己完整地实现一个算法相信会让你对算法掌握地更深入。

OK，话休絮烦，下面进入第二部分。

2、使用scikit-learn解决DigitRecognition

我发现自己很喜欢用DigitRecognition这个问题来练习分类算法，因为足够简单。如果你还不知道DigitRecognition问题是什么，请先简单了解一下：Kaggle DigitRecognition ，在我上一篇文章中也有描述：《大数据竞赛平台—Kaggle入门》。下面我使用scikit-learn中的算法包kNN（k近邻）、SVM（支持向量机）、NB（朴素贝叶斯）来解决这个问题，解决问题的关键步骤有两个：1、处理数据。2、调用算法。

（1）处理数据

这一部分与上一篇文章《大数据竞赛平台—Kaggle入门》中第二部分的数据处理是一样的，本文不打算重复，下面只简单地罗列各个函数及其功能，在本文最后部分也有详细的代码。

def loadTrainData():
    #这个函数从train.csv文件中获取训练样本:trainData、trainLabel
def loadTestData():
    #这个函数从test.csv文件中获取测试样本:testData
def toInt(array):
def nomalizing(array):
    #这两个函数在loadTrainData()和loadTestData()中被调用
    #toInt()将字符串数组转化为整数，nomalizing()归一化整数
def loadTestResult():
    #这个函数加载测试样本的参考label，是为了后面的比较
def saveResult(result,csvName):
    #这个函数将result保存为csv文件，以csvName命名

“处理数据”部分，我们从train.csv、test.csv文件中获取了训练样本的feature、训练样本的label、测试样本的feature，在程序中我们用trainData、trainLabel、testData表示。

（2）调用scikit-learn中的算法

kNN算法

#调用scikit的knn算法包
from sklearn.neighbors import KNeighborsClassifier  
def knnClassify(trainData,trainLabel,testData): 
    knnClf=KNeighborsClassifier()#default:k = 5,defined by yourself:KNeighborsClassifier(n_neighbors=10)
    knnClf.fit(trainData,ravel(trainLabel))
    testLabel=knnClf.predict(testData)
    saveResult(testLabel,'sklearn_knn_Result.csv')
    return testLabel

kNN算法包可以自己设定参数k，默认k=5，上面的comments有说明。

更加详细的使用，推荐上官网查看：http://scikit-learn.org/stable/modules/neighbors.html

SVM算法

#调用scikit的SVM算法包
from sklearn import svm   
def svcClassify(trainData,trainLabel,testData): 
    svcClf=svm.SVC(C=5.0) #default:C=1.0,kernel = 'rbf'. you can try kernel:‘linear’, ‘poly’, ‘rbf’, ‘sigmoid’, ‘precomputed’  
    svcClf.fit(trainData,ravel(trainLabel))
    testLabel=svcClf.predict(testData)
    saveResult(testLabel,'sklearn_SVC_C=5.0_Result.csv')
    return testLabel

SVC()的参数有很多，核函数默认为'rbf'（径向基函数）,C默认为1.0

更加详细的使用，推荐上官网查看：http://scikit-learn.org/stable/modules/svm.html

朴素贝叶斯算法

#调用scikit的朴素贝叶斯算法包,GaussianNB和MultinomialNB
from sklearn.naive_bayes import GaussianNB      #nb for 高斯分布的数据
def GaussianNBClassify(trainData,trainLabel,testData): 
    nbClf=GaussianNB()          
    nbClf.fit(trainData,ravel(trainLabel))
    testLabel=nbClf.predict(testData)
    saveResult(testLabel,'sklearn_GaussianNB_Result.csv')
    return testLabel
    
from sklearn.naive_bayes import MultinomialNB   #nb for 多项式分布的数据    
def MultinomialNBClassify(trainData,trainLabel,testData): 
    nbClf=MultinomialNB(alpha=0.1)      #default alpha=1.0,Setting alpha = 1 is called Laplace smoothing, while alpha < 1 is called Lidstone smoothing.       
    nbClf.fit(trainData,ravel(trainLabel))
    testLabel=nbClf.predict(testData)
    saveResult(testLabel,'sklearn_MultinomialNB_alpha=0.1_Result.csv')
    return testLabel

上面我尝试了两种朴素贝叶斯算法:高斯分布的和多项式分布的。多项式分布的函数有参数alpha可以自设定。

更加详细的使用，推荐上官网查看：http://scikit-learn.org/stable/modules/naive_bayes.html

使用方法总结：

第一步：首先确定使用哪种分类器，这一步可以设置各种参数，比如:

svcClf=svm.SVC(C=5.0)

第二步：接这个分类器要使用哪些训练数据？调用fit方法，比如:

svcClf.fit(trainData,ravel(trainLabel))

fit(X,y)说明：

X: 对应trainData

array-like, shape = [n_samples, n_features]，X是训练样本的特征向量集，n_samples行n_features列，即每个训练样本占一行，每个训练样本有多少特征就有多少列。

y: 对应trainLabel

array-like, shape = [n_samples]，y必须是一个行向量，这也是上面为什么使用numpy.ravel()函数的原因。

第三步：使用分类器预测测试样本，比如：

 testLabel=svcClf.predict(testData)

调用predict方法。

第四步：保存结果，这一步是取决于我们解决问题的要求，因为本文以DigitRecognition为例，所以有：

saveResult(testLabel,'sklearn_SVC_C=5.0_Result.csv')

（3）make a submission

上面基本就是整个开发过程了，下面看一下各个算法的效果，在Kaggle上make a submission

knn算法的效果，准确率95.871%

朴素贝叶斯，alpha=1.0，准确率81.043%

SVM，linear核，准确率93.943%

3、工程文件

CSDN下载：Kaggle 入门-使用scikit-learn解决DigitRecoginition

Github：https://github.com/wepe/Kaggle-Solution

贴一下代码：

#!/usr/bin/python
# -*- coding: utf-8 -*-
"""
Created on Tue Dec 16 21:59:00 2014

@author: wepon

@blog:http://blog.csdn.net/u012162613
"""

from numpy import *
import csv

def toInt(array):
    array=mat(array)
    m,n=shape(array)
    newArray=zeros((m,n))
    for i in xrange(m):
        for j in xrange(n):
                newArray[i,j]=int(array[i,j])
    return newArray
    
def nomalizing(array):
    m,n=shape(array)
    for i in xrange(m):
        for j in xrange(n):
            if array[i,j]!=0:
                array[i,j]=1
    return array
    
def loadTrainData():
    l=[]
    with open('train.csv') as file:
         lines=csv.reader(file)
         for line in lines:
             l.append(line) #42001*785
    l.remove(l[0])
    l=array(l)
    label=l[:,0]
    data=l[:,1:]
    return nomalizing(toInt(data)),toInt(label)  #label 1*42000  data 42000*784
    #return trainData,trainLabel
    
def loadTestData():
    l=[]
    with open('test.csv') as file:
         lines=csv.reader(file)
         for line in lines:
             l.append(line)#28001*784
    l.remove(l[0])
    data=array(l)
    return nomalizing(toInt(data))  #  data 28000*784
    #return testData
    
def loadTestResult():
    l=[]
    with open('knn_benchmark.csv') as file:
         lines=csv.reader(file)
         for line in lines:
             l.append(line)#28001*2
    l.remove(l[0])
    label=array(l)
    return toInt(label[:,1])  #  label 28000*1
    
#result是结果列表 
#csvName是存放结果的csv文件名
def saveResult(result,csvName):
    with open(csvName,'wb') as myFile:    
        myWriter=csv.writer(myFile)
        for i in result:
            tmp=[]
            tmp.append(i)
            myWriter.writerow(tmp)
            
            
#调用scikit的knn算法包
from sklearn.neighbors import KNeighborsClassifier  
def knnClassify(trainData,trainLabel,testData): 
    knnClf=KNeighborsClassifier()#default:k = 5,defined by yourself:KNeighborsClassifier(n_neighbors=10)
    knnClf.fit(trainData,ravel(trainLabel))
    testLabel=knnClf.predict(testData)
    saveResult(testLabel,'sklearn_knn_Result.csv')
    return testLabel
    
#调用scikit的SVM算法包
from sklearn import svm   
def svcClassify(trainData,trainLabel,testData): 
    svcClf=svm.SVC(C=5.0) #default:C=1.0,kernel = 'rbf'. you can try kernel:‘linear’, ‘poly’, ‘rbf’, ‘sigmoid’, ‘precomputed’  
    svcClf.fit(trainData,ravel(trainLabel))
    testLabel=svcClf.predict(testData)
    saveResult(testLabel,'sklearn_SVC_C=5.0_Result.csv')
    return testLabel
    
#调用scikit的朴素贝叶斯算法包,GaussianNB和MultinomialNB
from sklearn.naive_bayes import GaussianNB      #nb for 高斯分布的数据
def GaussianNBClassify(trainData,trainLabel,testData): 
    nbClf=GaussianNB()          
    nbClf.fit(trainData,ravel(trainLabel))
    testLabel=nbClf.predict(testData)
    saveResult(testLabel,'sklearn_GaussianNB_Result.csv')
    return testLabel
    
from sklearn.naive_bayes import MultinomialNB   #nb for 多项式分布的数据    
def MultinomialNBClassify(trainData,trainLabel,testData): 
    nbClf=MultinomialNB(alpha=0.1)      #default alpha=1.0,Setting alpha = 1 is called Laplace smoothing, while alpha < 1 is called Lidstone smoothing.       
    nbClf.fit(trainData,ravel(trainLabel))
    testLabel=nbClf.predict(testData)
    saveResult(testLabel,'sklearn_MultinomialNB_alpha=0.1_Result.csv')
    return testLabel


def digitRecognition():
    trainData,trainLabel=loadTrainData()
    testData=loadTestData()
    #使用不同算法
    result1=knnClassify(trainData,trainLabel,testData)
    result2=svcClassify(trainData,trainLabel,testData)
    result3=GaussianNBClassify(trainData,trainLabel,testData)
    result4=MultinomialNBClassify(trainData,trainLabel,testData)
    
    #将结果与跟给定的knn_benchmark对比,以result1为例
    resultGiven=loadTestResult()
    m,n=shape(testData)
    different=0      #result1中与benchmark不同的label个数，初始化为0
    for i in xrange(m):
        if result1[i]!=resultGiven[0,i]:
            different+=1
    print different

3楼fohho昨天 19:19: 最近也在学这个，中文的资料哪里多一点？

2楼hahabirds昨天 19:15: 学习了

1楼raymond_kwan昨天 19:12: mark一下

上一篇：最容易的视频编码器：基于libx265（编码YUV为H.265）
下一篇：tomcat7和redis的sessoin共享有关问题处理

友情提示：
信息收集于互联网，如果您发现错误或造成侵权，请及时通知本站更正或删除，具体联系方式见页面底部联系我们，谢谢。

其他相似内容：

套接字网络编程札记

套接字网络编程笔记套接字网络编程笔记 1.调用int send( __in SOCKET s, __in const char* buf, __in int len, __in int f...
并发编程中急需谨记的规则(翻)

并发编程中需要谨记的规则(翻) 并发编程中需要谨记的规则最小化临界区 Amdahl定律和Gustafson定律都将并行算法中的...
了解并发编程中的几种并发方式

理解并发编程中的几种并发方式理解并发编程中的几种并发方式时刻谨记并发设计当你设计代码利用多核优势的时候，重...
Dynamics CRM 2011 编程系列(28):应用SQL Server Profiler找表

Dynamics CRM 2011 编程系列(28):使用SQL Server Profiler找表很多时候我们并不能直接从Dynamics CRM系统中轻松的获取我们...
Dynamics CRM 2011 编程系列(27):应用触发器

Dynamics CRM 2011 编程系列(27):使用触发器在Dynamics CRM系统中使用触发器虽然不被官方建议，但却是解决一些疑难需求的有力...
项目总结

项目小结前几天接到一个小的任务。做几个小小的网页。很是晕呀，因为自己以前从未接触过这类的东西，偶尔也是看看看着别人做。自己...
Winform and WPF 其次遍双击快捷方式或应用程序打开原来的应用程序而不新建一个实例[进程通信 1]

Winform and WPF 第二遍双击快捷方式或应用程序打开原来的应用程序而不新建一个实例[进程通信 1] 今天工作忙完之余，总结一些Winfo...
Java 同步形式 (1) —— synchronized

Java 同步方式 (1) —— synchronized 前两篇博客 ArrayList 用法比较和 String 用法比较，介绍过程中都提及到了同步和线程安全的...
Objective-c 种接口（@interface）（类定义）

Objective-c 类接口（@interface）（类定义）在Objective-c中如何定义一个类呢？我们可以使用下面的格式进行表示： @interfac...
SPEEX重采样分析（1）

SPEEX重采样分析（一）简介算法速度快 SIMD（SSE）指令支持低内存高质量该算法是基于最原始的重采样算法： Smith, Julius O. Digi...