useful things

cleaning website

http://web.tagus.ist.utl.pt/~helena.galhardas/cleaning.html

useful things

a data set about measured data in real world in time series.

http://ilikai.soest.hawaii.edu/uhslc/datai.html

data store

exp needs real life data.

Search over the Internet.

(1)collected by me

世界银行公开数据 http://data.worldbank.org.cn/catalog
UCI(Machine Learning Repository) http://archive.ics.uci.edu/ml/index.html
DISC(Data & Information Services Center) http://www.disc.wisc.edu/bigsources.html
UCI KDD Archive http://kdd.ics.uci.edu/

(2)zz from http://www.kdnuggets.com/datasets/index.html

 

Datasets for Data Mining

Data Visualization and Exploration Sites

Data repositories

(3)zz from http://www.360doc.com/content/07/0517/17/15897_505405.shtml

1、气候监测数据集 http://cdiac.ornl.gov/ftp/ndp026b

2、几个实用的测试数据集下载的网站

http://www.cs.toronto.edu/~roweis/data.html
http://www.cs.toronto.edu/~roweis/data.html
http://kdd.ics.uci.edu/summary.task.type.html
http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-20/www/data/
http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-11/www/wwkb/
http://www.phys.uni.torun.pl/~duch/software.html
在下面的网址可以找到reuters数据集http://www.research.att.com/~lewis/reuters21578.html

以下网址上有各种数据集:
http://kdd.ics.uci.edu/summary.data.type.html

进行文本分类,还有一个数据集是可以用的,即rainbow的数据集
http://www-2.cs.cmu.edu/afs/cs/project/theo-11/www/naive-bayes.html

3、找了很多测试数据集,写论文的同志们肯定需要的,至少能用来检验算法的效果
可能有一些不能访问,但是总有能访问的吧:

UCI收集的机器学习数据集
ftp://pami.sjtu.edu.cn/
http://www.ics.uci.edu/~mlearn//MLRepository.htm

statlib 
http://liama.ia.ac.cn/SCILAB/scilabindexgb.htm
http://lib.stat.cmu.edu/

样本数据库
http://kdd.ics.uci.edu/
http://www.ics.uci.edu/~mlearn/MLRepository.html

关于基金的数据挖掘的网站
http://www.gotofund.com/index.asp

http://lans.ece.utexas.edu/~strehl/

reuters数据集
http://www.research.att.com/~lewis/reuters21578.html

各种数据集:
http://kdd.ics.uci.edu/summary.data.type.html
http://www.mlnet.org/cgi-bin/mlnetois.pl/?File=datasets.html
http://lib.stat.cmu.edu/datasets/
http://dctc.sjtu.edu.cn/adaptive/datasets/ 
http://fimi.cs.helsinki.fi/data/
http://www.almaden.ibm.com/software/quest/Resources/index.shtml
http://miles.cnuce.cnr.it/~palmeri/datam/DCI/

进行文本分类&WEB
http://www-2.cs.cmu.edu/afs/cs/project/theo-11/www/naive-bayes.html

http://www.w3.org/TR/WD-logfile-960221.html
http://www.w3.org/Daemon/User/Config/Logging.html#AccessLog
http://www.w3.org/1998/11/05/WC-workshop/Papers/bala2.html
http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-11/www/wwkb/
http://www.web-caching.com/traces-logs.html
http://www-2.cs.cmu.edu/webkb
http://www.cs.auc.dk/research/DP/tdb/TimeCenter/TimeCenterPublications/TR-75.pdf
http://www.cs.cornell.edu/projects/kddcup/index.html


时间序列数据的网址
http://www.stat.wisc.edu/~reinsel/bjr-data/

apriori算法的测试数据
http://www.almaden.ibm.com/cs/quest/syndata.html

数据生成器的链接
http://www.cse.cuhk.edu.hk/~kdd/data_collection.html
http://www.almaden.ibm.com/cs/quest/syndata.html


关联:
http://flow.dl.sourceforge.net/sourceforge/weka/regression-datasets.jar
http://www.almaden.ibm.com/software/quest/Resources/datasets/syndata.html#assocSynData

WEKA:
http://flow.dl.sourceforge.net/sourceforge/weka/regression-datasets.jar
1。A jarfile containing 37 classification problems, originally obtained from the UCI repository
http://prdownloads.sourceforge.net/weka/datasets-UCI.jar
2。A jarfile containing 37 regression problems, obtained from various sources
http://prdownloads.sourceforge.net/weka/datasets-numeric.jar
3。A jarfile containing 30 regression datasets collected by Luis Torgo
http://prdownloads.sourceforge.net/weka/regression-datasets.jar

癌症基因:
http://www.broad.mit.edu/cgi-bin/cancer/datasets.cgi

金融数据:
http://lisp.vse.cz/pkdd99/Challenge/chall.htm

 

另一个人提供的
http://www.cs.toronto.edu/~roweis/data.html
http://kdd.ics.uci.edu/summary.task.type.html
http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-20/www/data/
http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-11/www/wwkb/
http://www.phys.uni.torun.pl/~duch/software.html
在下面的网址可以找到reuters数据集
http://www.research.att.com/~lewis/reuters21578.html

以下网址上有各种数据集:
http://kdd.ics.uci.edu/summary.data.type.html

进行文本分类,还有一个数据集是可以用的,即rainbow的数据集
http://www-2.cs.cmu.edu/afs/cs/project/theo-11/www/naive-bayes.html


Download the Financial Data (~17.5M zipped file, ~67M unzipped data) 
Download the Medical Data (~2M zipped file, ~6M unzipped data)
http://lisp.vse.cz/pkdd99/Challenge/chall.htm


kdnuggets 相关链接数据集(借花献佛了):
http://www.kdnuggets.com/datasets/index.html

你也可以到http://blogger.org.cn/blog/more.asp?name=idmer&id=24017
察看kdnuggets 数据集资源的详细介绍。

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

hadoop tuning

30节点,10GB文件

shuffle性能不好,尝试调优

(1)初始设置:

core-site

 

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<!-- Put site-specific property overrides in this file. -->

<configuration>
        <property>
                <name>fs.default.name</name>
                <value>hdfs://cn50:9000</value>
        </property>
        <property>
                <name>hadoop.tmp.dir</name>
                <value>/workspace/xianmin/tmp</value>
        </property>
</configuration>

hdfs-site

 

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<!-- Put site-specific property overrides in this file. -->

<configuration>
        <property>
                <name>dfs.replication</name>
                <value>3</value>
        </property>
        <property>
                <name>dfs.data.dir</name>
                <value>/workspace/xianmin/data</value>
        </property>
        <property>
                <name>dfs.name.dir</name>
                <value>/workspace/xianmin/name</value>
        </property>
</configuration>

mapred-site

 

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<!-- Put site-specific property overrides in this file. -->

<configuration>
        <property>
                <name>mapred.job.tracker</name>
                <value>cn50:9001</value>
        </property>
        <property>
                <name>mapred.child.java.opts</name>
                <value>-Xmx1000m</value>
        </property>
        <property>
                <name>mapred.tasktracker.map.tasks.maximum</name>
                <value>1</value>
        </property>
        <property>
                <name>mapred.child.ulimit</name>
                <value>1572864</value>
        </property>
</configuration>

执行指定第四查询,结果为:

平均map 47

最坏map 130

shuffle 80

reduce 41

total 234 

(2)将conf/hdfs-site.xml中的dfs.block.size改为,134217728

平均map 47 -》49

最坏map 130 -》148

shuffle 80 -》93

reduce 41 -》29

total 234 -》238

没有本质性的改变,但是仍然保持更改后的dfs.block.size

(3)将conf/hdfs-site.xml中的dfs.namenode.handler.count改为40

平均map 49 -》48

最坏map 148 -》145

shuffle 93 -》75

reduce 29 -》48

total 238 -》233

没有本质性的改变,但是仍然保持更改后的dfs.namenode.handler.count

(4)将conf/core-site.xml中的

 

conf/core-site.xml fs.inmemory.size.mb 200 Larger amount of memory allocated for the in-memory file-system used to merge map-outputs at the reduces.
conf/core-site.xml mapreduce.task.io.sort.factor 100 More streams merged at once while sorting files.
conf/core-site.xml mapreduce.task.io.sort.mb 200 Higher memory-limit while sorting data.
conf/core-site.xml io.file.buffer.size 131072 Size of read/write buffer used in SequenceFiles.

没有格式化重启,运行后中间两个参数分别为,10和100

运行代价为:

平均map 48 -》48,47

最坏map 145 -》84,102

shuffle 75 -》174,97

reduce 48 -》3,46

total 233 -》221,256

参数保留,没有性能改变

(4)将conf/mapred-site.xml中的

mapreduce.map.java.opts=-Xmx1024M

mapreduce.reduce.java.opts=-Xmx1024M

运行代价:

 

平均map 47 -》46

最坏map 84 -》85

shuffle 97 -》163

reduce 46 -》23

total 256 -》225

没有本质改变,保留参数

(5)将conf/mapred-site.xml中的

mapreduce.reduce.shuffle.parallelcopies改为20

未格式化,重启,该参数没有改变,但是性能由于偶然因素提升?再次执行,性能回归

平均map 47 -》47,47

最坏map 85 -》129,83

shuffle 163 -》189,106

reduce 23 -》2,2

total 225 -》147,218

发现是操作错误,忘记更改conf/mapred-site.xml,shit,更改后,不格式化,重启,有效,也证明了不用去改mapred下的文件

性能得到提升。

平均map 47 -》47,45

最坏map 83 -》125,73(偶然)

shuffle 160+ -》130,63

reduce 2 -》3,2

total 218 -》188,172

把mapreduce.reduce.shuffle.parallelcopies改为50,测试性能下降

 

平均map 47 -》47,45-》48,47

最坏map 83 -》125,73(偶然)-》86,93

shuffle 160+ -》130,63-》82,160

reduce 2 -》3,2-》2,2

total 218 -》188,172-》236,211

把mapreduce.reduce.shuffle.parallelcopies重新改为20,性能得到提升,测试20,30,40变化吧

 

平均map 47 -》46-》45-》45,44,44

最坏map 83 -》83-》86-》85,81,68

shuffle 160+ -》84-》136-》130,68,67

reduce 2 -》2-》1-》3,4,2

total 211 -》196-》194-》180,202,182

暂时将该参数设为40

(6)将conf/mapred-site.xml中的mapreduce.jobtracker.handler.count改为20

平均map 46,45

最坏map 84,94

shuffle 96,161

reduce 29,2

total 239,210

暂时保留,虽然性能下降

(7)将conf/mapred-site.xml中的mapred.tasktracker.map.tasks.maximum改为7,也就是CPU核心个数-1

性能提升

平均map 48,46

最坏map 95,95

shuffle 57,60

reduce 22,2

total 133,108

(8)将conf/mapred-site.xml中的mapreduce.jobtracker.handler.count改为10

 

平均map 48,46-》47,46

最坏map 95,95-》91,84

shuffle 57,60-》60,51

reduce 22,2-》6,2

total 133,108-》125,102

(9)将conf/core-site.xml中的io.file.buffer.size改为262144二倍于原来

 

平均map 48,46-》47,46-》44,53,46,46

最坏map 95,95-》91,84-》72,111,84,76

shuffle 57,60-》60,51-》38,76,52,44

reduce 22,2-》6,2-》1,38,2,6

total 133,108-》125,102-》89,153,101,96

决定将该数值再增加为524288

 

平均map -》48,48,45,49,49

最坏map -》86,95,86,133,85

shuffle -》54,1,25,112,51

reduce -》2,2,20,29,3

total -》92,117,162,200,101

再次加倍1048576

 

平均map -》46,48,50

最坏map -》83,95,101

shuffle -》48,1,63

reduce -》7,2,3

total -》107,111,115

再次加倍2097152

 

平均map -》48,45,48

最坏map -》91,107,68

shuffle -》56,10,19

reduce -》8,4,2

total -》122,122,130

决定调回1048576