test for pic

resource

一个有意思的网站,具体需要仔细看看

 

http://iv.slis.indiana.edu/lm/index.html

 

ubuntu+wine+endnote

ubuntu下安装了Endnote,结果文献里的中文无法正常显示,乱码,甚至方块,group name也是无法显示,黑乎乎一片。

解决方法:

(1)发现,原来我的wine安装后配置程序的对话框中文都是方块,由于我没有拷贝中文字体到ubuntu下,所以直截了当删除注册表中的键值。

 

HKEY_LOCAL_MACHINE\Software\Microsoft\Windows NT\CurrentVersion\FontSubstitutes\MS Shell Dlg

HKEY_LOCAL_MACHINE\Software\Microsoft\Windows NT\CurrentVersion\FontSubstitutes\MS Shell Dlg2

wine的中文字体好了,但是endnote仍然不行

(2)将endnote中的edit->preference中的display font全都改为中文字体

文献的label显示好了,但是group name和文献内部字体仍然不行。

(3)将windows xp中的Riched20.dll拷贝到.wine/dosdevices/c:/Program Files/EndNote X3下,然后在wine配置中将riched20.dll替换,改为“内建优于原装”,OK.

 

useful things

cleaning website

http://web.tagus.ist.utl.pt/~helena.galhardas/cleaning.html

useful things

a data set about measured data in real world in time series.

http://ilikai.soest.hawaii.edu/uhslc/datai.html

vim+python

something zz from http://www.cnblogs.com/renrenqq/archive/2010/09/09/1813669.html

最近写python程序处理数据,发现还是vim好用,再说我的手指已经习惯了vim了。

于是按照上述网址配置,没有全部选择,只选用了其中的一部分。

(1)下载pydiction,解压后有4个文件,拷贝python_pydiction.vim和complete-dict到ftplugin目录,修改_vimrc

 

"Pydiction
let g:pydiction_location = 'C:\Program Files\Vim\vim73\ftplugin\complete-dict

 

(2)下载CTAGS,并解压到一个path路径能找到的地方。ctags -R可以手动对当前文件夹建立tags文件

(3)下载TagList,解压缩后是doc和plugin和两个目录,把这两个目录拷贝到你的Vim安装目录,配置

 

"TagList
let Tlist_Show_One_File=1
let Tlist_Exit_OnlyWindow=1

 

set tags= 可以指定tags

然后在Vim中执行:Tlist就可以打开TagList的窗口了

(4)下载winmanager,如上一个一样拷贝,配置

 

"WinManager
let g:winManagerWindowLayout='FileExplorer|TagList'
nmap wm :WMToggle<cr>

(5)下载minibufexploer,拷贝,配置

 

"MiniBufExplorer
let g:miniBufExplMapWindowNavVim = 1 
let g:miniBufExplMapWindowNavArrows = 1 
let g:miniBufExplMapCTabSwitchBufs = 1 
let g:miniBufExplModSelTarget = 1

 

 

data store

exp needs real life data.

Search over the Internet.

(1)collected by me

世界银行公开数据 http://data.worldbank.org.cn/catalog
UCI(Machine Learning Repository) http://archive.ics.uci.edu/ml/index.html
DISC(Data & Information Services Center) http://www.disc.wisc.edu/bigsources.html
UCI KDD Archive http://kdd.ics.uci.edu/

(2)zz from http://www.kdnuggets.com/datasets/index.html

 

Datasets for Data Mining

Data Visualization and Exploration Sites

Data repositories

(3)zz from http://www.360doc.com/content/07/0517/17/15897_505405.shtml

1、气候监测数据集 http://cdiac.ornl.gov/ftp/ndp026b

2、几个实用的测试数据集下载的网站

http://www.cs.toronto.edu/~roweis/data.html
http://www.cs.toronto.edu/~roweis/data.html
http://kdd.ics.uci.edu/summary.task.type.html
http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-20/www/data/
http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-11/www/wwkb/
http://www.phys.uni.torun.pl/~duch/software.html
在下面的网址可以找到reuters数据集http://www.research.att.com/~lewis/reuters21578.html

以下网址上有各种数据集:
http://kdd.ics.uci.edu/summary.data.type.html

进行文本分类,还有一个数据集是可以用的,即rainbow的数据集
http://www-2.cs.cmu.edu/afs/cs/project/theo-11/www/naive-bayes.html

3、找了很多测试数据集,写论文的同志们肯定需要的,至少能用来检验算法的效果
可能有一些不能访问,但是总有能访问的吧:

UCI收集的机器学习数据集
ftp://pami.sjtu.edu.cn/
http://www.ics.uci.edu/~mlearn//MLRepository.htm

statlib 
http://liama.ia.ac.cn/SCILAB/scilabindexgb.htm
http://lib.stat.cmu.edu/

样本数据库
http://kdd.ics.uci.edu/
http://www.ics.uci.edu/~mlearn/MLRepository.html

关于基金的数据挖掘的网站
http://www.gotofund.com/index.asp

http://lans.ece.utexas.edu/~strehl/

reuters数据集
http://www.research.att.com/~lewis/reuters21578.html

各种数据集:
http://kdd.ics.uci.edu/summary.data.type.html
http://www.mlnet.org/cgi-bin/mlnetois.pl/?File=datasets.html
http://lib.stat.cmu.edu/datasets/
http://dctc.sjtu.edu.cn/adaptive/datasets/ 
http://fimi.cs.helsinki.fi/data/
http://www.almaden.ibm.com/software/quest/Resources/index.shtml
http://miles.cnuce.cnr.it/~palmeri/datam/DCI/

进行文本分类&WEB
http://www-2.cs.cmu.edu/afs/cs/project/theo-11/www/naive-bayes.html

http://www.w3.org/TR/WD-logfile-960221.html
http://www.w3.org/Daemon/User/Config/Logging.html#AccessLog
http://www.w3.org/1998/11/05/WC-workshop/Papers/bala2.html
http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-11/www/wwkb/
http://www.web-caching.com/traces-logs.html
http://www-2.cs.cmu.edu/webkb
http://www.cs.auc.dk/research/DP/tdb/TimeCenter/TimeCenterPublications/TR-75.pdf
http://www.cs.cornell.edu/projects/kddcup/index.html


时间序列数据的网址
http://www.stat.wisc.edu/~reinsel/bjr-data/

apriori算法的测试数据
http://www.almaden.ibm.com/cs/quest/syndata.html

数据生成器的链接
http://www.cse.cuhk.edu.hk/~kdd/data_collection.html
http://www.almaden.ibm.com/cs/quest/syndata.html


关联:
http://flow.dl.sourceforge.net/sourceforge/weka/regression-datasets.jar
http://www.almaden.ibm.com/software/quest/Resources/datasets/syndata.html#assocSynData

WEKA:
http://flow.dl.sourceforge.net/sourceforge/weka/regression-datasets.jar
1。A jarfile containing 37 classification problems, originally obtained from the UCI repository
http://prdownloads.sourceforge.net/weka/datasets-UCI.jar
2。A jarfile containing 37 regression problems, obtained from various sources
http://prdownloads.sourceforge.net/weka/datasets-numeric.jar
3。A jarfile containing 30 regression datasets collected by Luis Torgo
http://prdownloads.sourceforge.net/weka/regression-datasets.jar

癌症基因:
http://www.broad.mit.edu/cgi-bin/cancer/datasets.cgi

金融数据:
http://lisp.vse.cz/pkdd99/Challenge/chall.htm

 

另一个人提供的
http://www.cs.toronto.edu/~roweis/data.html
http://kdd.ics.uci.edu/summary.task.type.html
http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-20/www/data/
http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-11/www/wwkb/
http://www.phys.uni.torun.pl/~duch/software.html
在下面的网址可以找到reuters数据集
http://www.research.att.com/~lewis/reuters21578.html

以下网址上有各种数据集:
http://kdd.ics.uci.edu/summary.data.type.html

进行文本分类,还有一个数据集是可以用的,即rainbow的数据集
http://www-2.cs.cmu.edu/afs/cs/project/theo-11/www/naive-bayes.html


Download the Financial Data (~17.5M zipped file, ~67M unzipped data) 
Download the Medical Data (~2M zipped file, ~6M unzipped data)
http://lisp.vse.cz/pkdd99/Challenge/chall.htm


kdnuggets 相关链接数据集(借花献佛了):
http://www.kdnuggets.com/datasets/index.html

你也可以到http://blogger.org.cn/blog/more.asp?name=idmer&id=24017
察看kdnuggets 数据集资源的详细介绍。

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

linux下更改ls命令的颜色

env命令,查看颜色定义

 

LS_COLORS=no=00:fi=00:di=01;34:ln=01;36:pi=40;33:so=01;35:bd=40;33;01:cd=40;33;01:or=01;05;37;41:mi=01;05;37;41:ex=01;32:*.cmd=01;32:*.exe=01;32:*.com=01;32:*.btm=01;32:*.bat=01;32:*.sh=01;32:*.csh=01;32:*.tar=01;31:*.tgz=01;31:*.arj=01;31:*.taz=01;31:*.lzh=01;31:*.zip=01;31:*.z=01;31:*.Z=01;31:*.gz=01;31:*.bz2=01;31:*.bz=01;31:*.tz=01;31:*.rpm=01;31:*.cpio=01;31:*.jpg=01;35:*.gif=01;35:*.bmp=01;35:*.xbm=01;35:*.xpm=01;35:*.png=01;35:*.tif=01;35:
我的系统里是这样的
更改方法
打开.bashrc然后在最后重写这个环境变量
LS_COLORS=no=00:fi=00:di=01;33:ln=01;36:pi=40;33:so=01;35:bd=40;33;01:cd=40;33;01:or=01;05;37;41:mi=01;05;37;41:ex=01;32:*.cmd=01;32:*.exe=01;32:*.com=01;32:*.btm=01;32:*.bat=01;32:*.sh=01;32:*.csh=01;32:*.tar=01;31:*.tgz=01;31:*.arj=01;31:*.taz=01;31:*.lzh=01;31:*.zip=01;31:*.z=01;31:*.Z=01;31:*.gz=01;31:*.bz2=01;31:*.bz=01;31:*.tz=01;31:*.rpm=01;31:*.cpio=01;31:*.jpg=01;35:*.gif=01;35:*.bmp=01;35:*.xbm=01;35:*.xpm=01;35:*.png=01;35:*.tif=01;35:

难看的蓝色就变成黄色了

hadoop tuning

30节点,10GB文件

shuffle性能不好,尝试调优

(1)初始设置:

core-site

 

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<!-- Put site-specific property overrides in this file. -->

<configuration>
        <property>
                <name>fs.default.name</name>
                <value>hdfs://cn50:9000</value>
        </property>
        <property>
                <name>hadoop.tmp.dir</name>
                <value>/workspace/xianmin/tmp</value>
        </property>
</configuration>

hdfs-site

 

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<!-- Put site-specific property overrides in this file. -->

<configuration>
        <property>
                <name>dfs.replication</name>
                <value>3</value>
        </property>
        <property>
                <name>dfs.data.dir</name>
                <value>/workspace/xianmin/data</value>
        </property>
        <property>
                <name>dfs.name.dir</name>
                <value>/workspace/xianmin/name</value>
        </property>
</configuration>

mapred-site

 

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<!-- Put site-specific property overrides in this file. -->

<configuration>
        <property>
                <name>mapred.job.tracker</name>
                <value>cn50:9001</value>
        </property>
        <property>
                <name>mapred.child.java.opts</name>
                <value>-Xmx1000m</value>
        </property>
        <property>
                <name>mapred.tasktracker.map.tasks.maximum</name>
                <value>1</value>
        </property>
        <property>
                <name>mapred.child.ulimit</name>
                <value>1572864</value>
        </property>
</configuration>

执行指定第四查询,结果为:

平均map 47

最坏map 130

shuffle 80

reduce 41

total 234 

(2)将conf/hdfs-site.xml中的dfs.block.size改为,134217728

平均map 47 -》49

最坏map 130 -》148

shuffle 80 -》93

reduce 41 -》29

total 234 -》238

没有本质性的改变,但是仍然保持更改后的dfs.block.size

(3)将conf/hdfs-site.xml中的dfs.namenode.handler.count改为40

平均map 49 -》48

最坏map 148 -》145

shuffle 93 -》75

reduce 29 -》48

total 238 -》233

没有本质性的改变,但是仍然保持更改后的dfs.namenode.handler.count

(4)将conf/core-site.xml中的

 

conf/core-site.xml fs.inmemory.size.mb 200 Larger amount of memory allocated for the in-memory file-system used to merge map-outputs at the reduces.
conf/core-site.xml mapreduce.task.io.sort.factor 100 More streams merged at once while sorting files.
conf/core-site.xml mapreduce.task.io.sort.mb 200 Higher memory-limit while sorting data.
conf/core-site.xml io.file.buffer.size 131072 Size of read/write buffer used in SequenceFiles.

没有格式化重启,运行后中间两个参数分别为,10和100

运行代价为:

平均map 48 -》48,47

最坏map 145 -》84,102

shuffle 75 -》174,97

reduce 48 -》3,46

total 233 -》221,256

参数保留,没有性能改变

(4)将conf/mapred-site.xml中的

mapreduce.map.java.opts=-Xmx1024M

mapreduce.reduce.java.opts=-Xmx1024M

运行代价:

 

平均map 47 -》46

最坏map 84 -》85

shuffle 97 -》163

reduce 46 -》23

total 256 -》225

没有本质改变,保留参数

(5)将conf/mapred-site.xml中的

mapreduce.reduce.shuffle.parallelcopies改为20

未格式化,重启,该参数没有改变,但是性能由于偶然因素提升?再次执行,性能回归

平均map 47 -》47,47

最坏map 85 -》129,83

shuffle 163 -》189,106

reduce 23 -》2,2

total 225 -》147,218

发现是操作错误,忘记更改conf/mapred-site.xml,shit,更改后,不格式化,重启,有效,也证明了不用去改mapred下的文件

性能得到提升。

平均map 47 -》47,45

最坏map 83 -》125,73(偶然)

shuffle 160+ -》130,63

reduce 2 -》3,2

total 218 -》188,172

把mapreduce.reduce.shuffle.parallelcopies改为50,测试性能下降

 

平均map 47 -》47,45-》48,47

最坏map 83 -》125,73(偶然)-》86,93

shuffle 160+ -》130,63-》82,160

reduce 2 -》3,2-》2,2

total 218 -》188,172-》236,211

把mapreduce.reduce.shuffle.parallelcopies重新改为20,性能得到提升,测试20,30,40变化吧

 

平均map 47 -》46-》45-》45,44,44

最坏map 83 -》83-》86-》85,81,68

shuffle 160+ -》84-》136-》130,68,67

reduce 2 -》2-》1-》3,4,2

total 211 -》196-》194-》180,202,182

暂时将该参数设为40

(6)将conf/mapred-site.xml中的mapreduce.jobtracker.handler.count改为20

平均map 46,45

最坏map 84,94

shuffle 96,161

reduce 29,2

total 239,210

暂时保留,虽然性能下降

(7)将conf/mapred-site.xml中的mapred.tasktracker.map.tasks.maximum改为7,也就是CPU核心个数-1

性能提升

平均map 48,46

最坏map 95,95

shuffle 57,60

reduce 22,2

total 133,108

(8)将conf/mapred-site.xml中的mapreduce.jobtracker.handler.count改为10

 

平均map 48,46-》47,46

最坏map 95,95-》91,84

shuffle 57,60-》60,51

reduce 22,2-》6,2

total 133,108-》125,102

(9)将conf/core-site.xml中的io.file.buffer.size改为262144二倍于原来

 

平均map 48,46-》47,46-》44,53,46,46

最坏map 95,95-》91,84-》72,111,84,76

shuffle 57,60-》60,51-》38,76,52,44

reduce 22,2-》6,2-》1,38,2,6

total 133,108-》125,102-》89,153,101,96

决定将该数值再增加为524288

 

平均map -》48,48,45,49,49

最坏map -》86,95,86,133,85

shuffle -》54,1,25,112,51

reduce -》2,2,20,29,3

total -》92,117,162,200,101

再次加倍1048576

 

平均map -》46,48,50

最坏map -》83,95,101

shuffle -》48,1,63

reduce -》7,2,3

total -》107,111,115

再次加倍2097152

 

平均map -》48,45,48

最坏map -》91,107,68

shuffle -》56,10,19

reduce -》8,4,2

total -》122,122,130

决定调回1048576

 

linux清理内存

实验,需要把linux系统的缓存清除,网上找到办法。

echo 3 > /proc/sys/vm/drop_caches

我在系统中用,总是提示没有权限,即使使用sudo。

解决办法,不算是完全解决,但是可以用。

sudo gedit /proc/sys/vm/drop_caches

点击保存,会显示失败,取消然后显示已更改,不知道为什么,文件内容已经更改,且

free -m的结果中buffer等后三项已经清除。

每次需要清除内存的时候都需要如上步骤。