test for pic
resource
一个有意思的网站,具体需要仔细看看
http://iv.slis.indiana.edu/lm/index.html
ubuntu+wine+endnote
ubuntu下安装了Endnote,结果文献里的中文无法正常显示,乱码,甚至方块,group name也是无法显示,黑乎乎一片。
解决方法:
(1)发现,原来我的wine安装后配置程序的对话框中文都是方块,由于我没有拷贝中文字体到ubuntu下,所以直截了当删除注册表中的键值。
HKEY_LOCAL_MACHINE\Software\Microsoft\Windows NT\CurrentVersion\FontSubstitutes\MS Shell Dlg
HKEY_LOCAL_MACHINE\Software\Microsoft\Windows NT\CurrentVersion\FontSubstitutes\MS Shell Dlg2
wine的中文字体好了,但是endnote仍然不行
(2)将endnote中的edit->preference中的display font全都改为中文字体
文献的label显示好了,但是group name和文献内部字体仍然不行。
(3)将windows xp中的Riched20.dll拷贝到.wine/dosdevices/c:/Program Files/EndNote X3下,然后在wine配置中将riched20.dll替换,改为“内建优于原装”,OK.
useful things
cleaning website
useful things
a data set about measured data in real world in time series.
vim+python
something zz from http://www.cnblogs.com/renrenqq/archive/2010/09/09/1813669.html
最近写python程序处理数据,发现还是vim好用,再说我的手指已经习惯了vim了。
于是按照上述网址配置,没有全部选择,只选用了其中的一部分。
(1)下载pydiction,解压后有4个文件,拷贝python_pydiction.vim和complete-dict到ftplugin目录,修改_vimrc
"Pydiction let g:pydiction_location = 'C:\Program Files\Vim\vim73\ftplugin\complete-dict
(2)下载CTAGS,并解压到一个path路径能找到的地方。ctags -R可以手动对当前文件夹建立tags文件
(3)下载TagList,解压缩后是doc和plugin和两个目录,把这两个目录拷贝到你的Vim安装目录,配置
"TagList let Tlist_Show_One_File=1 let Tlist_Exit_OnlyWindow=1
set tags= 可以指定tags
然后在Vim中执行:Tlist就可以打开TagList的窗口了
(4)下载winmanager,如上一个一样拷贝,配置
"WinManager let g:winManagerWindowLayout='FileExplorer|TagList' nmap wm :WMToggle<cr>
(5)下载minibufexploer,拷贝,配置
"MiniBufExplorer let g:miniBufExplMapWindowNavVim = 1 let g:miniBufExplMapWindowNavArrows = 1 let g:miniBufExplMapCTabSwitchBufs = 1 let g:miniBufExplModSelTarget = 1
data store
exp needs real life data.
Search over the Internet.
(1)collected by me
(2)zz from http://www.kdnuggets.com/datasets/index.html
Datasets for Data Mining |
---|
Data Visualization and Exploration Sites
Data repositories
|
(3)zz from http://www.360doc.com/content/07/0517/17/15897_505405.shtml
linux下更改ls命令的颜色
env命令,查看颜色定义
LS_COLORS=no=00:fi=00:di=01;34:ln=01;36:pi=40;33:so=01;35:bd=40;33;01:cd=40;33;01:or=01;05;37;41:mi=01;05;37;41:ex=01;32:*.cmd=01;32:*.exe=01;32:*.com=01;32:*.btm=01;32:*.bat=01;32:*.sh=01;32:*.csh=01;32:*.tar=01;31:*.tgz=01;31:*.arj=01;31:*.taz=01;31:*.lzh=01;31:*.zip=01;31:*.z=01;31:*.Z=01;31:*.gz=01;31:*.bz2=01;31:*.bz=01;31:*.tz=01;31:*.rpm=01;31:*.cpio=01;31:*.jpg=01;35:*.gif=01;35:*.bmp=01;35:*.xbm=01;35:*.xpm=01;35:*.png=01;35:*.tif=01;35:
LS_COLORS=no=00:fi=00:di=01;33:ln=01;36:pi=40;33:so=01;35:bd=40;33;01:cd=40;33;01:or=01;05;37;41:mi=01;05;37;41:ex=01;32:*.cmd=01;32:*.exe=01;32:*.com=01;32:*.btm=01;32:*.bat=01;32:*.sh=01;32:*.csh=01;32:*.tar=01;31:*.tgz=01;31:*.arj=01;31:*.taz=01;31:*.lzh=01;31:*.zip=01;31:*.z=01;31:*.Z=01;31:*.gz=01;31:*.bz2=01;31:*.bz=01;31:*.tz=01;31:*.rpm=01;31:*.cpio=01;31:*.jpg=01;35:*.gif=01;35:*.bmp=01;35:*.xbm=01;35:*.xpm=01;35:*.png=01;35:*.tif=01;35:
难看的蓝色就变成黄色了
hadoop tuning
30节点,10GB文件
shuffle性能不好,尝试调优
(1)初始设置:
core-site
<?xml version="1.0"?> <?xml-stylesheet type="text/xsl" href="configuration.xsl"?> <!-- Put site-specific property overrides in this file. --> <configuration> <property> <name>fs.default.name</name> <value>hdfs://cn50:9000</value> </property> <property> <name>hadoop.tmp.dir</name> <value>/workspace/xianmin/tmp</value> </property> </configuration>
hdfs-site
<?xml version="1.0"?> <?xml-stylesheet type="text/xsl" href="configuration.xsl"?> <!-- Put site-specific property overrides in this file. --> <configuration> <property> <name>dfs.replication</name> <value>3</value> </property> <property> <name>dfs.data.dir</name> <value>/workspace/xianmin/data</value> </property> <property> <name>dfs.name.dir</name> <value>/workspace/xianmin/name</value> </property> </configuration>
mapred-site
<?xml version="1.0"?> <?xml-stylesheet type="text/xsl" href="configuration.xsl"?> <!-- Put site-specific property overrides in this file. --> <configuration> <property> <name>mapred.job.tracker</name> <value>cn50:9001</value> </property> <property> <name>mapred.child.java.opts</name> <value>-Xmx1000m</value> </property> <property> <name>mapred.tasktracker.map.tasks.maximum</name> <value>1</value> </property> <property> <name>mapred.child.ulimit</name> <value>1572864</value> </property> </configuration>
执行指定第四查询,结果为:
平均map 47
最坏map 130
shuffle 80
reduce 41
total 234
(2)将conf/hdfs-site.xml中的dfs.block.size改为,134217728
平均map 47 -》49
最坏map 130 -》148
shuffle 80 -》93
reduce 41 -》29
total 234 -》238
没有本质性的改变,但是仍然保持更改后的dfs.block.size
(3)将conf/hdfs-site.xml中的dfs.namenode.handler.count改为40
平均map 49 -》48
最坏map 148 -》145
shuffle 93 -》75
reduce 29 -》48
total 238 -》233
没有本质性的改变,但是仍然保持更改后的dfs.namenode.handler.count
(4)将conf/core-site.xml中的
conf/core-site.xml | fs.inmemory.size.mb | 200 | Larger amount of memory allocated for the in-memory file-system used to merge map-outputs at the reduces. |
conf/core-site.xml | mapreduce.task.io.sort.factor | 100 | More streams merged at once while sorting files. |
conf/core-site.xml | mapreduce.task.io.sort.mb | 200 | Higher memory-limit while sorting data. |
conf/core-site.xml | io.file.buffer.size | 131072 | Size of read/write buffer used in SequenceFiles. |
没有格式化重启,运行后中间两个参数分别为,10和100
运行代价为:
平均map 48 -》48,47
最坏map 145 -》84,102
shuffle 75 -》174,97
reduce 48 -》3,46
total 233 -》221,256
参数保留,没有性能改变
(4)将conf/mapred-site.xml中的
mapreduce.map.java.opts=-Xmx1024M
mapreduce.reduce.java.opts=-Xmx1024M
运行代价:
平均map 47 -》46
最坏map 84 -》85
shuffle 97 -》163
reduce 46 -》23
total 256 -》225
没有本质改变,保留参数
(5)将conf/mapred-site.xml中的
mapreduce.reduce.shuffle.parallelcopies改为20
未格式化,重启,该参数没有改变,但是性能由于偶然因素提升?再次执行,性能回归
平均map 47 -》47,47
最坏map 85 -》129,83
shuffle 163 -》189,106
reduce 23 -》2,2
total 225 -》147,218
发现是操作错误,忘记更改conf/mapred-site.xml,shit,更改后,不格式化,重启,有效,也证明了不用去改mapred下的文件
性能得到提升。
平均map 47 -》47,45
最坏map 83 -》125,73(偶然)
shuffle 160+ -》130,63
reduce 2 -》3,2
total 218 -》188,172
把mapreduce.reduce.shuffle.parallelcopies改为50,测试性能下降
平均map 47 -》47,45-》48,47
最坏map 83 -》125,73(偶然)-》86,93
shuffle 160+ -》130,63-》82,160
reduce 2 -》3,2-》2,2
total 218 -》188,172-》236,211
把mapreduce.reduce.shuffle.parallelcopies重新改为20,性能得到提升,测试20,30,40变化吧
平均map 47 -》46-》45-》45,44,44
最坏map 83 -》83-》86-》85,81,68
shuffle 160+ -》84-》136-》130,68,67
reduce 2 -》2-》1-》3,4,2
total 211 -》196-》194-》180,202,182
暂时将该参数设为40
(6)将conf/mapred-site.xml中的mapreduce.jobtracker.handler.count改为20
平均map 46,45
最坏map 84,94
shuffle 96,161
reduce 29,2
total 239,210
暂时保留,虽然性能下降
(7)将conf/mapred-site.xml中的mapred.tasktracker.map.tasks.maximum改为7,也就是CPU核心个数-1
性能提升
平均map 48,46
最坏map 95,95
shuffle 57,60
reduce 22,2
total 133,108
(8)将conf/mapred-site.xml中的mapreduce.jobtracker.handler.count改为10
平均map 48,46-》47,46
最坏map 95,95-》91,84
shuffle 57,60-》60,51
reduce 22,2-》6,2
total 133,108-》125,102
(9)将conf/core-site.xml中的io.file.buffer.size改为262144二倍于原来
平均map 48,46-》47,46-》44,53,46,46
最坏map 95,95-》91,84-》72,111,84,76
shuffle 57,60-》60,51-》38,76,52,44
reduce 22,2-》6,2-》1,38,2,6
total 133,108-》125,102-》89,153,101,96
决定将该数值再增加为524288
平均map -》48,48,45,49,49
最坏map -》86,95,86,133,85
shuffle -》54,1,25,112,51
reduce -》2,2,20,29,3
total -》92,117,162,200,101
再次加倍1048576
平均map -》46,48,50
最坏map -》83,95,101
shuffle -》48,1,63
reduce -》7,2,3
total -》107,111,115
再次加倍2097152
平均map -》48,45,48
最坏map -》91,107,68
shuffle -》56,10,19
reduce -》8,4,2
total -》122,122,130
决定调回1048576
linux清理内存
实验,需要把linux系统的缓存清除,网上找到办法。
echo 3 > /proc/sys/vm/drop_caches
我在系统中用,总是提示没有权限,即使使用sudo。
解决办法,不算是完全解决,但是可以用。
sudo gedit /proc/sys/vm/drop_caches
点击保存,会显示失败,取消然后显示已更改,不知道为什么,文件内容已经更改,且
free -m的结果中buffer等后三项已经清除。
每次需要清除内存的时候都需要如上步骤。