MMDS Notes: W2 - Locality-Sensitive Hashing
Locality-Sensitive Hashing,LSH,局部敏感hash或叫位置敏感hash。它的想法是在对原始数据空间的数据做Hash后,让位置相邻的数据有很大概率被放到同一个或者相近的bucket中,而不相邻的点放在一起的概率要很小。这样就会减少后期数据处理的数据集,从而简化后续的工作。
Locality-Sensitive Hashing,LSH,局部敏感hash或叫位置敏感hash。它的想法是在对原始数据空间的数据做Hash后,让位置相邻的数据有很大概率被放到同一个或者相近的bucket中,而不相邻的点放在一起的概率要很小。这样就会减少后期数据处理的数据集,从而简化后续的工作。
今天在写一个脚本的时候,发现使用datetime.datetime.now()
输出的是UTC时间,而同样的命令在ipython中输入的就是本地的时间。找了好久才找到不用pytz
的解决方案:
第一周的后半部分讲的是Link Analysis,主要讲的是PageRank的计算。
前段时间在Cousera上各种挤时间跟完了一门 MMDS ,手上留下了一堆笔记,整理下,顺便给新blog开光吧。
课程总共7周,这篇整理的第一周的 HDFS
和 MR
部分。
其实把blog从WP挪出来的想法很早前就有了,只是由于拖延症的原因一直没去弄。不过最近可能是处于病情的低谷期,所以就动手了。
当初想把blog搬家的主要需求也就下面这些:
最近还是在写爬虫,然后发现用goroutine是很快,但是很容易就碰到并发数过多被服务器限制的问题。虽然说让goroutine在起来前睡一小会能解决一些问题
,但是终归感觉这样的办法不靠谱。继续翻文档发现bufferred channel
用在这不错。
最近在尝试用golang做爬虫类的东西,避免不了需要处理JSON API。其间碰到了些问题,记在这里以便下次查阅。
channel
是golang里面一个比较有意思的东西,可以把它看成是一个semaphone(无缓存版队列)或者FIFO(有缓存版队列)。这篇文章只是把最
近用到的一些东西归纳了一下,就算是给自己留份存档吧。
The pasted image will be converted to base64 encoded format, which will hit response size limitation of server. This article is talking about save image to file with carrierwave.
The source code is available at github repo
Next is the full version.