MMDS Notes: W3 - Communities in Social Network (Basic)
第三周分两部分,第一部分是 Communities in Social Network 。是介绍如何在社交网络中给用户分组的。这一部分的课也分为基础和高级,这一篇是基础, 高级的课程另开一篇吧(主要是基础中还有些东西没完全弄明白…)。
第三周分两部分,第一部分是 Communities in Social Network 。是介绍如何在社交网络中给用户分组的。这一部分的课也分为基础和高级,这一篇是基础, 高级的课程另开一篇吧(主要是基础中还有些东西没完全弄明白…)。
这一部分介绍 A-Priori 算法。
第二周的最后一块内容是 Frequent Itemsets 。主要介绍了 Frequent Itemsets , Association Rule 以及算法。这一部分介绍前面的,后面一篇会介绍算法和优化。
第二周的 Nearest Neighbor Learning 只是一个大概的介绍。这是一个通过在训练集中找到离待查询数据最近的点从而做出预测的方法。
Locality-Sensitive Hashing,LSH,局部敏感hash或叫位置敏感hash。它的想法是在对原始数据空间的数据做Hash后,让位置相邻的数据有很大概率被放到同一个或者相近的bucket中,而不相邻的点放在一起的概率要很小。这样就会减少后期数据处理的数据集,从而简化后续的工作。
第一周的后半部分讲的是Link Analysis,主要讲的是PageRank的计算。
前段时间在Cousera上各种挤时间跟完了一门 MMDS ,手上留下了一堆笔记,整理下,顺便给新blog开光吧。
课程总共7周,这篇整理的第一周的 HDFS
和 MR
部分。