年终总结 & 算法数据的思考 & 结尾彩蛋

在最近的三四年时间里,我的主要工作就是搭建推荐系统,这几年来不说看了上千篇论文也有数百篇了,这种专注让我自认为在推荐系统领域至少处在一个业界相对领先的水准,但是也恰恰是这段经历让我被打上了深深的标签:他是一个“推荐系统专家”。既然这样,那我就先来说说推荐系统吧。

微博推荐算法简述

基础及关联算法 1.分词技术与核心词提取 2.分类与anti-spam 3.聚类技术 4.传播模型与用户影响力分析 主要推荐算法 1. Graph-based 推荐算法 2. Content-based 推荐算法 3. Model-based 推荐算法 混合技术 1.时序混合 2.分层模型混合 3.瀑布型混合 4.交叉混合 Online 与 offline 1.计算过程拆解的离线部分 2.离线挖掘的优质候选集 3.具有较高相似度的推荐结果集

微博推荐引擎体系结构简述

任何不拿出干货的技术文档都是耍流氓,首先上体系结构图,如图所示,在整体体系结构上,微博推荐可以被划分为4层:前端展现层、应用层、计算层以及数据层,其中我们把数据日志、统计、监控以及评估也都分在数据层。接下来我会逐一介绍他们的目的,作用、技术与发展。更为细致的描述应该会在以后的博客中体现。

为什么机器学习广泛的用在谷歌的广告系统中,而很少用在搜索排序中?

不少我在谷歌的朋友告诉我,它们的广告系统多是基于机器学习的,而搜索排序则基于人凭借直觉撰写的函数(部分模块基于机器学习)。 是什么导致了这样的差异? 1.在机器学习系统里,弄清楚为什么一个检索结果比另一个结果排序更高很困难。 2.在一些场景下,即使人已经成功的分辨出基于哪些因素,使得一个结果比另一个结果的排序靠前,但依然很难构建一个机器学习系统,在单独的场景下,去拟合这些因素的权重。

[推荐系统] 推荐系统对外服务接口解决方案 - 鱼松 - 博客园

留意Netfix的推荐系统的架构,我们可以看到他们公司的推荐系统有明显的分层,分别为离线、近线和在线推荐,各部分职责明确,共同为用户提供推荐服务。将其系统做最大的简化,剩下两部分,离线计算和在线推荐服务,前者通过在内存或Hadoop中计算相似度(或者使用基于模型的方法)为后者提供推荐结果数据,而后者就是直接与外部系统进行对接的Web Service系统,把推荐结果数据返回给外部系统。

open source, recommendation system

收集和整理了目前互联网上能找到的开源推荐系统,并附上了个人的一些简单点评(未必全面准确),这个列表是目前为止比较全面的了,希望对大家了解掌握推荐系统有帮助(文/陈运文) SVDFeature 由上海交大的同学开发,采用C++语言,代码质量很高。去年我们参加KDD竞赛时用过,很好很方便,而且出自咱们国人之手,所以置顶推荐!