1.数学
- 偏差与方差
- 拉格朗日
- 核函数
- 凸优化
- 协方差矩阵
- Hessian矩阵
- CDF(累计分布函数)
- 高斯概率密度函数
- 中心极限定理
2.机器学习
1.处理小数据效果好
2.深度学习—大数据,超过500w;图像,语言方面效果奇好-
SVD
-
最小二乘法
-
1.最大似然估计
2.logistic回归 3.感知器的初步—logistic的简化情节 -
1.介绍了牛顿方法
2.广义线性模型 3.多项式分布,softmax回归 -
1.高斯判别
2.朴素贝叶斯 -
EM
- 隐马尔可夫模型
- 决策树向量机
- K近邻
- 支持向量机
- PageRank
- 强化学习
- LDA
- PCA
- pLSA
- LSI
- ICA
- 最大熵模型
- 条件随机场
- 最大熵隐马尔可夫模型
- Gradient Boosting
- K-Means
- 贝叶斯逻辑斯蒂克回归
- 关联规则挖掘
- 随机森林
3.信息论
- 压缩率很高的数据结构
- 信息熵与信息增益
- 数据压缩原理
- 香农游戏
- 二维码原理
4.深度学习
机器学习的一个分支
- 感知器
- 反向传播算法
- 自动编码器
- 栈式自编码器
- 微调多层自编码算法
- 深度信息网络
- softmax回归
- 白化
- 池化
- 受限玻尔兹曼机
- 稀疏编码
- 递归神经网络
- 卷积神经网络—图像识别,语音识别,,.
- 前馈神经网络
5.全文检索
- 搜索建索引过程
- 搜索评分过程
- 搜索查询分析器
- Rocchio相关反馈算法
- 向量空间模型
- BM25基于概率的搜索评分
- Lucene源码分析
- solrcloud
- Solr空间搜索原理
- GeoHash算法
- 地理空间距离计算原理
- WAND检索算法
- 智能化信息检索模型
- Kullback-Leibler距离/相关熵
- 交叉熵
6.计算广告
- 正文广告
- 上下文广告
- 显示广告
- 合约广告
- 竞价广告
- 搜索广告
- 受众定向
- 竞价广告的定价机制
- eCPM估计
- 广义第二高价
- 精准人群定向
- 实时竞价
- 广告交易平台
- 需求方平台(DSP)程序购买
- 广告有效性原理
- 二部图匹配算法
- HWM算法
- 点击流挖掘
- 广告系统的一些商业模式
- 实时反作弊
- CTR点击预测
- 架构
7.自然语言处理
- N-gram语言模型
- 词共现/TFIDF
- 噪声信道模型
- 统计分类模型
- 语义相关性
- 基于HMM的词性标注
- 统计语言模型的评价方法
- 扩充转移网络
- 动态规划算法
- 最小编辑距离
- 浅层句法分析技术
- 知识库的构建
- 命名实体识别
- 未登陆词识别
- 语言模型结构设计
- 树邻近语法
- 文本建模
- 随机上下文无关文法
- 概率上下文文法
- 同义词自动构建(词共现,基于浅层语法分析)
- 文本分类技术
8.架构
- OOP
- 聊天系统/实时高效信息系统架构与源码
- Bloom Filter 过滤器
- 分布式时钟(逻辑时钟) 同步技术
- SCALA
- Netty
- Jetty
- 一致性Hash
- 分布式基本组建
- 原子广播
9.爬虫
- 爬虫原理
- 分布式架构
- 通用爬虫
- 主题爬虫
- Nutch
- Xpath
- 网页去重
- URL去重
10.应用
- 人脸识别
- 垃圾邮件分类
- 文本聚类
- 语音合成(分解)
- 语音识别
- 手写识别
- 推荐系统
- 文档主题分析
- 二进制权限系统
- 搜索引擎关键字智能提示
- 最小敏感局部hash算法
- Simrank
- 手写输入法
- 为文本生成关键词和摘要
- 拼音缩写提取
- 汉字转拼音/拼音转汉字
- 机器翻译
- 自动提取标签
- 图片提取标题
- 文字生成图像
- 问答系统 …
11.Github中的开源项目
1. Github:
2. Github: 3. Github: 4. 5. 6. Github: 7. 8. 9. 10.CUDA-convnet 11. Github:12.个人收集网址
- 台湾机器学习课程
13.机器学习需要了解的人物
1.
2.中国大牛组
- 周志华
- 杨强
- 李建中 —分布式数据库
- 唐杰 —图挖掘
- 张钹
- 刘铁岩
- 王海峰 —信息检索,NPL,机器翻译
- 何晓飞 — 多媒体处理,图像检索,流型学习
- 朱军
- 吴军
- 张栋
- 戴文渊
- 李航—华为诺亚方舟实验室
《中国大牛组》资源来源于小木虫
14.会议论文收集
15.书籍
1.PRML—Pattern Recognition And Machine Learning