目录


1. NLP:Natural Language Processing,自然语言处理

1.1 什么是NLP

自然语言处理(NLP):计算机对自然语言的处理。

由于自然语言在人类沟通过程中既省略了很多常识(common sense),又保留了很多模糊性(ambiguities),使得NLP变得异常困难。

1.2 NLP技术前沿

NLP技术分以下四个方面:

  1. Lexical Analysis (词性分析:是名词还是动词?)。
  2. Syntactic Analysis (语法分析:介词短语还是谓语?)。
  3. Semantics Analysis (语义分析:名字之间的关系,去模糊性,情绪)。
  4. Pragmatic Analysis (语用分析:说这句话的目的)。

state of art NLP

1.3 NLP for Text Retrieval

Bag of Words(词袋): sufficient for most search tasks.

2. Text Access,文本访问

Text Access(文本访问):the proccess of accessing Small Releavant Text Data from Big Text Data.

2.1 Push Mode:推送模式

Push Mode: 系统拥有足够的用户信息,主动推荐

2.2 Pull Mode:牵引模式

Pull Mode: 用户主动搜索。

牵引模式又可分为:

  1. Querying(请求):用户输入关键词,
  2. Browsing(浏览):用户根据文本结构导航进来,通常在不知道关键词的情况下发生。

3. Text Retrieval Problem,文本检索问题

3.1 什么是Text Retrieval

Text Retrieval:Big Text Data exists, user gives a Query, Search Engine return relevant Small Text Data,即上面所说的Push Mode中的Querying.

3.2 Text Retrieval VS Database Retrieval

state of art NLP

3.3 Foundamental Model of Text Retrieval

state of art NLP

3.4 Document Selection VS Document Ranking

state of art NLP

4. Text Retrieval Methods,文本检索方法

5. VSM:Vector Space Model,向量空间模型

5.1 VSM simple instantiation; 向量空间模型简单实例

Programming Paradigm

1
2
3
4
5
6
7
8
9
 def factorial(n:Int):Int = {
    def factLoop(n:Int, acc:Int):Int = {
        if (n==0) acc
        else factLoop(n-1, acc * n)
    }
    factLoop(n,1)
 }                                                //> factorial: (n: Int)Int

 factorial(4)                                     //> res2: Int = 24

Assignment

具体代码见这里

总结

参考资料


Share Post

Twitter Google+

Shunmian

The only programmers in a position to see all the differences in power between the various languages are those who understand the most powerful one.