详细说明:互联网词库来自于对SOGOU搜索引擎所索引到的中文互联网语料的统计分析,统计所进行的时间是2006年10月,涉及到的互联网语料规模在1亿页面以上。统计出的词条数约为15万条高频词,除标出这部分词条的词频信息之外,还标出了常用的词性信息。
语料库统计的意义:反映了互联网中文语言环境中的词频、词性情况。
应用案例:中文词性标注、词频分析等。
词性分类:
N 名词
V 动词
ADJ 形容词
ADV 副词
CLAS 量词
ECHO 拟声词
STRU 结构助词
AUX 助词
COOR 并列连词
CONJ 连词
SUFFIX 前缀
PREFIX 后缀
PREP 介词
PRON 代词
QUES 疑问词
NUM 数词
IDIOM 成语-Internet thesaurus from the right SOGOU search engines to index the Chinese Internet Corpus statistical analysis, Statistics for the time in October 2006, involving the corpus size of the Internet in more than 100 million pages. Statistics from the entries of about 150,000 high-frequency words, in addition to this part of Article marked the word frequency information, also marked the commonly used POS information. Corpus statistical significance : the Internet reflects the Chinese language environment of the word frequency, POS situation. Applications : Chinese part-of-speech tagging, word frequency analysis. POS Categories : N nouns verbs ADJ V adjective ADV adverb CLAS Classifiers ECHO Onomatopoeia STRU structural particle AU X-particle COOR parallel conjunction CONJ conjunction SUFFIX s
[cutdic.rar] - 用于中文分词的切分词典,还有词性标注,以这个词典数据库为基础建立文本分类,文本检索或文本过滤可以节省很多时间.很全,强烈推荐!
[Topic_spider_bemjh.rar] - 主题蜘蛛,用于下载与主题相关的蜘蛛,种子网站可从百度的搜索引擎下载.
[postag_convert.rar] - 一个集分词、词性标注和格式转换的强大的工具包
[zilian.rar] - 一个可以搜索智联招聘网的爬虫程序,非常好用
[多种分词方法.rar] - 含有多个分词算法。毕业设计的时候获得的,希望对大家在汉字处理中能用的到。 ICTCLAS算法,中科院,对名字识别能力很强。VC开发。 CSharp分词,向前匹配加向后最大匹配,C#开发,容易扩展。 小叮咚分词,由后向前最大匹配,C#开发。 xerdoc分词,基于ICTCLAS的Java版本分
[Win32Cut.rar] - 分词程序,Win32窗口界面程序,含设计文档,具有打开文档,显示分词结果,保存结果等功能,欢迎讨论。
[Volterraprediction1.rar] - 混沌时间序列的Volterra一步预测的Matlab程序
[textsegment.rar] - 中文分词程序,用java写的,有gui界面
[Wordsegmentation2.rar] - NLP技术实现,对语料库进行自动统计生成分词词典,对训练集进行分词,列出所有的分词可能并计算每种可能的概率。请使用者自行加入语料库和测试集。
[2004072317360329863.rar] - 腾龙餐饮管理软件
[12spider.rar] - 网络蜘蛛源码。 Spider是搜索引擎的一个自动程序。它的作用是访问互联网上的html网页 ,建立索引数据库,使用户能在搜索引擎中搜索到贵网站的网页。 搜索引擎 派出“蜘蛛”程序检索现有网站一定IP地址范围内的新网站,而对现有网 站的更新则根据该网站的等级不同有快慢之分。一般来说,网站网页等级 越高
[Topic_spider_bemjh.rar] - 主题蜘蛛,用于下载与主题相关的蜘蛛,种子网站可从百度的搜索引擎下载.
[postag_convert.rar] - 一个集分词、词性标注和格式转换的强大的工具包
[zilian.rar] - 一个可以搜索智联招聘网的爬虫程序,非常好用
[多种分词方法.rar] - 含有多个分词算法。毕业设计的时候获得的,希望对大家在汉字处理中能用的到。 ICTCLAS算法,中科院,对名字识别能力很强。VC开发。 CSharp分词,向前匹配加向后最大匹配,C#开发,容易扩展。 小叮咚分词,由后向前最大匹配,C#开发。 xerdoc分词,基于ICTCLAS的Java版本分
[Win32Cut.rar] - 分词程序,Win32窗口界面程序,含设计文档,具有打开文档,显示分词结果,保存结果等功能,欢迎讨论。
[Volterraprediction1.rar] - 混沌时间序列的Volterra一步预测的Matlab程序
[textsegment.rar] - 中文分词程序,用java写的,有gui界面
[Wordsegmentation2.rar] - NLP技术实现,对语料库进行自动统计生成分词词典,对训练集进行分词,列出所有的分词可能并计算每种可能的概率。请使用者自行加入语料库和测试集。
[2004072317360329863.rar] - 腾龙餐饮管理软件
[12spider.rar] - 网络蜘蛛源码。 Spider是搜索引擎的一个自动程序。它的作用是访问互联网上的html网页 ,建立索引数据库,使用户能在搜索引擎中搜索到贵网站的网页。 搜索引擎 派出“蜘蛛”程序检索现有网站一定IP地址范围内的新网站,而对现有网 站的更新则根据该网站的等级不同有快慢之分。一般来说,网站网页等级 越高