相信科技改变生活,一个老程序员的闲言碎语。

写了一个文本自动分类demo

内容简介:这是一篇关于文本自动分类,自动分类,文章自动分类的文章。项目需要用到以城市的方式,对文本进行自动分类,这次没有必要使用VSM,简单做了一个demo ,暂时只支持以下城市的识别:

项目需要用到以城市的方式,对文本进行自动分类,这次没有必要使用vsm,简单做了一个demo ,暂时只支持以下城市的识别:北京 天津 沈阳 大连 哈尔滨 济南 青岛 南京 上海 杭州 武汉 广州 深圳 重庆 成都 西安 石家庄 长春 呼和浩特 太原 郑州 合肥 无锡 苏州 宁波 福州 厦门 南昌 长沙 汕头 珠海 海口 南宁 贵阳 昆明, 地址:http://www.001pp.com/categories_by_city.asp

回头看看我好像在这方面写了不少东东,放出来的就有这么几个了:

万能百度 :可能叫它竞争对手情况分析工具更恰当,通过它搜索某一关键词,可以获得关键词的大致检索量,符合搜索条件的每个页面的pr,外链数,百度收录数。
页面相似度检测 :使用这个工具可以检测2篇文章的相似程度,如果是新站的话,文章相似程度在85%的百度一般比较难收录
关键词查询工具 :选词一直是一个难点,有时候辛苦半天排名上去了却发现这个词其实没多少流量,这个工具可以查询某个关键词大概的检索量,已经集成到万能百度。
文本按城市自动分类:它可以检测文章的主题主要关于哪个城市。

 

上一篇:竭泽而渔毁掉的某微博自动收听漏洞

如果访问者之前是保持微博登陆的状态,那么,访问者就会自动收听技术人员所设置的账号,逆天的是,这个方法没有什么限制。这也就意味着,你可以通过购买广告之类的方式,短期内,暴增大量的粉丝来做各种营销,听上去是门不错的生意。

下一篇:不做倒霉孩子 简单可靠的自动备份方式

数据的备份要简单,必须要自动化,因此本文旨在于提供一种简单,可靠的自动备份方式。