徐霁的博客 | 欢迎
徐霁

jsoup使用手册

摘自 http://www.open-open.com/jsoup/parsing-a-document.htm 入门 解析和遍历一个html文档 输入 解析一个html字符串 解析一个body片断 从一个URL加载一个Document对象 根据一个文件加载Document对象 数据抽取 使用dom方法来遍历一个Document对象 使用选择器语法来查找元素 从元素集合抽取属性、文本和h […]

java验证码识别技术

转自:http://blog.csdn.net/lmj623565791/article/details/23955883 本人程序用的tesseract,官方地址:https://code.google.com/p/tesseract-ocr/,不为别的,谁让它支持我们的天朝的文字呢~哈 下载好程序后解压: 大概可以看到这样一个目录,别见怪楼主里面一堆测试文件。 然后就开始我们的测试之旅: te […]

vs c++ 使用jsoncpp的说明

Introduction JSON (JavaScript Object Notation) is a lightweight data-interchange format. It can represent integer, real number, string, an ordered sequence of value, and a collection of name/valu […]

北大学者-致青年学生

钱理群,著名人文学者,鲁迅、周作人研究专家。北京大学资深教授,博士生导师,并任清华大学中文系兼职教授。20世纪80年代以来中国最具影响力的人文学者之一。 一、大学时代:人生的盛夏 为什么说这是人生最宝贵的时光呢?根据我的经验,十六岁到二十六岁是人生的黄金岁月。十六岁以前什么都懵懵懂懂的,完全依赖于父母和老师,十六岁以后就开始独立了,二十六岁以后就开始考虑结婚啊、生孩子啊这么一大堆乱七八糟的事,真正 […]

lucene4.7分页

我们先来看下下面的问题,现在我们的索引里有2亿多的数据,那么现在的需求是,把索引里的全部数据,读取然后写入txt文本里,对于这么一个量级的数据,显然是不可能一下子全部读取完的,那得要多大的内存才能够支持下来,是一个很恐怖的内存量,所以就引入散仙今天要给大家介绍的一个功能,Lucene的分页技术。 在介绍分页之前,我们先来看看上面的那个需求,不用分页的解决办法, 其实在lucen […]

lecene4.7排序

排序是对于全文检索来言是一个必不可少的功能,在实际运用中,排序功能能在某些时候给我们带来很大的方便,比如在淘宝,京东等一些电商网站我们可能通过排序来快速找到价格最便宜的商品,或者通过排序来找到评论数最高或卖的最好的商品,再比如在Iteye里的博客栏里,每天都会以降序的方式,来显示出最新发出的几篇博客,有了排序,我们就能在某些时候很方便快速的得到某些有效信息,所以说排序功能,无处不在 ^_^。&nb […]

lecene索引文件

下图是一个典型的Lucene4.x的索引结构图:  Lucene4.x之后的所有索引格式如下所示:  文件名 后缀 描述 Segments File segments.gen, segments_N 存储段文件的提交点信息 Lock File write.lock 文件锁,保证任何时刻只有一个线程可以写入索引 Segment Info .si 存储每个段文件的元数据信息 Com […]

lucene索引和检索常用API

为了方便对比学习,下面给出表格数据  索引期间使用的API组件 检索期间使用的API组件 IndexWriter IndexReader IndexWriterConfig IndexSearcher Directory Directory Analyzer QueryParser或者Query子类 Document TopDocs Field ScoreDoc–Term&n […]