9个常用中国专利文献网站的检索比较与分析
9个常用中国专利检索网站的比较研究
在专利检索实践和文献检索课教学实践中,常常给教师和检索者带来许多困惑:中国专利检索网站究竟有多少,这些网站彼此之间存在什么关系,哪些是必须教授的内容,哪些是必须检索的网站,哪些可以择优作为讲授或检索的网站,教师们和检索者实难抉择。为此,本文搜集了除香港地区、澳门地区和台湾地区以外的中国专利检索常用网站,并以这些专利网站专利数据总数、抽查单类或单科专利数据量、实际检索(白介素抗病毒、红外线监测仪、广东地区申报的有关蛋白重组的专利、专利发明人申洪等)作为比较研究的依据,对各网站进行对比分析,得出结论指导文献检索课的专利检索教学和检索者的检索实践。
中国专利检索常用网站有9个,它们是: ①中国知识产权网 http://www.cnipr.com ②中华人民共和国国家知识产权局网站http://www.sipo.gov.cn/sipo2008/
③中国专利信息中心的中国专利数据库检索系统http://search.cnpat.com.cn/Search/CN/
④中国专利信息网
http://www.patent.com.cn
⑤中国发明专利技术信息网http://www.1st.com.cn
⑥教育部科技发展中心
http://www.cutech.edu.cn/cn/index.htm高校专利信息服务平台http://zhuanli.edu.cn/cnipr/
⑦万方数据知识服务平台专利检索
http://c.wanfangdata.com.cn/patent.aspx
⑧CNKI中国专利数据库
http://dbpub.cnki.net/Grid2008/Dbpub/SCPDIndex. Aspx? DBName=SCPDIndex
⑨国家科技文献资源网络服务系统(NSTL) http://www.nstl.gov.cn/
这其中,⑥教育部科技发展中心高校专利信息服务平台直接链接①中国知识产权网,⑤中国发明专利技术信息网直接链接②中华人民共和国国家知识产权局网,⑤⑥两个实际是重复的,去掉重复的还剩7个。
1 各网站及其检索的基本情况
1.1 中国知识产权网(简称CNIPR)
CNIPR是国家知识产权局知识产权出版社在国家的支持下于1999年6月创建的知识产权综合性服务网站。其宗旨是通过互联网宣传知识产权知识,传播知识产权信息,促进专利技术的推广。
专利数据量:经检索统计,1978.01.01 至 2010.08.06 共收录专利 4632705件,其中发明专利1790133件(38.64%)、实用新型1540102件
1
(33.24%)、外观设计1302470件(28.11%)。从该
数据库的统计来看,1978年和1980年各只有1件专利,申请号分别为CN87215370和CN88200375.5。1985年是真实的起始年,收录了发明专利8120件、实用新型专利4436件、外观设计专利592件,合计13148件。
医学专利收录情况:国际专利分类法将医学专利定为“A61医学或兽医学;卫生学”类,在“高级检索”的表达式输入口或“新版搜索”的智能检索入口输入检索式“PIC=A61 NOT PIC=A61D”、或“A61/PIC NOT A61D”,两处两组检索式检出的结果完全相同,都是257947件。“NOT A61D”表示不含“兽医用仪器、器械、工具或方法”。用分类号检索时,必须用“主分类号PIC”,不能用“分类号SIC”。因为,同一专利申请案具有若干个分类号时,其中第一个称为主分类号,如一项外观产品有两个或者两个以上的用途的产品组合时,审查员就会给出与其用途相应的多个分类号。以主要用途所确定的分类号为“主分类号”,以次要用途确定的分类号为副分类号习称“分类号”。
中国知识产权网的专利检索系统支持逻辑运算符“AND”或用“ * ”代替,不支持空格替代。
有三种检索方式:关键词检索、高级检索、快速通道检索。
1.1.1 关键词检索 有“名称,摘要”、“申请(专利)号”、“申请日”、“公开(公告)号”、“公开(公告)日”、“申请(专利权)人”、“发明(设计)人”、“ 主分类号”等8个字段供选择。
检索式支持“AND”、“*”、“OR”、“NOT”、“( )”。
检索举例1:检索有关白介素抗病毒的专利 选择“名称,摘要”字段 + 检索式“(白介素 OR 白细胞介素) AND 病毒”,检出61份发明专利。
检索举例2:检索红外线监测仪的专利 输入检索式“名称,摘要”字段 + “红外线 AND 监测仪”, 检出13件。
检索举例3:检索广东地区申报的有关蛋白重组的专利
因关键词检索字段没有地址或者国省代码,只能用“名称,摘要”字段 加 “蛋白 AND 重组”,检出结果为6014件,然后在显示结果中进行“二次检索”选择“地址”字段,检出236件。
1.1.2 高级搜索 包含两部分功能,即菜单检索、表达式检索。
①菜单检索 菜单首先给出6个限制检索结果范围的功能选择,发明专利(亦即“发明专利申请”)、实用新型、外观设计这三项是默认的,发明授权、台湾地区专利、失效专利这三项可由检索者根据需要选择。发明专利、实用新型、外观设计和发明授权这四个可同时复选,台湾地区专利和失效专利只能单选,即当选择台湾地区专利或失效专利时,其它5个选择都被屏蔽不能复选。
菜单检索实际也是字段检索,有17个字段供检索,字段之间的逻辑关系为“AND”。
“申请(专利)号”、“公开(公告)号” 、“名称”、“摘要”、“申请(专利权)人”、“发明(设计)人”、“优先权”、“地址”、“专利代理机构”、“代理人”、“权利要求书”、“说明书”字段支持支持模糊检索,以“?”代替单个字符、“%”代替多个字符;支持字段内各检索词之间进行AND、OR运算,“名称”、“摘要”字段还支持NOT运算。
②表达式检索 表达式检索针对高级检索菜单内字段间的非逻辑“与”关系而设计。表达式检索在菜单表格的下方,支持运算符“AND”、“OR”、“NOT”、“XOR”、“ADJ”、“EQU/10”、“XOR/10”、“PRE/10”,支持字段除以上17个以外还有“主权项/CL”、“国际申请/IAN”、“国际公布/IPN”、“颁证日/IPD”、“分案原申请号/DAN”。例如:手机 OR (电池 AND 充电)。
检索举例1:检索有关白介素抗病毒的专利 用高级检索,在“摘要”字段用“(白介素 OR 白细胞介素) AND 病毒”检出的结果为59份。经过细仔核对,高级检索未能检出以下2件专利,原因是这两件专利的摘要字段没有符合检索式要求的全部检索词,而名称字段则符合要求:
CN99804658.2 含有白细胞介素-12和呼吸道合胞病毒抗原
的疫苗
CN93116434.6 用白细胞介素-4抑制人免疫缺陷病毒复制的
方法
检索举例2:检索红外线监测仪的专利 高级检索“名称”字段检出1件;“摘要”字段检出13件;“说明书”字段检出98件。
检索举例3:检索广东地区申报的有关蛋白重组的专利
用“名称”字段“蛋白 AND 重组” 加 “国省代码”字段“广东”,检出40件,每一件都很切题;用“摘要”字段“蛋白 AND 重组” 加 “国省代码”字段“广东”,检出233件,也是每一件都很切题;用“说明书”字段“蛋白 AND 重组”加 “国省代码”字段“广东”,检出875件,其中大量是与本课题无关的,但是在其说明书中都包含
2
了“蛋白”和“重组”字样,可见使用“说明书”字段检索可能会检出大量无关的专利。 1.1.3 快速通道检索
快速通道检索是在完成一次“关键词检索”或“高级检索”之后才出现的,可对之前的结果进行二次检索(在结果中检索),也可重新检索新的课题。重新检索与二次检索可供选择的字段与“高级检索”相同。快速通道检索无法同时选择2个或2个以上的字段。
检索举例1:检索有关白介素抗病毒的专利 与高级检索一样选择“摘要”字段,检出结果完全一致。
检索举例2:检索红外线监测仪的专利
快速检索通道的检索结果与高级检索的结果完全一致。
检索举例3:检索广东地区申报的有关蛋白重组的专利
因每次只能选择一个字段,如果用“名称”或“摘要”字段“蛋白 AND 重组 AND 广东”,检索结果均为零;用“说明书”字段“蛋白 AND 重组 AND 广东”检出结果为322件,但其中很大一部分是与本课题无关的且不是广东的,如“菲牛蛭人工养殖方法”、“反应器”(该专利是北京的而不是广东的)。但是可以先选择一个字段用“蛋白 AND 重组”检索,然后再选择“国省代码”字段“广东”并勾选“在结果中检索”,则检索结果与高级检索相同。 1.1.4 检索结论:
1)高级检索“说明书”字段检索范围过宽,检准率较低,一般不推荐使用。只有当其它特定字段检索结果为零时,为了扩检,才尝试使用。
2)关键词检索由于都只能选择一个字段进行检索,对于涉及多个条件限制的专利检索无能为力,只能使用高级检索。
3)关键词检索时,可以选择“名称,摘要”字段,实际上是名称和摘要两个字段的复合字段,其检索结果比高级检索或快速通道检索时选择“名称”或“摘要”字段时检出的可能要多。对于通过限定专利内容的检索来说,关键词检索的这一复合字段检索结果最全面。
1.2 中华人民共和国国家知识产权局网站(简称SIPO)
国家知识产权局是我国专利行业的最权威的政府部门,其网站收录1985年9月10日以来公布的全部中国专利信息,包括发明、实用新型和外观设计专利。面向公众提供免费专利检索服务。
专利数据量:在其专利检索界面的“申请日”
字段输入检索式“19780101 to 20100806” 检出1978年1月1日至2010年8月6日该数据库共收录专利 4632769件,其中发明专利1790119件(38.64%)、实用新型1540075件(33.24%)、外观设计1302575件(28.17%)。
1985年13276件专利,其中发明专利8226件、实用新型4458件、外观设计592件,与中国知识产权网的13148件基本相符。
医学专利:在其专利检索界面的“主分类号”字段输入检索词“A61%”(医学或兽医学;卫生学)检出258668件专利,再在其专利检索界面的“主分类号”字段输入检索词“A61D%”(兽医用仪器、器械、工具或方法)检出701件专利,然后用258668减去701,得不含兽医的医学专利257967件。
SIPO是中国专利数据库的数据源头。 1.2.1 专利检索
1)关键词检索 “专利检索”在网站主页面右侧栏中部。在“专利检索”区选择“摘要”字段输入“(白介素 OR 白细胞介素) AND 病毒”,然后点击“搜索”,返回结果将为“没有检索到相关专利” 这是因为“专利检索”区只是一个只能用一个检索词进行搜索的简单检索区。其它字段也一样,如检索1978年至2010年的专利可以用“1978 to 2010”,检索1978年1月1日至2010年8月6日的可以用“19780101 to 20100806”,日期的起始都看做是一个检索词。
2)专利号检索
分别检索了CN87215370和CN88200375.5,不但检出了专利,而且纠正了这两个专利在中国知识产权网数据库中的申请日期错误。由此可以初步断定,国家知识产权局网站的专利数据与中国知识产权网的专利数据相比,准确性、可靠性要好。
3)分类号检索
输入分类号A61(医学或兽医学;卫生学),共检出257967件(发明专利158376件、外观设计专利 99591件),不含“A61D兽医用仪器、器械、工具或方法”,比中国知识产权网检出总数257941件仅多出26件。可见,这两个网站数据库的数据量是非常接近的。 1.2.2 高级检索
“国家知识产权局专利检索数据库”和“中国知识产权网”两者的高级检索相比,前者有16个字段,后者有17个字段;两者相同的字段有:申请(专利)号、名称、摘要、申请日、公开(公告)日、公开(公告)号、分类号、主分类号、申请(专利权)人、发明(设计)人、地址、专利代理机构、
3
代理人、优先权;不同的字段是:国际公布和颁证日两个字段为前者所有,国省代码、权利要求书和说明书三个字段为后者所有。
举例1:检索红外线监测仪的专利
选择高级检索“摘要”字段输入检索式“红外线 AND 监测仪”, 检出13件。
举例2:检索白介素抗病毒的专利
选择高级检索“摘要”字段检索“(白
介素 OR 白细胞介素) AND 病毒”,检出296件专利。经仔细核对,与中国知识产权网的高级检索结果一样,没有检出CN99804658.2和CN93116434.6两件专利。
举例3:检索广东地区申报的有关蛋白重组的专利
高级检索“摘要”字段 “蛋白 AND 重组” + “地址”字段 “广东”检索广东地区申报的有关蛋白重组的专利,检出232件。
检测了菜单中各字段的模糊算符“?”、“%”,结果都与该网站的说明相符。 1.2.3 检索结论:
1)检索速度在周一至周五是7个专利检索网站中最慢的、周六和周日正常,这可能与工作日登录该网站的人数多有关。
2)专利数据总量比中国知识产权网的专利总数多64件,说明它是中国专利数据库中数据量最大、最全面的。
3)专利数据质量比较高,可信度比中国知识产权网高。
4)检索路径比中国知识产权网少,而且灵活性稍差。
5) “专利搜索”的关键词检索只支持模糊检索“%”和通配符“?”;高级检索摘要字段、名称字段支持逻辑运算检索,其余字段支持使用模糊检索“%”和通配符“?”。
6)这个网站得出的检索结果纠正了中国知识产权网专利数据收录起始时间的错误:在中国知识产权网从1949年起逐年检索直到1977年29年没有专利,1978年出现了建国以来第一件专利申请(申请号: CN87215370)、1980年出现了第二件专利申请(申请号:CN88200375.5)。前者的申请时间为1978年11月07日,实为1987年11月07日;后者的申请时间为1980年01月07日,实为
1988年01月07日。其实根据专利的申请号就可以看出,这两件专利的申请年份分别为1987年和1988年,因此在中国知识产权网中这两件专利明显是申请时间错误。
1.3 中国专利信息中心的中国专利数据库检索系统 (简称CNPAT)
中国专利信息中心是国家知识产权局直属的事业单位,国家级专利信息服务机构,其前身是原中国专利局自动化工作部。国家知识产权局赋予中国专利信息中心专利数据库的管理权、使用权和综合服务的经营权。
专利数据量:该数据库有专利4540720件。 医学专利:“A61医学或兽医学;卫生学”327097件(不含“A61D兽医用仪器、器械、工具或方法”)。 1.3.1 表格检索
这个表格检索等于其它专利网站的高级检索。表格检索支持普通检索、逻辑检索、截断检索、范围检索。检索算符为:* = AND、+ = OR、- = NOT、%代表任意字母、?代表0-1个字符、# 代表1个字符、 :限定起止时间范围,﹤、﹥、﹤= 也是时间范围的限定符。
检索白介素抗病毒的专利,在摘要字段输入检索式“(白介素+白细胞介素)*病毒”,选择“精确匹配”,检出45件。速度快慢很不稳定,如在早上6:30发出一个检索指令,时而以0.801秒的高速返回正确的检索结果,时而在经过令人难以忍受的等待之后以“超时”而告终。 1.3.2 高级检索
高级检索实际就是指令表达式检索,支持字段指令和运算符“AND”、“OR”、“NOT”、“( )”。
在表达式框输入表达式“F AB (白介素+白细胞介素)*病毒”,检出45件专利,用时0.385秒。
令人费解的是,国家知识产权局中国专利信息中心的中国专利文摘数据库(中文版)无论是“表格检索”还是“高级检索”都漏检了15件专利(清单略)。经仔细阅读,这15件专利都与检索要求相符。经过其它途径检索,发现该数据库中没有收录这些专利。
与前述两个专利数据库网站相比,CNPAT提供的17个字段中有一个特别字段“主题词”字段。它是对专利“名称”、“关键词”、“摘要”、“权利要求”4个字段做“或”运算检索的。如果勾选“主题词”右边的“关键词”,则只在“关键词”字段搜索,不涉及其它三个字段。
这个数据库尽管提供了“精确匹配”、“模糊匹配”、“同义词”等辅助扩检的途径,真正勾选后执
4
行检索时,检出结果不合理。如“名称”字段,以
“白介素”为检索词,无论是“精确匹配”还是“模糊匹配”,检出结果数量不变。
用国际专利分类号检索医学专利,输入表达式“F IC A61 - A61D”(表达式表示检索“A61医学或兽医学;卫生学”不含“A61D兽医用仪器、器械、工具或方法”的专利),检出327097件,比中国知识产权多出69150件、比中华人民共和国国家知识产权局网站多出68429件,三者相比得出结论,说明中国专利信息中心检索结果不准确。 1.3.3 检索结论:
1)检索速度时快时慢不稳定,周末比较正常,整体趋于缓慢;
2)误检量高,检出与医学有关(不含兽医)的专利比中国知识产权网多出26.8%、比国家知识产权局多出26.45% 。
3)漏检量高,经另两个网站已经证实了的56件“白介素抗病毒”专利只检出45件。专利数据不如前述两个网站多,说明收录中国专利不全。 1.4 中国专利信息网(简称PATENT)
中国专利信息网建于1997年10月,是国内较早提供专利信息服务的网站,是国家知识产权局专利检索咨询中心提供专利信息服务的综合性网络平台。国家知识产权局专利检索咨询中心建于1993年,前身是中国专利局专利检索咨询中心,2001年5月更名为国家知识产权局专利检索咨询中心,是国家知识产权局直属单位,是目前国内科技及知识产权领域提供专利信息检索、专利事务咨询、专利及科技文献翻译、非专利文献加工等服务的权威机构。网站具有中国专利文摘检索、中国专利英文文摘检索以及中文专利全文下载功能。
专利数据量:3498978件。来源于中国专利文摘检索的逻辑组配检索,检索条件选择专利“申请日期限定”为1985年1月1日至2010年8月6日的全部专利。这个数据库的专利数据量比其它任何一个数据库都少,其原因是至少从2009年8月10日至本文完成时(2010年8月6日)数据没有更新。
医学专利:“A61医学或兽医学;卫生学”266516件(不含“A61D兽医用仪器、器械、工具或方法”)。
用户进入该网站检索前,必须注册成为会员方可登录到检索界面。会员分为三个等级:免费会员,无需缴费;普通会员,年费100元人民币,可以进行检索,可以查看全文,但是下载专利时只能单页下载;高级会员,年费500元人民币,可以进行检索,可以查看全文,可以打包下载专利。 1.4.1 简单检索
实际上就是一个单一的“关键词检索”,因为只能输入关键词进行检索。可以进行简单的AND、OR逻辑组配,即每个检索式只能用一种运算符,要么是AND,要么是OR。搜索范围是所有专利文献的题录信息。操作如下:
在检索框内键入关键词,各关键词之间用空格隔开,然后选择检索框下方的选项,简单检索默认关键词之间的逻辑联系是“且的关系”(AND),也可以选择“或的关系”(OR),最后单击检索按纽,系统会列出检索结果。
举例:检索红外线监测仪的专利。输入检索式“红外线 监测仪”,选择“且的关系”,检出结果不稳定,72小时之内不定时检索5次,1次结果为29件专利、1次为25件、3次为10件,浏览后发现25件和29件的切题准确性要差一些,10件可能是正确答案。同一检索课题,中国知识产权网关键词检索检出结果为12件。 1.4.2 逻辑组配检索
这是该网站的默认检索。按照帮助文件提示,逻辑组配可以更准确地检索出用户所要求的专利,“检索式1”和“检索式2”是检索提问输入框,分别可以输入多个关键词并可以进行组配,检索词之间的组配关系为:空格、逗号、*和&这四个符号(支持半角和全角)及“AND”都可以表示“且”的关系;+、|、OR,都表示“或”的关系;- 减号(支持全角和半角)、NOT都表示“非”的关系。“检索式1”与“检索式2”之间的逻辑组配关系可通过中间的逻辑关系选项(AND、OR、NOT)选择。在检索式1和检索式2的下方给出了可供选择的检索字段,默认为在全部字段中进行检索。如果用户要将检索限定在特定字段,则可在检索字段下拉菜单中进行选择。
逻辑组配检索有申请号、公告号、公开号、国际分类号、公开日、公告日、授权日、国家省市、发明名称、申请人、发明人、联系地址、代理人、代理机构、代理机构地址、权利要求、摘要、全部字段18个字段供选择,还可以进行时间范围限定。
举例:检索“红外线监测仪”的专利。在“检索式1”输入关键词“红外线”选择字段“摘要”,选择逻辑运算符“AND”,在“检索式2”输入关键词“监测仪”选择字段“摘要”,检出9件专利。
在“检索式1”输入“红外线”、在“检索式2”输入“监测仪”,两处都选“摘要”字段,检出9件;仅在“检索式1”输入检索式“红外线 监测仪”,检出9件;之后依次输入“红外线 ,监测仪”、“红外线 * 监测仪”、“红外线 and 监测仪”,检出结果都是9件;而输入“红外线 AND 监测仪” 检出结果为零,输入“红外线 & 监测仪”(&为全角) 检出结果为零,输入“红外线 & 监测仪”(&为半角)检出结果为8624件,完全不可信。
5
72小时内反复多次检索发现,该系统对逻辑组配运算符空格、逗号、*、&、and、AND、+、|、OR、-(减号)、NOT的支持不稳定。同一字段两个检索词,支持空格代替“逻辑与”运算符。对逻辑运算符大小写敏感。 1.4.3 菜单检索
该功能可提供多字段组配检索,各字段之间的逻辑组配关系为AND,点击字段名称可查询各检索式的输入格式及要求。键入各字段相应的内容,然后,点击“检索”按钮,即可得检索结果。
举例:检索“红外线监测仪”的专利。在菜单中选择字段“摘要”输入检索式“红外线 监测仪”检出9件专利,检索式“红外线 AND 监测仪”检出结果为零,“红外线 and 监测仪”、“红外线 * 监测仪”或者“红外线 & 监测仪”(&为全角)的检出结果均为9件,检索式“红外线 & 监测仪”(&为半角)检出结果为8624件,检索式“红外线 | 监测仪”检出结果为9512件。“红外线 & 监测仪”(&为半角)和“红外线 | 监测仪”的检出结果显然不可信,这说明该系统的简单检索不支持“&”(半角)和“|”,同时逻辑运算符AND必须小写。 1.4.4 检索结论:
1)该数据库的数据至少一年没有更新,所以数据量比SIPO和CNIPR少了100多万件。
2)“简单检索”不稳定,在72小时内进行的多次相同检索出现了不同的结果,说明该数据库系统运行不稳定;
3)“逻辑组配检索”在72小时内进行的多次相同检索出现了对逻辑组配运算符的支持不稳定,对其中的一些运算符时而支持时而不支持;
4)“简单检索”不支持“&”(半角)和“|”符号。
5)检索帮助文件的文字表达有多处错误,比如在“菜单检索”的介绍中,举例用的表中在“发明名称”字段输入的是“阿霉素 癌症”,在其下的文字说明中说“检索结果是发明名称包含"阿霉素"或"癌症"、„„”。事实上,这里应该是“阿霉素”且“癌症”,不应该是“阿霉素”或“癌症”。 1.5 中国发明专利技术信息网 (简称1ST)
中国发明专利技术信息网由国家知识产权局中国发明协会主办,杭州发明协会协办。收录从1985年开始实施专利时起的中国专利的摘要,检索入口有:申请号、申请日、公开/公告号、公开/公告日、IPC分类号、文摘和国别/省市代码等。
该网站的专利数据库的检索,只有一个“专利检索”路径,点击后呈现的就是高级检索界面,而且是直接调用中华人民共和国国家知识产权局网
站的数据库,所以检出的结果与国家知识产权局网站的检索结果完全一致。
该网站作为重复网站,不参与比较分析。 1.6 教育部科技发展中心高校专利信息服务平台
(简称EDU)
在教育部科技发展中心网站主页左边第一栏有一个“高校专利信息服务平台”目录,点击后进行该平台的检索界面。国家知识产权局是教育部科技发展中心的合作伙伴,从平台网站名称可以看出,教育部科技发展中心没有专利基础数据库,而是直接链接到中国知识产权网的高级检索平台。所以,有关教育部科技发展中心高校专利信息服务平台的情况见“中国知识产权网”。
该网站作为重复网站,不参与比较分析。 1.7 万方数据知识服务平台:专利检索(简称WANFANG)
万方数据知识服务平台收录的中国专利文献全文,截止2010年8月6日,总记录数为4483234件,比国家知识产权局网站4632769件少了149535件。如果选择“中国专利”加年代限制“1985-2010”年则检出4483226件,比不加年代限制的少8件。这8件估计是1985前的,故又做年代限制“1949-1984”检索出3件,1978、1980、1984年各1件,经浏览专利说明书发现“1978”是“1987”之误,“1980”是“1988”之误,“1984”是“1985”之误;又年代限制“1900-1948”检出3件,1900、1903、1907年各1件,分别是1988、1989、1989之误。剩余2件的误差没有查明。
医学专利:在“主分类号”字段用“A61 NOT A61D”检索式检出“A61医学或兽医学;卫生学”207247件(不含“A61D兽医用仪器、器械、工具或方法”),比中国知识产权网的医学专利少50700件(24.46%)。
万方数据为专利检索提供了高级检索、经典检索、专业检索三种检索方式。 1.7.1 高级检索
与其它数据库一样,是按字段输入检索词检索,字段间为AND组配检索。一共有15个字段。高级检索的第一个字段是“国别/组织”,可以对中国专利、日本专利、美国专利、德国专利、欧洲专利局专利、世界专利组织专利、英国专利、法国专利、瑞士专利等七国两组织的专利进行选择。其它14个字段是:专利名称、申请(专利)号、申请日期、公开(公告)号、发明(设计)人、申请(专利权)人、代理人、专利代理机构、国别省市代码、主权项、摘要、全文、主分类号、分类号。
检索举例1:检索中国红外线监测仪的专利
6
选择字段“国别/组织”“中国专利”,“摘要”字段输入检索式“红外线 监测仪”,检出14件专利。
检索举例2:检索“白介素抗病毒”的专利 选择字段“国别/组织”“中国专利”,“摘要”字段输入检索式“(白介素 OR 白细胞介素) AND 病毒”,检出69件专利。
检索举例3:检索广东地区申报的有关蛋白重组的专利
选择字段“国别/组织”“中国专利”,“摘要”字段输入检索式“蛋白 重组”,再在“国省代码”字段输入“广东”或代码“44”,检出专利238件。 1.7.2 经典检索
经典检索就是经典高级检索。经典检索设计有5个“且关系”(AND)交叉组配的检索词输入框,每个检索词输入框都有相同的标题、发明人、申请人、公开号、主权项、主分类号、摘要、全文、国省代码、优先权、代理人、代理机构、国家/组织13个字段供选择。检索时每个检索词输入框可根据检索需要做不同的选择。
检索举例:检索“广东人发明的用空心圆锥台红外线检测建筑物倾斜的监测仪”,经典高级检索字段选择和检索词填写为:标题+建筑物倾斜,标题+监测仪,摘要+红外线,摘要+空心圆锥台,国省代码+44。
为什么一定要填写满5个条件,以及为什么关键词有的选“标题”字段、有的是选“摘要”字段,这里要做一个说明。可以肯定,5个检索条件可以不全部选择,选三两个亦可;“建筑物倾斜”“监测仪”选“标题”字段,是因为任何一项发明它都竭力从名称上体现出发明物本身的功能特性及其属性所在,“标题”字段用“建筑物倾斜”“监测仪”两个关键词表明要检索的就是一个用来监测建筑物是否发生倾斜的仪器;“红外线”和“空心圆锥台”作为“摘要”关键词,是因为“红外线”和“空心圆锥台”是实现仪器对建筑实施监测的手段、方法,具体的手段和方法都比较复杂,不可能从标题反映出来,但在摘要中一般会叙述到,所以作为“摘要”当中的关键词使用;“国省代码”“44”是代表“广东”。 1.7.3 专业检索
也就是表达式检索。表达式使用CQL检索语言,含有空格或其它特殊字符的单个检索词用引号("")引起来,多个检索词之间根据逻辑关系使用
“and”或“or”连接。构建表达式首先要给出指令,如字段“申请号”的指令是 F_ApplicationNo、
“标题”的指令是 F_PatentName、“发明人”的指令是F_Inventor、“申请人”的指令是F_Applicant、“公开号”的指令是F_PublicationNo、“摘要”的指令是F_Abstract,排序的指令“相关度”是relevance、“申请日期”是F_ApplicationDate。实际检索时,如检索申请人申洪的专利是“F_Applicant=申洪”、精确检索发明人李树祥的专利是“F_Inventor exact李树祥”、检索专利名称全部带有光子刀的专利是“F_PatentName All”光子刀””。
检索举例1:检索申洪申请的显微量角器专利 表达式为: F_Applicant=申洪 AND F_PatentName All”显微量角器”
检出了第一军医大学申洪教授1998年4月6日申请的“CN98233940.2 显微量角器”专利。
检索举例2:精确检索发明人申洪或申请人尹炳生申请的专利
检索式为:F_Inventor exact申洪or F_Applicant=尹炳生
检出专利13件,其中申洪8件、尹炳生5件。 当作为检索对象的发明人或申请人等是单名人名时,一定要用“exact” 精确检索指令,否则像检索申洪的专利,则申洪志、申洪源、申洪恩等人都被作为相符结果检索出来。 1.7.4 浏览与下载
万方数据平台可以下载专利说明书PDF格式的全文。但是,专利摘要和说明书全文的浏览与下载均需付费(签约单位除外),每件专利需付费3元人民币,否则只能浏览到不完整的摘要以及申请(专利)号、申请日期、公开(公告)日、公开(公告)号、主分类号、分类号、申请(专利权)人、发明(设计)人8个字段的信息。付费后可以浏览到完整的摘要、14个字段的全部内容和下载PDF格式的专利说明书全文。 1.7.5 检索结论:
1)是营利性商业数据库,文摘和全文的浏览与下载全部收费;
2)三种检索方式都比较好用,没有出现死机等现象;
3)专利数据质量和可信度不够高。中国知识产权网专利数据库收录的2件申请日期错误的专利在万方专利数据库中照样存在。同时,在万方专利数据库中还发现了6件申请日期错误的专利,2件不能查明错误原因的专利。
1.8 国家科技图书文献中心(NSTL)
该中心是为解决我国加入WTO后科技文献共
7
享于2000年6月12日成立的。该中心除了提供涵盖理工农医4个领域各类的科技文献外,还提供美国、英国、法国、德国、瑞士、日本、欧洲、中国和世界知识产权组织的专利信息检索服务。截止2010年6月22日,收录中国专利2780062件。
NSTL的中国专利数据库提供了普通检索和高级检索两个路径,有专利名称、发明人、申请人、摘要、申请号、公开号、申请日期、公开日期、专利类型、申请人地址、专利分类号11个检索字段。
检索举例1:检索该数据库中医学专利“A61医学或兽医学;卫生学”(去除“A61D兽医用仪器、器械、工具或方法”)有多少件。按常规经多次变换方式进行检索,结果极不理想。详细过程是:
1、登录主界面后进入“文献检索”功能区的“普通检索”,选择数据库“中国专利”,在检索输入框专利分类号“A61”,逻辑组配“非 A61D”,选择字段“专利分类号”,检索结果为零;如果将字段改为“全部字段”,则检索结果为6,其中4件属医学专利,另两项是“一种操作简单的电磁灶”、“座椅”,这个结果显然不可靠;
2、登录主界面后进入“文献检索”功能区的“高级检索”,选择数据库“中国专利”,在检索表达式输入框输入“A61 NOT A61D”,选择字段“专利分类号”,检索结果为6,完全与上同;
3、登录主界面后在“中外专利”中直接选择“中国专利”,进入中国专利检索界面,在检索输入框专利分类号“A61”,逻辑组配“非 A61D”,选择字段“专利分类号”,执行检索,显示检索结果为零;如果将字段改为“全部字段”,则检索结果为6,与上也完全相同。
无奈之下,进入到NSTL的“参考咨询服务”进行“实时咨询”,经过与该网站咨询老师进行6个多小时的反复检索、交流、探讨,最后咨询老师给出的结论是“的确如您所发现的,NSTL系统中的专利文献并不很全,包括医学类的。最全的请直接登录中国专利网查。另外,由于NSTL专利数据库在分类查询方面还存在一些问题,导致二级类查不出来、用‘专利分类号’专项检索不全等问题。目前只能权宜地采用‘全字段检索’,以保证查全,但同时会出现非该类的文献。”
检索举例2:检索有关白介素抗病毒的专利
普通检索路径,选择“全部字段”,在检索词输入框直接输入检索式“(白介素 OR 白细胞介素) AND 病毒”,检出32件专利;
高级检索路径,选择“全部字段”,在文本框
直接输入检索式“(白介素 or 白细胞介素) and 病毒”,检出结果同样为32件专利。
检索举例3:检索红外线监测仪的专利
采取与例2相同的检索方式,检出结果为8件专利。
检索举例4:检索广东地区申报的有关蛋白重组的专利
采取与例2相同的检索方式,检出结果为110件专利。
综上所述,NSTL的中国专利数据库数据量小、更新不及时,没有太大检索价值。2010年6月22日,该网站提供的专利总数为2780062件,一个月后还是这个数没有更新。
1.9 CNKI的《中国专利数据库》
《中国专利数据库》收录了1985年9月以来的所有专利4072623件(2010年8月6日数据),包含发明专利、实用新型专利、外观设计专利三个子库。专利的内容来源于国家知识产权局知识产权出版社,相关的文献、成果等信息来源于 CNKI 各大数据库。可以通过申请号、申请日、公开号、公开日、专利名称、摘要、分类号、申请人、发明人、地址、专利代理机构、代理人、优先权等检索项进行检索。
CNKI的《中国专利数据库》检索结果为每条专利增加了知网节的链接,集成了与该专利相关的专利产品的状态分析、本领域科技成果与标准、发明人发表文献、申请机构(个人)发表文献、本专利的编制背景、本专利的应用动态、所涉核心技术研究动态、知识链接,可以完整地展现该专利产生的背景、最新发展动态、相关领域的发展趋势,可以浏览发明人与发明机构更多的论述以及在各种出版物上发表的信息。
下载专利文献全文需先注册,充值,付费下载全文。
检索举例1:检索该数据库中医学专利“A61医学或兽医学;卫生学”(去除“A61D兽医用仪器、器械、工具或方法”)有多少件。
选择字段“分类号”,输入“A61”、组配“不包含”“A61D”,检索结果为零。
由于检索结果不满足,改为:选择字段“主分类号”,输入“A61”、组配“不包含”“A61D”。检索结果为235135件。
用“主分类号”字段检出的235135件这个结果基本正确,因为在检索界面左侧总目录下的“医药科技类”为237127件,其中“A61D兽医用仪器、器械、工具或方法有603件”,误差只有1389件。
8
检索举例2:检索有关白介素抗病毒的专利
选择字段“摘要”,把检索式“(白介素 OR 白细胞介素) AND 病毒”拆分输入。先输入“白介素”、组配“或者”,再输入“白细胞介素”、组配“并且”,最后输入“病毒”,检出发明专利53件。
检索举例3:检索红外线监测仪的专利 选择字段“专利名称”,输入关键词“红外线监测仪”,检出1件专利“红外线实时传输数据的分体式人体成分监测仪”;
选择字段“专利名称”,输入关键词“红外线”、“监测仪”,组配“并且”,检出1件专利,仍是“红外线实时传输数据的分体式人体成分监测仪”;
选择字段“摘要”,输入关键词“红外线监测仪”,检出26件专利;
选择字段“摘要”,输入关键词“红外线”、“监测仪”,组配“并且”,检出26件专利。
在“模糊匹配”检索的情况下,以上这两个结果应该都是可信的,而且检索系统会自动将关键词“红外线监测仪”拆成“红外线”和“监测仪”两个词进行检索,其结果不变。如果是“精确匹配”检索,关键词“红外线监测仪”拆开与不拆开的检索结果是不同的。
但当选择字段“全文”,输入关键词“红外线监测仪”,检出结果为1348件。结果扩大了50多倍,说明水分很大。从结果中随机打开1件专利“CN[1**********]0.9抗微生物的装置和组合物”,通过阅读摘要发现,这份专利与“红外线监测仪”没有任何关系。
检索举例4:检索广东地区申报的有关蛋白重组的专利
选择字段专利“摘要”,输入关键词“蛋白重组”,组配“并且”、字段“地址”,输入“广东”,检出196件专利。
这个数据库在检索界面上显示有“初级检索”、“高级检索”、“专业检索”三种检索方式,但实际上不论选择哪一种都是同样的界面。
该数据库没有二次检索方式;“全文”字段检索结果的可信度很低;虽然《中国专利数据库》的专利来源数据是直接使用国家知识产权局知识产权出版社的专利数据库,但CNKI改变了该数据库检索系统的平台,在检索界面、检索方式、检索策略方面完全不同,检索字段也有所不同,同时数据更新并不同步。该网站在“专利库简介”中称更新频率为“双周更新”,实际并未做到,2010年6月26日该库专利总数为4072623件,至2010年8月6日上午9时该库专利总数还是这个数。
2 讨论、分析
2.1 从网站的主办机构看出我国专利信息资源重复建设非常严重、资源共享任重道远 9个专利检索网站中,SIPO 是国家知识产权局局本部网站;CNIPR是国家知识产权局直属机构知识产权出版社的网站、CNPAT是国家知识产权局直属机构中国专利信息中心的网站、PATENT是国家知识产权局直属机构专利检索咨询中心的网站;1ST是国家知识产权局直属业务主管社团中国发明协会主办、杭州发明协会协办的网站,它本身没有专利资源数据库,是直接使用国家知识产权局局本部SIPO的专利数据库; EDU是教育部科技发展中心的高校专利信息服务平台,虽是教育部网站,但它本身也没有专利资源数据库,是直接使用国家知识产权局直属机构知识产权出版社的CNIPR专利数据库;CNKI的《中国专利数据库》是直接使用国家知识产权局知识产权出版社的数据库;WANFANG由北京万方数据股份有限公司主办,是科技部下属
的商业营利型专利数据库;NSTL是经国务院批准成
立的一个基于网络环境的科技信息资源服务机构。
9个检索网站的专利数据库中6个出自国家知识产权局,而出自国家知识产权局的6个数据库从收录专利的数量(见表一)和数据库的功能字段(见表二)等方面来看又是4个不同的数据库。我国自1985年恢复专利制度,全国统一由国家知识产权局统管全部的专利事务,数据库的收录年限都是起自1985年,国家知识产权局为什么一定要在其直属机构当中建4个不同的专利数据库呢?这是毫无理由的。这里除了能说明两个问题,很难有更好的理解:一、国家知识产权局是国务院的直属机构,一个机构内部都做不好资源共享,省或行业的数字资源共享在我国确实任重道远;二、说明小而全、大而全的思想在国人心中已根深蒂固,资源的重复建设十分严重,由此造成的浪费会远远超出人们的想象。 2.2 从专利数据库收录专利的总数和不同角度检索结果的差异看7个网站(表一)
表一 7个网站专利数据库收录专利的数量和检索结果差异对比表
最大专利数为基准,CNIPR少64件,CNPAT少92049件, PATENT少1133791件,NSTL少1852707件,CNKI少560146件,WANFANG少149535件;A61医学专利(不含A61D兽医)也以SIPO收录的为基准,CNPAT多68429件,PATENT多7848件,CNIPR少721件, NSTL为未知数,CNKI少21541件,WANFANG少51421件。由此基本可以推断,这7个网站实际上有7个各自独立的数据库存在,SIPO收录的专利最多,收录A61医学专利(不含A61D兽医)数并不与各数据库收录专利总数的多少成正比,而且这7个数据库彼此之间的替代关系无法确定,但总体评价CNIPR和SIPO这两个数据库的数据比较完整、可信度比较高。
2.3 7个专利数据库常用检索字段比较
7个专利数据库网站总共使用了36个字段:国别/组织、申请(专利)号、申请日、公开(公告)号、公开(公告)日、公告号、公开号、公开日、
9
分类号)、分类号、申请(专利权)人、发明(设计)人、优先权、地址、专利代理机构、专利代理机构代码、代理人、代理机构地址、国省代码、国省名称、权利要求书、说明书、国际公布、颁证日、主题词、关键词、全文、主权利要求、申请人地址、主权项、专利类型。7个专利数据库网站各自使用的字段不同,字段的多少也不同,CNIPR用了17个 、SIPO 用了16个、CNPAT用了14个、PATENT用了17个、NSTL用了11个、CNKI用了18个 、WANFANG用了14个。(限于篇幅,表省略)
从字段数量上看使用了14~18个彼此不完全相同的字段,从功能上很难区分数据库之间的彼此优劣。
2.4 7个专利数据库的其它功能比较(表二)
表二 7个专利数据库的其它功能比较列表
3 结论
3.1 专利网站之间的关系
中国知识产权网、国家知识产权局网站、中国专利信息中心的中国专利数据库检索系统、中国专利信息网站、中国发明专利技术信息网站,这5个网站都隶属于国家知识产权局。其中国家知识产权局网站是国家专利行业中最权威的,其余四个网站都是国家知识产权局属下机构的网站。
教育部科技发展中心的高校专利信息服务平台是调用中国知识产权网的数据库,CNKI中国专利数据库的数据来源于中国知识产权网,但数据并不同步,并且CNKI对检索方式做了一些改动。
中国发明专利技术信息网站直接使用国家知识产权局网站的数据库。
国家科技文献资源网络服务系统(NSTL的中国专利数据库)是9个网站中检索结果最不理想的。 3.2 CNIPR和SIPO是文献检索课教学和检索实践必选的检索中国专利最佳的网站
综合本文前面的检索实践看,9个专利网站,除去那些重复的、结果不理想的和几乎没有独到之处的,检索中国专利最佳的网站是:中国知识产权网CNIPR、国家知识产权局网站SIPO。
CNIPR检索功能完善,二次检索、过滤检索、同义词扩检、检索式保留等功能是本文所述9个中国专利网站中最完备的。表达式检索中支持的运算符也比其它专利数据库检索系统要完备,可以满足专业检索的需要。
CNIPR子数据库完备,具有其它网站都没有的“台湾地区专利数据库”、“中国药物专利数据库”和“行业专利专题数据库”,方便用户有针对性地检索。
CNIPR提供的“用户使用手册”信息量大,简单易用。
SIPO依托国家知识产权局,有第一手的专利申请、审批、失效等变更信息,更新最快,数量最全,是查找中国专利的首选权威数据库。但有三个显著不足:一是服务器响应速度慢,二是检索功能不够完善,三是未区分专利申请和已授权专利,有关专利的法律状态还需要通过该网站的“法律状态查询”进行查找。
10