专利数据挖掘论文

时间:2022-06-25 08:46:50

导语:专利数据挖掘论文一文来源于网友上传,不代表本站观点,若需要原创文章可咨询客服老师,欢迎参考。

专利数据挖掘论文

一、专利数据挖掘

数据挖掘技术是延伸和扩展了传统分析方法,可以发现传统分析方法不能发现的内容和规律,并且它将人们从单调、枯燥的阅读专利文献的工作中解放出来,使用计算机代替了人类劳动,这样不仅提高了效率,而且提升了准确度。因此,数据挖掘作为一个专利分析的强有力工具被引入到专利分析中来,并且得到快速的发展应用。专利数据挖掘流程应考虑的问题:一是用数据挖掘解决什么样的问题;二是为进行数据挖掘所做的数据准备;三是数据挖掘的各种分析算法。故专利数据挖掘的一般过程通常按照以下步骤来完成:领会数据挖掘的目的,获取分析所用的数据集合,探索、清理和预处理数据,选择要使用的数据挖掘技术,使用算法解决问题,解释算法的结果。而其一般流程可简化为三个阶段:数据准备→数据挖掘→结果解释和评价。本文采用简化的流程进行实证分析。

二、石家庄地区制药企业专利数据挖掘

本文对石家庄地区制药企业的专利数据进行挖掘分析,挖掘对象是华北制药集团公司、石家庄制药集团有限公司、石家庄神威药业股份有限公司、石家庄四药股份、河北以岭药业股份有限公司、石家庄市华曙制药集团、河北医科大学制药厂、河北圣雪大成制药有限责任公司等地址在石家庄且具有一定代表性的药企,希望通过这些药企数据能够找到石家庄地区制药领域的核心组成,并能为药企更好地发展提供有力的信息支持。IPC号是目前权威的专利技术主题的标识编码之一,基本包含了各行各业的专利信息,是一个庞大的专利信息体系。目前国内外很多分析方法及技术大部分是基于专利的IPC分类号来分析专利技术主题的,此分析方法有一定的参考价值和科学性,而且对于具有大量专利信息的分析具有很好的总结概括效果。本文以专利全部IPC号为分析对象,并且构建IPC号之间的关联规则,在最大程度上揭示隐含的专利技术关联性,从而为石家庄地区制药企业专利技术的发展提供参考。

1.数据准备。数据来源的准确与否是数据分析与挖掘的基础,是数据分析与挖掘的根本。本文所使用的石家庄地区制药领域专利数据由万方数据公司提供,以制药企业地址为石家庄为检索条件,搜索出了包括从1985—2014年间石家庄地区制药领域专利644条,分别分布在A、B、C、D、E、F、G、H八个大部。对专利数据库中的644条专利进行筛选,根据“分类号”字段限制,它涉及专利信息的分类,有些IPC所涉及的范围与石家庄地区制药领域没有联系或联系很小,不宜保留。根据“申请人(专利权人)”字段的限制,剔除与石家庄地区制药不相关或制药企业地址不在石家庄地区的专利。最后筛选出590条最符合该领域特点的专利。由于IPC号在几乎所有现存数据库中均是以一个字段存储一个专利的所有IPC分类号的,形如:A61K38/26、A61K9/08、A61K47/12、A61P3/10,且每个专利一般都有好几个分类号,而每个企业又研究大量的专利,所以在进行专利分析之前,需要对专利IPC号进行数据整理。由于过于细致的IPC分类号并不利于专利主题的分析与揭示,所以本文中采用专利小类分析,就是取IPC号的前4位。并将申请人与其对应的多条IPC号进行拆分,拆分后的数据项有773条,即显示每个申请人对应的一条IPC分类号。

2.数据挖掘。本文数据挖掘过程将采用Excel和SQLsever2005软件,首先对所得到的数据导入SQLserver2005进行挖掘,利用SQLserver2005可以直接进行IPC号的关联规则挖掘,然后对专利信息进行分析。

3.数据挖掘结果与分析。基于关联规则制作依赖关系网络图,可以更加直观地看到各个IPC号之间的关联和依赖状态。

(1)以A61K、C12N、C12P、C07D、C07C为中心的核心专利技术群。这些专利的IPC分类号是关键部分药物组成的各种化合物即药物主要成分的重要聚集组。A61K(医用、牙科用等的配置品)是项集次数最多的,即支持度较高的,C12P(发酵或使用酶的方法合成目标化合物或组合物或从外消旋混合物中分离旋光异构体)、C12N(微生物或酶;其组合物)、C07D(杂环环合物,例如邻氯苄星青霉素的合成)、C07C(无环和碳环化合物)通过专利相关知识我们已经知道这些都是药物的合成成分,即土霉素、链霉素、青霉素等多种抗生素和维生素的主要成分组成,是制药领域的核心。这也是和石家庄地区制药企业的核心领域相符合的。另外这些专利主题的相互关联、依赖说明了石家庄地区制药企业在该领域具有很好的布局网络,在研发数量上也占有一定优势,所以说是石家庄地区制药企业的主要研究领域。

(2)以B65G、C12M为中心的辅助设备专利技术群。药品的生产离不开设备的支持,所以设备方面的专利也能体现制药企业的技术水平。在图1中也能体现出来,专利间有着很强的依赖性和关联性,在核心专利周边有B65G(运输或贮存装置,例如装载或倾斜用输送机、车间输送机系统、气动管道输送机)、C12M(酶学或微生物学装置),这些是制药的辅助技术手段,与中心专利是相互联系的,也是制药过程中必不可少的,在这些方面的提高有利于制药核心领域的发展。先进药品的研制离不开先进制药设备支持,所以设备水平的提高也是关键的。如图3所示,石家庄地区制药企业在这一方面的技术依赖网络也已经形成,说明在此技术领域也已经拥有较强实力。但与中心主要专利相比,辅助设备专利技术还是需要不断提高的。

三、总结

对专利的研究有着巨大的潜在价值,我们能通过数据挖掘技术对专利进行挖掘,发现隐含在其中的有用信息,为企业的有效发展提供保障。石家庄地区制药企业在专利方面是河北省此领域的发达企业,所以发现其中隐含的价值及蕴含的规律能带动河北省制药行业快速发展,同时也能发现自己存在的问题。总的来说,我们只有利用挖掘工具把数据转化为有用的信息,才能帮助企业制定有效的决策,才能在市场竞争中获得优势地位。本文有很多不足之处,还有待更为深入的研究。

作者:许燕宏 闫坤 单位:河北省委党校