前言:想要寫出一篇引人入勝的文章?我們特意為您整理了中國區(qū)域發(fā)明者流動數(shù)據(jù)挖掘探究范文,希望能給你帶來靈感和參考,敬請閱讀。
[摘要]追蹤人才流動軌跡、探究人才流動規(guī)律備受關注,專利發(fā)明者可為人才流動研究奠定數(shù)據(jù)基礎.基于中國知識產(chǎn)權局2000—2009年公開的發(fā)明申請專利,設計了發(fā)明者姓名消歧算法,挖掘了流動發(fā)明者信息,探討了東部、東北、中部、西部四大區(qū)域的發(fā)明者流動現(xiàn)狀及趨勢.研究表明,文章中使用的算法具有合理性,可有效提取中國專利的流動發(fā)明者.
[關鍵詞]專利統(tǒng)計;姓名消歧;發(fā)明者流動;區(qū)域;中國
一、引言
人才是建設創(chuàng)新型國家的中堅力量,其流動將導致知識的轉(zhuǎn)移和溢出[1].日益頻繁的人才流動現(xiàn)象,加快了不同創(chuàng)新主體對新知識與技能的獲取、吸收和整合,帶動了其創(chuàng)新水平和能力的變化.周德祿[2]指出,人才流動實現(xiàn)了人力資源的再配置,建立健全人才流動機制以促進人才有效流動是獲得創(chuàng)新收益的基本路徑.故追蹤人才流動軌跡、探究人才流動規(guī)律具有重要的理論和實踐意義.但個體數(shù)據(jù)的可獲得性制約著該研究領域的發(fā)展.專利發(fā)明者可為探析人才流動奠定數(shù)據(jù)基礎.通過梳理發(fā)明者流動的相關研究,朱容輝等[3]指出,學術界就發(fā)明者流動概念的界定基本達成共識,認為發(fā)明者流動即發(fā)明者在不同組織中任職,可通過追蹤同一發(fā)明者連續(xù)擁有專利的申請(或權利)人的變化進行推斷.但專利發(fā)明者未有唯一化標識,故對發(fā)明者姓名進行消歧是考察發(fā)明者流動的先決條件.學者們多基于美國專利與商標局數(shù)據(jù)庫(USPTO),或歐洲專利局數(shù)據(jù)庫(EPO),探討了該問題,且為滿足大規(guī)模數(shù)據(jù)分析的需要,啟發(fā)式算法逐漸應用.因語言、文化等差異,已有的姓名消歧算法對歐美等西方國家發(fā)明者的識別效果較好,對中國等亞洲國家發(fā)明者的識別效果有待改善.借鑒現(xiàn)有研究成果,本文基于2000—2009年中國知識產(chǎn)權局(CNIPA)公開的發(fā)明專利信息,對發(fā)明者流動數(shù)據(jù)進行挖掘.后續(xù)結(jié)構(gòu)如下:第二部分描述了數(shù)據(jù)來源并設計了流動發(fā)明者的識別算法;第三部分挖掘了流動發(fā)明者的信息,并探討了區(qū)域?qū)用娴陌l(fā)明者流動現(xiàn)狀及趨勢;第四部分闡述了本文的主要研究結(jié)論與研究不足.
二、數(shù)據(jù)與研究方法
使用CNIPA數(shù)據(jù)庫2000—2009年公開的發(fā)明專利,在根據(jù)專利已有信息消除發(fā)明者姓名歧義的基礎上,對中國區(qū)域間的發(fā)明者流動情況進行了實證分析.
(一)發(fā)明者姓名消歧
1.提取專利關鍵字段.葉作亮等[4]將專利文獻信息劃分為類值與文本兩大屬性.前者以字符形式展現(xiàn),便于數(shù)據(jù)分析,包括技術分類號、發(fā)明者等.后者以一篇或一段文本出現(xiàn),數(shù)據(jù)處理過程較為復雜,包括專利名稱、摘要、全文等.借鑒現(xiàn)有文獻中用于發(fā)明者姓名消歧的專利關鍵字段并考慮數(shù)據(jù)的可操作性,本文選取公開(公告)日、發(fā)明(設計)人、主分類號、地址4個字段.其中,公開(公告)日可用于追蹤發(fā)明者流動產(chǎn)生的時間,發(fā)明(設計)人提供了參與技術創(chuàng)新的人員署名情況,主分類號提供了專利所屬技術領域的信息,地址可用于追蹤發(fā)明者的流動方向.需指出,本文搜集的專利數(shù)據(jù)按公開(公告)日排序,故以該日期而非申請日對發(fā)明者的流動時間進行推斷.2.構(gòu)建發(fā)明者—專利實例.提取專利中的公開(公告)日、發(fā)明(設計)人、主分類號、地址4個字段,并基于發(fā)明(設計)人構(gòu)建了發(fā)明者—專利實例(inventorGpatentinstances)[5],即根據(jù)專利發(fā)明者署名將一條專利拆分成若干條專利.3.關鍵字段相似度計算首先,計算了發(fā)明者的相似度,由兩條專利擁有共同發(fā)明者姓名數(shù)量占合作發(fā)明者姓名數(shù)量的比值進行度量,見式(1).SIMIt=(Mi∩Nj)(Mi∪Nj)(1)式中,SIMI1代表發(fā)明者的相似度,Mi、Nj代表專利i、j擁有合作者姓名的集合.其次,計算了主分類號的相似度,通過比對兩條專利主分類號的前三位進行測度.若前三位完全相等,則相似度SIMI2取值為1,否則為0.最后,基于最小編輯距離(MinimumEditDistance)算法[6]計算了地址相似度.兩個專利地址字段的最小編輯距離,是指將一專利地址字段轉(zhuǎn)換為另一專利地址地段所需的最小編輯次數(shù).編輯距離越小,表明兩個字符串越相似;反之,越不相似.4.關鍵字段的權重賦予綜合相似度的計算公式見下:SIMIt=∑3i=1wi×SIMIi(2)式中,wi代表權重,SIMIt代表綜合相似度.若SIMIt大于一特定閾值,則認為是同一發(fā)明者;否則,不是同一發(fā)明者.基于人工識別的發(fā)明者姓名消歧信息[7]為各字段賦予了權重,見式(3):SIMIt=2×SIMI1+0.1×SIMI2+1.5×SIMI3(3)
(二)發(fā)明者流動挖掘
在為發(fā)明者賦予唯一標識碼的基礎上,進一步挖掘了中國四大區(qū)域即東部、東北、中部和西部的發(fā)明者流動信息,東部包含京津冀等省區(qū),東北包含遼吉黑,中部包含晉皖贛等省區(qū),西部包含陜甘寧等省區(qū).此時,專利關鍵字段共計有6個,分別是唯一標識碼、發(fā)明者姓名、公開(公告)日、發(fā)明(設計)人、技術分類號和地址.因中國專利文獻提供信息的有限性,本文使用第一申請人的地址信息表征發(fā)明者的隸屬地區(qū),并通過追蹤同一發(fā)明者在不同時期不同地點申請的專利對其是否發(fā)生流動進行研判,流動時間為流入新地區(qū)第一個申請專利的公開時間.例如,張三在陜西省申請最后一個專利的公開年份為2000年,后在安徽省申請第一個專利的公開年份為2003年,則認為張三的流動方向為西部至中部,流動時間為2003年.據(jù)此,篩選了CNIPA中四大區(qū)域間的流動發(fā)明者及其對應的專利信息.
三、分析結(jié)果
(一)四大區(qū)域的發(fā)明者流動分布
圖1展示了中國東部(E)、東北(NE)、中部(M)、西部(W)四大區(qū)域的發(fā)明者流動分布情況.其中,標簽“E→W”代表發(fā)明者從東部地區(qū)流向西部地區(qū),標簽“NE→E”代表發(fā)明者從東北地區(qū)流向東部地區(qū),其他標簽不再贅述.結(jié)果顯示,隨著時間推移,四大區(qū)域的發(fā)明者流動呈明顯增長態(tài)勢.此外,中部、西部和東北地區(qū)的發(fā)明者向東部地區(qū)流動愈加頻繁,東部地區(qū)發(fā)明者流向中部、西部、東北地區(qū)的趨勢呈現(xiàn),但中部、西部、東北地區(qū)之間的發(fā)明者流動較為薄弱.
(二)四大區(qū)域的發(fā)明者流動差值
進一步的,本文計算了四大區(qū)域的發(fā)明者流入與流出差值,以反映不同區(qū)域?qū)θ瞬诺奈捅A裟芰?見圖2.結(jié)果顯示,整體而言,東部地區(qū)的發(fā)明者流動表現(xiàn)為順差,即發(fā)明者的流入數(shù)量高于流出數(shù)量,表明該地區(qū)對人才有較強的吸引和保留能力;中部、西部和東北地區(qū)的發(fā)明者流動表現(xiàn)為逆差,即發(fā)明者的流出數(shù)量高于流入數(shù)量,表明這三個地區(qū)對人才吸引和保留能力較弱.
四、總結(jié)
(一)結(jié)論
本文在借鑒現(xiàn)有研究成果并結(jié)合中國專利數(shù)據(jù)特征的基礎上,使用2000—2009年CNIPA公開的中國發(fā)明專利數(shù)據(jù),設計了發(fā)明者姓名消歧算法,挖掘了流動發(fā)明者信息,分析了東部、東北、中部、西部四大區(qū)域的發(fā)明者流動態(tài)勢.研究發(fā)現(xiàn):(1)各區(qū)域的發(fā)明者流動愈加頻繁;(2)東部地區(qū)發(fā)明者流向其他區(qū)域的趨勢呈現(xiàn),但東北、中部、西部之間的發(fā)明者交互較為薄弱;(3)與其他區(qū)域相比,東部地區(qū)對發(fā)明者的吸引和保留能力較強.此結(jié)果與先前研究一致[8G9],表明本文設計的算法對中國發(fā)明者流動的挖掘具有合理性。
(二)研究不足
本研究存在一定局限性.1.流動界定.在中國專利文獻中,未提供每位發(fā)明者的地理位置,未提供發(fā)明者與申請人之間的隸屬關系,且地址字段僅與第一申請人相對應.本文使用第一申請人的地址信息表征發(fā)明者的隸屬地區(qū),并通過追蹤同一發(fā)明者在不同時期不同地點申請的專利對其是否發(fā)生流動進行推斷,故基于中國專利數(shù)據(jù)的發(fā)明者流動挖掘不僅包含了因發(fā)明者空間地理位置變化導致的流動.2.算法設計.受限于數(shù)據(jù)分析的客觀條件,本文僅從中國專利文獻中提取了發(fā)明(設計)人、主分類號、地址三個字段用于發(fā)明者姓名消歧.而專利文獻包含了豐富的信息,如專利摘要、全文等,對此類文本字段進行數(shù)據(jù)挖掘并納入綜合相似度的求解因子中,將有助于改善中國發(fā)明者的姓名消歧效果.此外,融合多源異構(gòu)數(shù)據(jù)進行姓名消歧并補足發(fā)明者個體信息,可豐富發(fā)明者流動的相關研究。
作者:朱容輝 劉樹林 涂文杰 單位:西安交通大學管理學院