專利名稱:一種專利數(shù)據(jù)分析方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及計算機應(yīng)用領(lǐng)域,具體而言,涉及一種專利數(shù)據(jù)分析方法和系統(tǒng)。
背景技術(shù):
隨著全球化進程的加快以及知識經(jīng)濟的來臨,知識產(chǎn)權(quán)成為決定未來國家和企業(yè) 競爭力的一個重要因素,具有越來越重要的地位和作用。其中,專利尤其是專利技術(shù)作為一 種具有排他性權(quán)利的技術(shù)在產(chǎn)業(yè)中發(fā)揮了主導(dǎo)作用,往往能夠決定企業(yè)的競爭地位以及市 場范圍。目前,中國、美國、歐洲、日本等國家專利局的專利已超過6000萬件,中國國家知 識產(chǎn)權(quán)局到2009年累計受理專利申請已超過500萬件。專利信息作為一種競爭情報和技 術(shù)情報的獲取來源,因其攜帶的信息具有數(shù)據(jù)全面、更新快速、權(quán)利明晰等特點,成為數(shù)據(jù) 分析的一個重要對象。專利分析的結(jié)果對發(fā)明人、中小企業(yè)、實驗室、大學(xué)等知識創(chuàng)造者有 很好的使用價值,同時對于大企業(yè)或政府機構(gòu)也很有用。專利信息分析是對已經(jīng)公開的專利申請文件和專利文件加以檢索,并對檢索結(jié)果 進行清洗篩選,根據(jù)分析目的選取合適的專利信息分析項目,從微觀層面和宏觀層面,采用 定量分析、定性分析以及文本挖掘等信息處理技術(shù)提煉出專利中包含的權(quán)利信息、技術(shù)信 息、經(jīng)營信息、發(fā)展趨向等內(nèi)容。專利信息量的迅速增長以及查詢的復(fù)雜化,使得專利信息分析成為一個數(shù)據(jù)量較 大的處理過程。同時,由于用戶需求的多樣性,進一步加劇了專利分析的復(fù)雜程度。使用現(xiàn) 有的數(shù)據(jù)分析系統(tǒng)和方法進行專利分析時,處理速度比較慢;嚴重時還會產(chǎn)生錯誤的分析 結(jié)果,進而影響依據(jù)專利分析而進行的戰(zhàn)略決策。針對相關(guān)技術(shù)中的數(shù)據(jù)分析系統(tǒng)和方法不能合理、快速地進行專利分析問題,目 前尚未提出有效的解決方案。
發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問題是提供一種能夠提高專利數(shù)據(jù)分析準(zhǔn)確性的專利數(shù) 據(jù)分析方法和系統(tǒng)。根據(jù)本發(fā)明的一個方面,提供了一種專利數(shù)據(jù)分析方法,包括在本地數(shù)據(jù)庫中建立與分析目的對應(yīng)的主題;以及建立與所述主題一致的數(shù)據(jù)集市,在數(shù)據(jù)倉庫中建立與所述主題對應(yīng)的數(shù)據(jù) 視圖;對所述本地數(shù)據(jù)庫中的專利數(shù)據(jù)進行抽取;將抽取后的專利數(shù)據(jù)存儲至所述數(shù)據(jù)倉庫中,所述存儲以基于所述數(shù)據(jù)視圖的形 式存儲;根據(jù)用戶的請求確定對應(yīng)的數(shù)據(jù)集市,根據(jù)所確定的數(shù)據(jù)集市進行專利數(shù)據(jù)分 析;
將分析的結(jié)果以視圖的形式返回給用戶。根據(jù)本發(fā)明的另一方面,提供了一種專利數(shù)據(jù)分析系統(tǒng),包括本地數(shù)據(jù)庫,用于存儲專利數(shù)據(jù),所述專利數(shù)據(jù)與預(yù)先建立的主題相對應(yīng);建立模塊,用于建立與所述主題一致的數(shù)據(jù)集市,以及在數(shù)據(jù)倉庫中建立與所述 本地數(shù)據(jù)庫中的主題對應(yīng)的數(shù)據(jù)視圖;數(shù)據(jù)抽取模塊,用于對所述本地數(shù)據(jù)庫中的專利數(shù)據(jù)進行抽取;數(shù)據(jù)倉庫,用于存儲所述數(shù)據(jù)抽取模塊抽取后的專利數(shù)據(jù),所述存儲以基于所述 數(shù)據(jù)視圖的形式存儲;數(shù)據(jù)分析模塊,用于根據(jù)用戶的請求確定所述建立模塊建立的數(shù)據(jù)集市,根據(jù)所 確定的數(shù)據(jù)集市進行專利數(shù)據(jù)分析;顯示模塊,用于將所述數(shù)據(jù)分析模塊分析的結(jié)果以視圖的形式返回給用戶。根據(jù)本發(fā)明的另一方面,提供了一種專利數(shù)據(jù)分析系統(tǒng),所述系統(tǒng)包括第一建立模塊,用于在本地數(shù)據(jù)庫中建立與分析目的對應(yīng)的主題;第二建立模塊,用于建立與所述主題一致的數(shù)據(jù)集市,以及在數(shù)據(jù)倉庫中建立與 所述第一建立模塊建立的主題對應(yīng)的數(shù)據(jù)視圖;數(shù)據(jù)抽取模塊,用于對所述本地數(shù)據(jù)庫中的專利數(shù)據(jù)進行抽?。淮鎯δK,用于將所述數(shù)據(jù)抽取模塊抽取后的專利數(shù)據(jù)存儲至數(shù)據(jù)倉庫,所述存 儲以基于所述數(shù)據(jù)視圖的形式存儲;數(shù)據(jù)分析模塊,用于根據(jù)用戶的請求確定所述第二建立模塊建立的數(shù)據(jù)集市,根 據(jù)所確定的數(shù)據(jù)集市進行專利數(shù)據(jù)分析;顯示模塊,用于將所述數(shù)據(jù)分析模塊分析的結(jié)果以視圖的形式返回給用戶。通過采用針對主題對專利數(shù)據(jù)進行抽取處理,并對專利數(shù)據(jù)分析,將分析結(jié)果以 視圖的直觀形式返回給用戶,可以提高專利分析的效率和質(zhì)量,便于用戶使用。
此處所說明的附圖用來提供對本發(fā)明的進一步理解,構(gòu)成本申請的一部分,本發(fā) 明的示意性實施例及其說明用于解釋本發(fā)明,并不構(gòu)成對本發(fā)明的不當(dāng)限定。在附圖中圖1示出了實施例1提供的專利數(shù)據(jù)分析系統(tǒng)的結(jié)構(gòu)框圖;圖2示出了實施例1提供的另一專利數(shù)據(jù)分析系統(tǒng)的結(jié)構(gòu)框圖;圖3示出了實施例1提供的另一專利數(shù)據(jù)分析系統(tǒng)的結(jié)構(gòu)框圖;圖4示出了實施例2提供的專利數(shù)據(jù)分析方法的流程圖;圖5示出了實施例2提供的數(shù)據(jù)倉庫中的數(shù)據(jù)視圖的結(jié)構(gòu)示意圖。
具體實施例方式下文中將參考附圖并結(jié)合實施例來詳細說明本發(fā)明。需要說明的是,在不沖突的 情況下,本申請中的實施例及實施例中的特征可以相互組合。本發(fā)明實施例主要針對專利信息量的迅速增長以及查詢的復(fù)雜化狀況,在傳統(tǒng)的 OLTP (On-Line Transaction Processing,聯(lián)機事務(wù)處理)系統(tǒng)不能滿足對數(shù)據(jù)進行深層次 多維分析的情況下,采用了數(shù)據(jù)倉庫和0LAP(0ri-Line Analytical Processing,聯(lián)機分析處理)相結(jié)合的技術(shù)進行專利分析。實施例1參見圖1,本實施例提供了一種專利數(shù)據(jù)分析系統(tǒng),該系統(tǒng)包括本地數(shù)據(jù)庫102、 建立模塊104、數(shù)據(jù)抽取模塊106、數(shù)據(jù)倉庫107、數(shù)據(jù)分析模塊108和顯示模塊110 ;其中,本地數(shù)據(jù)庫102,用于存儲專利數(shù)據(jù),該專利數(shù)據(jù)與預(yù)先建立的主題相對應(yīng);本實施例中預(yù)先建立的主題指專利集合,可以是依據(jù)用戶的需求(即,分析目的) 建立的,例如“華為公司”欲查詢其競爭對手“中興公司”的技術(shù)發(fā)展?fàn)顩r,則在本地數(shù)據(jù)庫 中建立一個主題申請人為中興公司,這樣進行專利分析時,則只考慮該主題下的專利;或 者發(fā)明人需要了解其研究課題目前的發(fā)展?fàn)顩r,則可以建立與其研究課題一致的主題,例 如發(fā)明名稱為單片機的主題等;本地數(shù)據(jù)庫102中的專利可以通過從互聯(lián)網(wǎng)下載的方式獲取,也可以通過其他方 式獲取。建立模塊104,用于建立與上述主題一致的數(shù)據(jù)集市,以及在數(shù)據(jù)倉庫中建立與本 地數(shù)據(jù)庫102中的主題對應(yīng)的數(shù)據(jù)視圖;通常數(shù)據(jù)集市是建立在分析服務(wù)器上的;數(shù)據(jù)抽取模塊106,用于對本地數(shù)據(jù)庫102中的專利數(shù)據(jù)進行抽?。粩?shù)據(jù)倉庫107,用于存儲數(shù)據(jù)抽取模塊106抽取后的專利數(shù)據(jù),其中,本實施例中 的存儲是以基于數(shù)據(jù)視圖的形式存儲的;數(shù)據(jù)分析模塊108,用于根據(jù)用戶的請求確定建立模塊104建立的數(shù)據(jù)集市,根據(jù) 確定的數(shù)據(jù)集市進行專利數(shù)據(jù)分析;顯示模塊110,用于將數(shù)據(jù)分析模塊108分析的結(jié)果以視圖的形式返回給用戶。為了能夠更好地進行專利數(shù)據(jù)分析,需要使本地數(shù)據(jù)庫中的主題、數(shù)據(jù)倉庫中的 數(shù)據(jù)視圖與分析服務(wù)器上的數(shù)據(jù)集市保持一致,建立模塊104可以定時監(jiān)測每個主題在 數(shù)據(jù)倉庫中是否存在對應(yīng)的數(shù)據(jù)視圖,是否存在對應(yīng)的數(shù)據(jù)集市,如果沒有,則使用腳本創(chuàng) 建;當(dāng)本地數(shù)據(jù)庫中的某個主題被刪除時,數(shù)據(jù)倉庫中對應(yīng)的數(shù)據(jù)視圖和對應(yīng)的數(shù)據(jù)集市 也要刪除;本實施例以視圖的形式向用戶顯示專利分析的結(jié)果,可以使用戶能夠更直觀地獲 取到需要的信息,方便用戶的使用。優(yōu)選地,本地數(shù)據(jù)庫102包括多個原始信息庫,用于存儲各種專利信息的原始數(shù)據(jù);該原始信息庫可以集中存 儲,也可以采用分布式存儲方式;上述建立模塊104、數(shù)據(jù)抽取模塊106、數(shù)據(jù)倉庫107、數(shù)據(jù)分析模塊108和顯示模 塊110可以集成在一個設(shè)備上,參見圖2,為本實施例提供的另一專利數(shù)據(jù)分析系統(tǒng),該系 統(tǒng)中將建立模塊104、數(shù)據(jù)抽取模塊106、數(shù)據(jù)倉庫107、數(shù)據(jù)分析模塊108和顯示模塊110 集成在服務(wù)器10中。本實施例中提到的對本地數(shù)據(jù)庫中的專利進行抽取指的是進行 ETL (Extract-Transform-Load,抽取、轉(zhuǎn)換和裝載)處理;上述數(shù)據(jù)抽取分為全庫抽取和增量抽取,其中,全庫抽取為將本地數(shù)據(jù)庫中的所 有數(shù)據(jù)都復(fù)制到數(shù)據(jù)倉庫中;增量抽取為只抽取上一次抽取完成之后增加的數(shù)據(jù);增量抽 取的抽取周期可以是一天;一個月,或每周固定時間;
數(shù)據(jù)抽取模塊106進行數(shù)據(jù)抽取時,判斷本地數(shù)據(jù)庫的主題是否在分析服務(wù)器 中有對應(yīng)的數(shù)據(jù)立方(即,數(shù)據(jù)集市),如果沒有,則動態(tài)在分析服務(wù)器中創(chuàng)建對應(yīng)的數(shù)據(jù) 立方,實現(xiàn)分析服務(wù)器與本地數(shù)據(jù)庫的主題一致;同時,可以按照某種規(guī)則,設(shè)定數(shù)據(jù)立方 ID,如按照主題ID,創(chuàng)建同名數(shù)據(jù)立方,以及同名的數(shù)據(jù)倉庫中的數(shù)據(jù)視圖,以便使這三 者(本地數(shù)據(jù)庫中的主題、數(shù)據(jù)視圖和數(shù)據(jù)立方)一致。本實施例的數(shù)據(jù)抽取可以采用全庫抽取與增量抽取相結(jié)合的方式完成,具體方法 為初次數(shù)據(jù)抽取,采取全庫抽??;然后,為全庫抽取設(shè)定一個較長周期(例如一月),在 全庫抽取周期內(nèi),設(shè)置多個較短周期(例如一個星期),用于進行增量抽?。贿M行增量抽取時,采取在本地數(shù)據(jù)庫增加時間戳,每次增量抽取,只抽取上次抽取 完成之后增加的數(shù)據(jù);因為在經(jīng)過較長時間后,原始數(shù)據(jù)庫中已經(jīng)被抽取到數(shù)據(jù)倉庫的專利也可能會發(fā) 生變化,例如法律狀態(tài)在經(jīng)過一段時間,有的專利狀態(tài)發(fā)生了新的變化,由公開變?yōu)閷崒彛?以及用戶對專利數(shù)據(jù)進行了修改,標(biāo)引等;所以經(jīng)過較長時間后,需要進行全庫抽??;進一步地,在上述抽取方式的基礎(chǔ)上,還可以結(jié)合更新抽取的方式,其中,更新抽 取是指已經(jīng)對本地專利數(shù)據(jù)庫中的專利進行了抽取,并存儲到數(shù)據(jù)倉庫中,但是隨著時間 的推移,本地專利數(shù)據(jù)庫的專利發(fā)生了變化,需要采取更新抽??;具體更新抽取的方式有1)在本地專利數(shù)據(jù)庫中增加更新時間戳,本地專利變化后,同時由業(yè)務(wù)系統(tǒng)更新 此時間戳,自動抽取上次更新抽取之后的專利數(shù)據(jù);2)本地專利數(shù)據(jù)庫采用觸發(fā)器方式,建立更新觸發(fā)器,每當(dāng)專利表中的數(shù)據(jù)發(fā)生 變化后,更新觸發(fā)器將變化的數(shù)據(jù)寫入一個臨時表,更新抽取從臨時表中抽取數(shù)據(jù),臨時表 中抽取過的數(shù)據(jù)被標(biāo)記或刪除;3)在本地專利數(shù)據(jù)庫中增加更新時間戳,用觸發(fā)器方式,建立更新觸發(fā)器,每當(dāng)專 利表中的數(shù)據(jù)發(fā)生變化后,更新觸發(fā)器自動記錄變化專利的更新時間戳,更新抽取服務(wù)自 動抽取上次更新抽取之后的專利數(shù)據(jù);上述更新抽取與增量抽取可以同時進行,也可以異步進行;優(yōu)選地,數(shù)據(jù)抽取模塊106進行數(shù)據(jù)抽取設(shè)定時,可以設(shè)定全庫抽取的周期,增量 抽取的周期,更新抽取的周期;每次抽取完成記錄全庫抽取的時間,增量抽取的時間,以及 更新抽取的時間,下次啟動時根據(jù)上次抽取的時間和設(shè)定周期,判斷是否進行新的抽取工作。優(yōu)選地,上述系統(tǒng)還可以包括法律狀態(tài)采集模塊,用于從法律狀態(tài)檢索網(wǎng)站采集指定專利的法律狀態(tài)信息;和/或,存活期計算模塊,用于解析采集到的法律狀態(tài)信息,根據(jù)解析后的信息計 算該指定專利的存活期等。其中,存活期指專利自申請日起到當(dāng)前時間的時長;專利存活期是一個隨時間變 化的非物理存儲數(shù)據(jù),是一個計算項目,在經(jīng)過一段時間后,自動會發(fā)生變化,需要再次計 算才能知道,而實際數(shù)據(jù)又沒有變化,如存活期由4變?yōu)? (它是當(dāng)前時間與申請時間的年 度差值),這種非物理數(shù)據(jù)的變化通過其它方式是無法獲得的,需要采用全庫抽取策略,在 抽取過程中重新計算專利的存活期,雖然這種策略存在一定的滯后性,但是可以接受的;這里可以優(yōu)化處理的方案是,不進行全庫抽取,而是通過啟動一個線程對數(shù)據(jù)倉庫的存活期數(shù)據(jù)進行周期性的完全再計算獲得,這種計算可以按天、周、月等的周期進行, 減少系統(tǒng)負載,但這樣不能解決本地數(shù)據(jù)庫的專利被刪除的情況;進而采取全庫抽取,與數(shù)據(jù)倉庫數(shù)據(jù)的存活期再計算策略相結(jié)合的方式,全庫抽 取可以適當(dāng)設(shè)定較長的周期;上述從法律狀態(tài)檢索網(wǎng)站(例如,中華人民共和國國家知識產(chǎn)權(quán)局)上查找指定 專利可以根據(jù)該專利的專利號查找,也可以根據(jù)該專利的專利名稱查找。通過對指定專利法律狀態(tài)的查詢,并對查詢的結(jié)果進行解析,可以為計算該專利 的存活期提供依據(jù),使用戶能夠進一步地了解該專利。優(yōu)選地,上述系統(tǒng)還可以包括專利歸屬地解析模塊,用于根據(jù)指定專利的申請人地址信息和預(yù)先設(shè)定的地域代 碼表,自動判斷專利的所屬地。例如所屬國、省、市等。本實施例中的數(shù)據(jù)抽取的啟動可以是自動啟動,也可以是由用戶觸發(fā)啟動;其中, 自動啟動的時間可以設(shè)定在服務(wù)器比較空閑的時間,比如后半夜,這時幾乎沒有人在訪問 服務(wù)器,避開系統(tǒng)負載高峰,或者系統(tǒng)自動檢測服務(wù)器的負載情況,調(diào)整啟動的時間,這種 稱為閑時抽取;有時用戶想立即對最新的專利數(shù)據(jù)進行分析,這時通過手動觸發(fā)啟動實現(xiàn) 立即啟動抽取進程。優(yōu)選地,在進行數(shù)據(jù)抽取時,也可以對特定主題進行抽取,例如對本地數(shù)據(jù)庫中, 只有某個主題的專利數(shù)據(jù)發(fā)生變化,可以只對變化的主題進行抽??;優(yōu)選地,對于新增專利數(shù)據(jù),例如新公開的專利,需要判定它歸屬于哪個主題,設(shè) 置歸屬至的主題更新標(biāo)識,對具有更新標(biāo)識的主題進行ETL處理;對于僅狀態(tài)發(fā)生變化的, 例如著錄變更專利權(quán)轉(zhuǎn)讓,可以直接對數(shù)據(jù)倉庫中對應(yīng)的專利進行寫入,減少系統(tǒng)資源的 浪費。參見圖3,本實施例還提供了一種專利數(shù)據(jù)分析系統(tǒng),該系統(tǒng)包括第一建立模塊1002,用于在本地數(shù)據(jù)庫中建立與分析目的對應(yīng)的主題;第二建立模塊1004,用于建立與主題一致的數(shù)據(jù)集市,以及在數(shù)據(jù)倉庫中建立與 第一建立模塊1002建立的主題對應(yīng)的數(shù)據(jù)視圖;數(shù)據(jù)抽取模塊1006,用于對本地數(shù)據(jù)庫中的專利數(shù)據(jù)進行抽??;存儲模塊1008,用于將數(shù)據(jù)抽取模塊1006抽取后的專利數(shù)據(jù)存儲至數(shù)據(jù)倉庫,其 中,存儲以基于數(shù)據(jù)視圖的形式存儲;數(shù)據(jù)分析模塊1010,用于根據(jù)用戶的請求確定第二建立模塊1004建立的數(shù)據(jù)集 市,根據(jù)所確定的數(shù)據(jù)集市進行專利數(shù)據(jù)分析;顯示模塊1012,用于將數(shù)據(jù)分析模塊1010分析的結(jié)果以視圖的形式返回給用戶。其中,數(shù)據(jù)抽取模塊1006的實現(xiàn)可以與圖1所示系統(tǒng)中的數(shù)據(jù)抽取模塊106的實 現(xiàn)一樣,這里不再贅述。優(yōu)選地,上述系統(tǒng)還可以包括法律狀態(tài)采集模塊,用于從法律狀態(tài)檢索網(wǎng)站采集指定專利的法律狀態(tài)信息;和/或,存活期計算模塊,用于解析采集到的法律狀態(tài)信息,根據(jù)解析后的信息計 算該指定專利的存活期等?;蛘哌€包括,專利歸屬地解析模塊,用于根據(jù)指定專利的申請人地址信息和預(yù)先設(shè)定的地域代碼表,自動判斷專利的所屬地。例如所屬國、省、市等。本實施例通過采用數(shù)據(jù)倉庫和OLAP相結(jié)合的技術(shù),對專利數(shù)據(jù)進行ETL處理,并 對存儲在數(shù)據(jù)倉庫中的數(shù)據(jù)完成多維的分析,將分析結(jié)果以多維視圖的直觀形式返回給用 戶,可以提高專利分析的效率和質(zhì)量,便于用戶使用。實施例2參見圖4,本實施例提供了一種專利數(shù)據(jù)分析方法,該方法包括步驟S302 在本地數(shù)據(jù)庫中建立與分析目的對應(yīng)的主題;為了便于管理專利,本實施例根據(jù)用戶的需求,在本地數(shù)據(jù)庫中建立對應(yīng)的主題, 按照主題的方式對專利進行組織,每個主題下的專利數(shù)據(jù)用戶可以進行標(biāo)引和修改等操 作;步驟S304 建立與上述主題一致的數(shù)據(jù)集市,以及在數(shù)據(jù)倉庫中建立與上述主題 對應(yīng)的數(shù)據(jù)視圖;本實施例優(yōu)選數(shù)據(jù)倉庫中的數(shù)據(jù)視圖、分析服務(wù)器上的數(shù)據(jù)集市與本地數(shù)據(jù)庫中 的主題保持對應(yīng)的關(guān)系,可以按照某種規(guī)則,為本地數(shù)據(jù)庫中的主題、數(shù)據(jù)視圖和數(shù)據(jù)集市 分配相同的標(biāo)識號ID,根據(jù)該ID判斷這三者(本地數(shù)據(jù)庫中的主題、數(shù)據(jù)視圖和數(shù)據(jù)立 方)是否一致,如果不是,則需要根據(jù)本地數(shù)據(jù)庫中的主題建立與之對應(yīng)的數(shù)據(jù)視圖和數(shù) 據(jù)集市;步驟S306 對本地數(shù)據(jù)庫中的專利數(shù)據(jù)進行抽取,將抽取后的專利數(shù)據(jù)存儲至數(shù) 據(jù)倉庫中,其中,本實施例中的存儲以基于上述數(shù)據(jù)視圖的形式存儲;本實施例中提到的數(shù)據(jù)抽取指進行ETL處理,即進行抽取、轉(zhuǎn)換、清洗、過濾和裝 載等處理,處理后的專利存儲在數(shù)據(jù)倉庫中,本實施例該數(shù)據(jù)倉庫置于服務(wù)器中。本實施例可以對數(shù)據(jù)倉庫中的數(shù)據(jù)定期進行更新操作,即進行上述抽取操作,數(shù) 據(jù)抽取分為全庫抽取、增量抽取和更新抽取,其中,全庫抽取為將本地數(shù)據(jù)庫中的所有數(shù)據(jù) 都復(fù)制到服務(wù)器的數(shù)據(jù)倉庫中;增量抽取為只抽取上一次抽取完成之后增加的數(shù)據(jù);增量 抽取的抽取周期可以是一天;一個月,或每周固定時間;更新抽取指當(dāng)本地數(shù)據(jù)庫中的專 利發(fā)生變化時,對變化的專利進行抽取的方式;其中,進行全庫抽取、增量抽取或者更新抽 取具體實現(xiàn)同實施例1中的實現(xiàn)一樣,這里不再詳述。上述數(shù)據(jù)抽取可以定期進行,例如每隔第一預(yù)設(shè)時間(例如一月)抽取本地數(shù)據(jù) 庫中的全部專利數(shù)據(jù);或者,每隔第二預(yù)設(shè)時間(例如一周)抽取本地數(shù)據(jù)庫中的特定主 題的專利數(shù)據(jù);或者,每隔第三預(yù)設(shè)時間(例如一個月)抽取本地數(shù)據(jù)庫中的特定狀態(tài)的 專利數(shù)據(jù)。進行更新抽取時,上述方法還可以包括在本地數(shù)據(jù)庫中設(shè)置更新時間戳;相應(yīng)地,對本地數(shù)據(jù)庫中的專利數(shù)據(jù)進行抽取 包括當(dāng)本地數(shù)據(jù)庫中的專利數(shù)據(jù)發(fā)生變化時,對更新時間戳之后的專利數(shù)據(jù)進行抽取; 或者,在本地數(shù)據(jù)庫中建立更新觸發(fā)器,當(dāng)本地數(shù)據(jù)庫中的專利數(shù)據(jù)發(fā)生變化時,更新 觸發(fā)器將變化的專利數(shù)據(jù)寫入臨時表;相應(yīng)地,對本地數(shù)據(jù)庫中的專利數(shù)據(jù)進行抽取包括 從上述臨時表中抽取專利數(shù)據(jù),并將臨時表中抽取過的專利數(shù)據(jù)刪除或作特定標(biāo)記;或者,在本地數(shù)據(jù)庫中同時設(shè)置更新時間戳和建立更新觸發(fā)器;當(dāng)本地數(shù)據(jù)庫中的專利數(shù)據(jù)發(fā)生變化時,更新觸發(fā)器記錄變化的專利數(shù)據(jù)的更新時間戳;相應(yīng)地,對本地數(shù)據(jù)庫中 的專利數(shù)據(jù)進行抽取包括根據(jù)上述更新觸發(fā)器記錄的更新時間戳,對上次抽取之后的專 利數(shù)據(jù)進行抽取。進行抽取時,可以每隔預(yù)設(shè)時間抽取本地數(shù)據(jù)庫中的全部專利數(shù)據(jù);或者,每隔預(yù) 設(shè)時間抽取本地數(shù)據(jù)庫中的特定主題的專利數(shù)據(jù);或者,通過預(yù)先設(shè)定的系統(tǒng)時鐘自動觸 發(fā)進行專利數(shù)據(jù)的抽取等;然后對抽取到的數(shù)據(jù)進行轉(zhuǎn)換等操作,使其的存儲形式符合上 述數(shù)據(jù)視圖的形式,進而使得到的分析結(jié)果更加準(zhǔn)確、可靠;步驟S308 根據(jù)用戶的請求確定對應(yīng)的數(shù)據(jù)集市,按照確定的數(shù)據(jù)集市對專利數(shù) 據(jù)進行分析;步驟S310 將分析的結(jié)果以視圖的形式返回給用戶。數(shù)據(jù)抽取時,判斷本地數(shù)據(jù)庫的主題是否在數(shù)據(jù)倉庫中有對應(yīng)的數(shù)據(jù)視圖,以及 是否在分析服務(wù)器中有對應(yīng)的數(shù)據(jù)立方(即,數(shù)據(jù)集市),如果沒有,則根據(jù)主題建立數(shù)據(jù) 視圖,以及動態(tài)在分析服務(wù)器中創(chuàng)建對應(yīng)的數(shù)據(jù)立方,實現(xiàn)數(shù)據(jù)視圖、數(shù)據(jù)立方與本地數(shù)據(jù) 庫的主題一致;本實施例的數(shù)據(jù)抽取可以采用全庫抽取與增量抽取相結(jié)合的方式完成,具體方法 為初次數(shù)據(jù)抽取,采取全庫抽取;然后,為全庫抽取設(shè)定一個較長周期(例如一月),在 全庫抽取周期內(nèi),設(shè)置多個較短周期(例如一個星期),用于進行增量抽?。换蛘?,采取更 新抽取與增量抽取同時進行,或異步進行。進行增量抽取時,采取在本地數(shù)據(jù)庫增加時間戳,每次增量抽取,只抽取上次抽取 完成之后增加的數(shù)據(jù);因為在經(jīng)過較長時間后,原始數(shù)據(jù)庫中已經(jīng)被抽取到數(shù)據(jù)倉庫的專利也可能會發(fā) 生變化,例如法律狀態(tài)在經(jīng)過一段時間,有的專利狀態(tài)發(fā)生了新的變化,由公開變?yōu)閷崒彛?以及用戶對專利數(shù)據(jù)進行了修改,標(biāo)引等;所以經(jīng)過較長時間后,需要進行全庫抽??;本實施例中的數(shù)據(jù)抽取的啟動可以是自動啟動,也可以是由用戶觸發(fā)啟動;其中, 自動啟動的時間一般可以設(shè)定在服務(wù)器比較空閑的時間,比如后半夜,這時幾乎沒有人在 訪問服務(wù)器,避開系統(tǒng)負載高峰,或者系統(tǒng)自動檢測服務(wù)器的負載情況,調(diào)整啟動的時間, 這種稱為閑時抽?。挥袝r用戶想立即對最新的專利數(shù)據(jù)進行分析,這時通過手動觸發(fā)啟動 實現(xiàn)立即啟動抽取進程。優(yōu)選地,在進行數(shù)據(jù)抽取時,也可以對特定主題進行抽取,例如對本地數(shù)據(jù)庫中, 只有某個主題的專利數(shù)據(jù)發(fā)生變化,可以只對變化的主題進行抽取。優(yōu)選地,上述方法還包括當(dāng)用戶欲查詢指定專利的存活期時,從法律狀態(tài)檢索網(wǎng) 站采集該指定專利的法律狀態(tài)信息;解析法律狀態(tài)信息;根據(jù)解析后的信息計算該指定專 利的存活期。優(yōu)選地,上述方法還包括當(dāng)用戶欲查詢指定專利的歸屬地時,根據(jù)該指定專利中 的申請人地址信息和預(yù)先設(shè)定的地域代碼表,判斷指定專利的所屬地。其中,地域代碼表指 將地方(例如,國家、省或市等)用代碼表示,并用表格的形式使每個代碼與每個地方一一 對應(yīng)。參見圖5,為本實施例提供的數(shù)據(jù)倉庫中的數(shù)據(jù)視圖的結(jié)構(gòu)示意圖,其中,數(shù)據(jù)視 圖采用星型模式對專利數(shù)據(jù)中的信息進行組織,本實施例僅以一部分信息為例進行說明,本實施例的數(shù)據(jù)倉庫采用的是關(guān)系數(shù)據(jù)庫的形式存儲,根據(jù)本地數(shù)據(jù)庫中建立的主題在關(guān) 系數(shù)據(jù)庫中建立對應(yīng)數(shù)據(jù)視圖,實現(xiàn)與主題數(shù)據(jù)的邏輯隔離。優(yōu)選地,對于新增專利數(shù)據(jù),例如新公開的專利,需要判定它歸屬于哪個主題,設(shè) 置歸屬至的主題更新標(biāo)識,對具有更新標(biāo)識的主題進行ETL處理;對于僅狀態(tài)發(fā)生變化的, 例如著錄變更專利權(quán)轉(zhuǎn)讓,可以直接對數(shù)據(jù)倉庫中對應(yīng)的專利進行寫入,減少系統(tǒng)資源的浪費。本實施例通過采用數(shù)據(jù)倉庫和OLAP相結(jié)合的技術(shù),對專利數(shù)據(jù)進行ETL處理,并 對存儲在數(shù)據(jù)倉庫中的數(shù)據(jù)完成多維的分析,將分析結(jié)果以多維視圖的直觀形式返回給用 戶,可以提高專利分析的效率和質(zhì)量,便于用戶使用。顯然,本領(lǐng)域的技術(shù)人員應(yīng)該明白,上述的本發(fā)明的各模塊或各步驟可以用通用 的計算裝置來實現(xiàn),它們可以集中在單個的計算裝置上,或者分布在多個計算裝置所組成 的網(wǎng)絡(luò)上,可選地,它們可以用計算裝置可執(zhí)行的程序代碼來實現(xiàn),從而,可以將它們存儲 在存儲裝置中由計算裝置來執(zhí)行,并且在某些情況下,可以以不同于此處的順序執(zhí)行所示 出或描述的步驟,或者將它們分別制作成各個集成電路模塊,或者將它們中的多個模塊或 步驟制作成單個集成電路模塊來實現(xiàn)。這樣,本發(fā)明不限制于任何特定的硬件和軟件結(jié)合。以上所述僅為本發(fā)明的優(yōu)選實施例而已,并不用于限制本發(fā)明,對于本領(lǐng)域的技 術(shù)人員來說,本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修 改、等同替換、改進等,均應(yīng)包含在本發(fā)明的保護范圍之內(nèi)。
權(quán)利要求
1.一種專利數(shù)據(jù)分析方法,其特征在于,所述方法包括 在本地數(shù)據(jù)庫中建立與分析目的對應(yīng)的主題;建立與所述主題一致的數(shù)據(jù)集市,以及在數(shù)據(jù)倉庫中建立與所述主題對應(yīng)的數(shù)據(jù)視圖;對所述本地數(shù)據(jù)庫中的專利數(shù)據(jù)進行抽??;將抽取后的專利數(shù)據(jù)存儲至所述數(shù)據(jù)倉庫中,所述存儲以基于所述數(shù)據(jù)視圖的形式存儲;根據(jù)用戶的請求確定對應(yīng)的數(shù)據(jù)集市,根據(jù)所確定的數(shù)據(jù)集市進行專利數(shù)據(jù)分析; 將分析的結(jié)果以視圖的形式返回給用戶。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,對所述本地數(shù)據(jù)庫中的專利數(shù)據(jù)進行抽 取包括定期對所述本地數(shù)據(jù)庫中的專利數(shù)據(jù)進行抽取。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,定期對所述本地數(shù)據(jù)庫中的專利數(shù)據(jù)進 行抽取包括以下方式中的至少一種方式每隔第一預(yù)設(shè)時間抽取所述本地數(shù)據(jù)庫中的全部專利數(shù)據(jù); 每隔第二預(yù)設(shè)時間抽取所述本地數(shù)據(jù)庫中的特定主題的專利數(shù)據(jù);以及 每隔第三預(yù)設(shè)時間抽取所述本地數(shù)據(jù)庫中的特定狀態(tài)的專利數(shù)據(jù)。
4.根據(jù)權(quán)利要求2所述的方法,其特征在于,定期對所述本地數(shù)據(jù)庫中的專利數(shù)據(jù)進 行抽取是系統(tǒng)定時抽取或閑時抽取。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于, 在所述本地數(shù)據(jù)庫中設(shè)置有更新時間戳;相應(yīng)地,對所述本地數(shù)據(jù)庫中的專利數(shù)據(jù)進行抽取包括當(dāng)所述本地數(shù)據(jù)庫中的專利數(shù)據(jù)發(fā)生變化時,對所述更新時間戳之后的專利數(shù)據(jù)進行 抽取。
6.根據(jù)權(quán)利要求1所述的方法,其特征在于, 在所述本地數(shù)據(jù)庫中建立有更新觸發(fā)器;當(dāng)所述本地數(shù)據(jù)庫中的專利數(shù)據(jù)發(fā)生變化時,所述更新觸發(fā)器將變化的專利數(shù)據(jù)寫入 臨時表;相應(yīng)地,對所述本地數(shù)據(jù)庫中的專利數(shù)據(jù)進行抽取包括從所述臨時表中抽取專利數(shù)據(jù),并將所述臨時表中抽取過的專利數(shù)據(jù)刪除或作特定標(biāo)記。
7.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述方法還包括 在所述本地數(shù)據(jù)庫中設(shè)置有更新時間戳和建立有更新觸發(fā)器;當(dāng)所述本地數(shù)據(jù)庫中的專利數(shù)據(jù)發(fā)生變化時,所述更新觸發(fā)器記錄變化的專利數(shù)據(jù)的 更新時間戳;相應(yīng)地,對所述本地數(shù)據(jù)庫中的專利數(shù)據(jù)進行抽取包括根據(jù)所述更新觸發(fā)器記錄的更新時間戳,對上次抽取之后的專利數(shù)據(jù)進行抽取。
8.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述方法還包括從法律狀態(tài)檢索網(wǎng)站采集指定專利的法律狀態(tài)信息。
9.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述方法還包括獲取指定專利的存活期,包括 從法律狀態(tài)檢索網(wǎng)站采集所述指定專利的法律狀態(tài)信息; 解析所述法律狀態(tài)信息; 根據(jù)解析后的信息計算所述指定專利的存活期。
10.根據(jù)權(quán)利要求1所述的方法,其特征在于, 所述方法還包括獲取指定專利的所屬地,包括根據(jù)所述指定專利中的申請人地址信息和預(yù)先設(shè)定的地域代碼表,判斷所述指定專利 的所屬地。
11.一種專利數(shù)據(jù)分析系統(tǒng),其特征在于,所述系統(tǒng)包括本地數(shù)據(jù)庫,用于存儲專利數(shù)據(jù),所述專利數(shù)據(jù)與預(yù)先建立的主題相對應(yīng); 建立模塊,用于建立與所述主題一致的數(shù)據(jù)集市,以及在數(shù)據(jù)倉庫中建立與所述本地 數(shù)據(jù)庫中的主題對應(yīng)的數(shù)據(jù)視圖;數(shù)據(jù)抽取模塊,用于對所述本地數(shù)據(jù)庫中的專利數(shù)據(jù)進行抽?。?數(shù)據(jù)倉庫,用于存儲所述數(shù)據(jù)抽取模塊抽取后的專利數(shù)據(jù),所述存儲以基于所述數(shù)據(jù) 視圖的形式存儲;數(shù)據(jù)分析模塊,用于根據(jù)用戶的請求確定所述建立模塊建立的數(shù)據(jù)集市,根據(jù)所確定 的數(shù)據(jù)集市進行專利數(shù)據(jù)分析;顯示模塊,用于將所述數(shù)據(jù)分析模塊分析的結(jié)果以視圖的形式返回給用戶。
12.—種專利數(shù)據(jù)分析系統(tǒng),其特征在于,所述系統(tǒng)包括 第一建立模塊,用于在本地數(shù)據(jù)庫中建立與分析目的對應(yīng)的主題;第二建立模塊,用于建立與所述主題一致的數(shù)據(jù)集市,以及在數(shù)據(jù)倉庫中建立與所述 第一建立模塊建立的主題對應(yīng)的數(shù)據(jù)視圖;數(shù)據(jù)抽取模塊,用于對所述本地數(shù)據(jù)庫中的專利數(shù)據(jù)進行抽?。?存儲模塊,用于將所述數(shù)據(jù)抽取模塊抽取后的專利數(shù)據(jù)存儲至數(shù)據(jù)倉庫,所述存儲以 基于所述數(shù)據(jù)視圖的形式存儲;數(shù)據(jù)分析模塊,用于根據(jù)用戶的請求確定所述第二建立模塊建立的數(shù)據(jù)集市,根據(jù)所 確定的數(shù)據(jù)集市進行專利數(shù)據(jù)分析;顯示模塊,用于將所述數(shù)據(jù)分析模塊分析的結(jié)果以視圖的形式返回給用戶。
全文摘要
本發(fā)明公開了一種專利數(shù)據(jù)分析方法和系統(tǒng),屬于計算機應(yīng)用領(lǐng)域。所述專利數(shù)據(jù)分析方法包括在本地數(shù)據(jù)庫中建立與分析目的對應(yīng)的主題,建立與所述主題一致的數(shù)據(jù)集市,以及在數(shù)據(jù)倉庫中建立與所述主題對應(yīng)的數(shù)據(jù)視圖,對所述本地數(shù)據(jù)庫中的專利數(shù)據(jù)進行抽取,將抽取的專利數(shù)據(jù)存儲至所述數(shù)據(jù)倉庫中,根據(jù)用戶的請求確定對應(yīng)的數(shù)據(jù)集市,根據(jù)所確定的數(shù)據(jù)集市進行分析,將分析的結(jié)果以視圖的形式返回給用戶。本發(fā)明針對主題對專利數(shù)據(jù)進行ETL處理,并對專利數(shù)據(jù)分析,可以提高專利分析的效率和質(zhì)量,便于用戶使用。
文檔編號G06F17/30GK102117303SQ20091026576
公開日2011年7月6日 申請日期2009年12月31日 優(yōu)先權(quán)日2009年12月31日
發(fā)明者潘曉梅 申請人:潘曉梅