本發(fā)明涉及數(shù)據(jù)處理,尤其是一種用于人口數(shù)據(jù)挖掘的知識(shí)庫(kù)構(gòu)建方法及系統(tǒng)。
背景技術(shù):
1、隨著信息技術(shù)的迅猛發(fā)展,數(shù)據(jù)量呈爆炸式增長(zhǎng),特別是人口數(shù)據(jù)的采集和處理日益成為研究和決策的重要基礎(chǔ)。通過(guò)對(duì)人口大數(shù)據(jù)的深入挖掘和分析,可以揭示人口結(jié)構(gòu)、遷移模式、健康狀況、消費(fèi)行為等方面的規(guī)律和趨勢(shì),從而可以為制定科學(xué)合理的人口措施、優(yōu)化公共資源配置、提升治理能力提供有力支撐。此外,人口大數(shù)據(jù)應(yīng)用的廣泛普及也為學(xué)術(shù)研究提供了豐富的素材,有助于推動(dòng)社會(huì)科學(xué)、經(jīng)濟(jì)學(xué)、公共衛(wèi)生等領(lǐng)域的研究進(jìn)展。構(gòu)建一個(gè)系統(tǒng)化、智能化的知識(shí)系統(tǒng),能夠有效整合和分析海量人口數(shù)據(jù),不僅提高了數(shù)據(jù)利用效率,還促進(jìn)了數(shù)據(jù)資源的共享與協(xié)同,提升了決策的科學(xué)性和精準(zhǔn)度。同時(shí),還可以為企業(yè)市場(chǎng)分析、產(chǎn)品定位及服務(wù)創(chuàng)新提供重要參考。
2、然而,現(xiàn)有的人口大數(shù)據(jù)挖掘方法僅僅通過(guò)獲取的人口數(shù)據(jù)本身特征進(jìn)行分析,該方式具有一定的局限性,分析所得數(shù)據(jù)屬性無(wú)法突破數(shù)據(jù)本身特征的約束范圍,例如通過(guò)經(jīng)濟(jì)數(shù)據(jù)對(duì)一個(gè)地區(qū)某個(gè)季度的消費(fèi)特征進(jìn)行分析,現(xiàn)有方法只能挖掘出在經(jīng)濟(jì)數(shù)據(jù)本身涵蓋范圍內(nèi)的結(jié)果(如消費(fèi)水平高低、各類商品購(gòu)買占比、支出占收入占比等),無(wú)法獲取其他維度的分析結(jié)果(比如對(duì)于某種類型商品購(gòu)買的原因等)。
技術(shù)實(shí)現(xiàn)思路
1、為解決上述現(xiàn)有技術(shù)問(wèn)題,本發(fā)明提供一種用于人口數(shù)據(jù)挖掘的知識(shí)庫(kù)構(gòu)建方法及系統(tǒng)。
2、第一方面,本技術(shù)實(shí)施例提供一種用于人口數(shù)據(jù)挖掘的知識(shí)庫(kù)構(gòu)建方法,包括:獲取數(shù)據(jù)集;其中,所述數(shù)據(jù)集中的數(shù)據(jù)與人口數(shù)據(jù)挖掘任務(wù)相關(guān)聯(lián);構(gòu)建與所述數(shù)據(jù)集中的每個(gè)數(shù)據(jù)對(duì)應(yīng)的知識(shí)圖;針對(duì)所述數(shù)據(jù)集中的任一數(shù)據(jù),包括:對(duì)該數(shù)據(jù)中的內(nèi)容進(jìn)行實(shí)體識(shí)別,確定每個(gè)實(shí)體的實(shí)體類型;調(diào)用與每個(gè)實(shí)體類型對(duì)應(yīng)的多個(gè)挖掘問(wèn)題;基于每個(gè)實(shí)體、每個(gè)實(shí)體類型對(duì)應(yīng)的多個(gè)挖掘問(wèn)題以及大語(yǔ)言模型的回答結(jié)果,生成與每個(gè)實(shí)體對(duì)應(yīng)的實(shí)體挖掘數(shù)據(jù);采用transformer模型對(duì)所述實(shí)體挖掘數(shù)據(jù)進(jìn)行編碼,生成編碼結(jié)果;對(duì)存在實(shí)體重合的編碼結(jié)果進(jìn)行句法依存分析,基于句法依存分析結(jié)果將重合的實(shí)體進(jìn)行連接,以得到該數(shù)據(jù)對(duì)應(yīng)的知識(shí)圖;其中,該數(shù)據(jù)對(duì)應(yīng)的知識(shí)圖中的節(jié)點(diǎn)為實(shí)體,節(jié)點(diǎn)的值為該實(shí)體的實(shí)體挖掘數(shù)據(jù)對(duì)應(yīng)的編碼結(jié)果;存在實(shí)體重合的節(jié)點(diǎn)相互連接;將每個(gè)數(shù)據(jù)對(duì)應(yīng)的知識(shí)圖進(jìn)行存儲(chǔ),構(gòu)建形成知識(shí)庫(kù);其中,所述知識(shí)庫(kù)被調(diào)用后,用于輸出與人口數(shù)據(jù)挖掘任務(wù)對(duì)應(yīng)的數(shù)據(jù)分析結(jié)果。
3、可選地,所述采用transformer模型對(duì)所述實(shí)體挖掘數(shù)據(jù)進(jìn)行編碼,生成編碼結(jié)果,包括:采用transformer模型對(duì)所述實(shí)體挖掘數(shù)據(jù)進(jìn)行編碼,保留編碼過(guò)程中的預(yù)設(shè)實(shí)體對(duì)應(yīng)的編碼數(shù)據(jù),得到編碼結(jié)果;其中,所述預(yù)設(shè)實(shí)體為實(shí)體的類型為人名和/或組織的實(shí)體,且所述預(yù)設(shè)實(shí)體為位置處于前預(yù)設(shè)范圍的實(shí)體。
4、可選地,所述前預(yù)設(shè)范圍為前1/2中的任一范圍。
5、可選地,所述對(duì)存在實(shí)體重合的編碼結(jié)果進(jìn)行句法依存分析,包括:將重合實(shí)體i的上下文向量和自身的嵌入值進(jìn)行連接,獲取第一標(biāo)記數(shù)據(jù);將所述第一標(biāo)記數(shù)據(jù)傳入雙向長(zhǎng)短期記憶網(wǎng)絡(luò)模型,獲得模型中間層的輸出結(jié)果;將該輸出結(jié)果輸入至多層感知機(jī),獲取重合實(shí)體i對(duì)應(yīng)的依存關(guān)系集合;將重合實(shí)體j的上下文向量和自身的嵌入值進(jìn)行連接,獲取第二標(biāo)記數(shù)據(jù);將所述第二標(biāo)記數(shù)據(jù)傳入所述雙向長(zhǎng)短期記憶網(wǎng)絡(luò)模型,獲得模型中間層的輸出結(jié)果;將該輸出結(jié)果輸入至所述多層感知機(jī),獲取重合實(shí)體j對(duì)應(yīng)的依存關(guān)系集合;基于所述重合實(shí)體i對(duì)應(yīng)的依存關(guān)系集合和所述重合實(shí)體j對(duì)應(yīng)的依存關(guān)系集合,確定所述重合實(shí)體i和所述重合實(shí)體j的句法依存分析結(jié)果。
6、可選地,所述基于所述重合實(shí)體i對(duì)應(yīng)的依存關(guān)系集合和所述重合實(shí)體j對(duì)應(yīng)的依存關(guān)系集合,確定所述重合實(shí)體i和所述重合實(shí)體j的句法依存分析結(jié)果,包括:基于所述重合實(shí)體i和所述重合實(shí)體j的依存關(guān)系集合,確定所述重合實(shí)體i和所述重合實(shí)體j的先驗(yàn)依存得分;基于所述重合實(shí)體i和所述重合實(shí)體j的依存關(guān)系集合,確定所述重合實(shí)體i和所述重合實(shí)體j的后驗(yàn)依存得分;將所述重合實(shí)體i和所述重合實(shí)體j的先驗(yàn)依次得分及所述重合實(shí)體i和所述重合實(shí)體j的后驗(yàn)依存得分中最高的一個(gè)作為所述重合實(shí)體i和所述重合實(shí)體j的句法依存分析結(jié)果。
7、可選地,所述獲取數(shù)據(jù)集,包括:采用網(wǎng)絡(luò)爬蟲、公開的數(shù)據(jù)接口和/或線上問(wèn)卷的方式,獲取第一數(shù)據(jù);其中,所述第一數(shù)據(jù)的類型包括:新聞數(shù)據(jù)、報(bào)告數(shù)據(jù)、問(wèn)卷數(shù)據(jù)、交易數(shù)據(jù)、郵件數(shù)據(jù)、社交數(shù)據(jù)中的至少一種;對(duì)所述第一數(shù)據(jù)進(jìn)行預(yù)處理,構(gòu)建所述數(shù)據(jù)集;其中,所述預(yù)處理包括數(shù)據(jù)清洗、標(biāo)準(zhǔn)化以及數(shù)據(jù)去重中的至少一種。
8、可選地,所述第一數(shù)據(jù)采用json格式進(jìn)行分類存儲(chǔ);其中,json格式包括:標(biāo)題和數(shù)據(jù)內(nèi)容;所述標(biāo)題用于區(qū)分所述數(shù)據(jù)集中的不同數(shù)據(jù);采用所述第一數(shù)據(jù)的類型進(jìn)行分類存儲(chǔ);所述將每個(gè)數(shù)據(jù)對(duì)應(yīng)的知識(shí)圖進(jìn)行存儲(chǔ),構(gòu)建形成知識(shí)庫(kù),包括:基于所述第一數(shù)據(jù)的類型,將該第一數(shù)據(jù)對(duì)應(yīng)的知識(shí)圖進(jìn)行分類存儲(chǔ)。
9、可選地,在所述構(gòu)建形成知識(shí)庫(kù)之后,所述方法還包括:采用網(wǎng)絡(luò)爬蟲、公開的數(shù)據(jù)接口和/或線上問(wèn)卷的方式,獲取第二數(shù)據(jù);其中,所述第二數(shù)據(jù)的類型包括:新聞數(shù)據(jù)、報(bào)告數(shù)據(jù)、問(wèn)卷數(shù)據(jù)、交易數(shù)據(jù)、郵件數(shù)據(jù)、社交數(shù)據(jù)中的至少一種;所述第二數(shù)據(jù)的產(chǎn)生時(shí)間節(jié)點(diǎn)在所述第一數(shù)據(jù)的產(chǎn)生時(shí)間節(jié)點(diǎn)之后;對(duì)所述第二數(shù)據(jù)進(jìn)行預(yù)處理,并將所述第二數(shù)據(jù)更新至所述數(shù)據(jù)集;獲取所述第二數(shù)據(jù)對(duì)應(yīng)的知識(shí)圖,將所述第二數(shù)據(jù)對(duì)應(yīng)的知識(shí)圖,更新至所述知識(shí)庫(kù)。
10、可選地,所述實(shí)體類型包括:物品、地點(diǎn)、組織、人名;所述基于每個(gè)實(shí)體、每個(gè)實(shí)體類型對(duì)應(yīng)的多個(gè)挖掘問(wèn)題以及大語(yǔ)言模型的回答結(jié)果,生成與每個(gè)實(shí)體對(duì)應(yīng)的實(shí)體挖掘數(shù)據(jù),包括:s1:將實(shí)體以及該實(shí)體的實(shí)體類型對(duì)應(yīng)的一個(gè)挖掘問(wèn)題輸入至所述大語(yǔ)言模型中,得到該實(shí)體在當(dāng)前挖掘問(wèn)題下的回答結(jié)果;重復(fù)步驟s1,直至獲取每個(gè)實(shí)體對(duì)應(yīng)的多個(gè)挖掘問(wèn)題的回答結(jié)果后,輸出每個(gè)實(shí)體對(duì)應(yīng)的實(shí)體挖掘數(shù)據(jù)。
11、第二方面,本技術(shù)提供一種用于人口數(shù)據(jù)挖掘的知識(shí)庫(kù)構(gòu)建系統(tǒng),包括:獲取模塊,用于獲取數(shù)據(jù)集;其中,所述數(shù)據(jù)集中的數(shù)據(jù)與人口數(shù)據(jù)挖掘任務(wù)相關(guān)聯(lián);知識(shí)圖構(gòu)建模塊,用于構(gòu)建與所述數(shù)據(jù)集中的每個(gè)數(shù)據(jù)對(duì)應(yīng)的知識(shí)圖;針對(duì)所述數(shù)據(jù)集中的任一數(shù)據(jù),包括:對(duì)該數(shù)據(jù)中的內(nèi)容進(jìn)行實(shí)體識(shí)別,確定每個(gè)實(shí)體的實(shí)體類型;調(diào)用與每個(gè)實(shí)體類型對(duì)應(yīng)的多個(gè)挖掘問(wèn)題;基于每個(gè)實(shí)體、每個(gè)實(shí)體類型對(duì)應(yīng)的多個(gè)挖掘問(wèn)題以及大語(yǔ)言模型的回答結(jié)果,生成與每個(gè)實(shí)體對(duì)應(yīng)的實(shí)體挖掘數(shù)據(jù);采用transformer模型對(duì)所述實(shí)體挖掘數(shù)據(jù)進(jìn)行編碼,生成編碼結(jié)果;對(duì)存在實(shí)體重合的編碼結(jié)果進(jìn)行句法依存分析,基于句法依存分析結(jié)果將重合的實(shí)體進(jìn)行連接,以得到該數(shù)據(jù)對(duì)應(yīng)的知識(shí)圖;其中,該數(shù)據(jù)對(duì)應(yīng)的知識(shí)圖中的節(jié)點(diǎn)為實(shí)體,節(jié)點(diǎn)的值為該實(shí)體的實(shí)體挖掘數(shù)據(jù)對(duì)應(yīng)的編碼結(jié)果;存在實(shí)體重合的節(jié)點(diǎn)相互連接;知識(shí)庫(kù)構(gòu)建模塊,用于將每個(gè)數(shù)據(jù)對(duì)應(yīng)的知識(shí)圖進(jìn)行存儲(chǔ),構(gòu)建形成知識(shí)庫(kù);其中,所述知識(shí)庫(kù)被調(diào)用后,用于輸出與人口數(shù)據(jù)挖掘任務(wù)對(duì)應(yīng)的數(shù)據(jù)分析結(jié)果。
12、本發(fā)明的有益效果包括:
13、本技術(shù)提供的用于人口數(shù)據(jù)挖掘的知識(shí)庫(kù)構(gòu)建方法在知識(shí)庫(kù)的構(gòu)建過(guò)程中,首先,獲取與人口數(shù)據(jù)挖掘任務(wù)相關(guān)聯(lián)的數(shù)據(jù)來(lái)構(gòu)建數(shù)據(jù)集,然后,針對(duì)該數(shù)據(jù)集中的任一任務(wù)進(jìn)行挖掘分析。該挖掘分析的過(guò)程涉及實(shí)體的識(shí)別,通過(guò)設(shè)定的與每個(gè)實(shí)體類型對(duì)應(yīng)的挖掘問(wèn)題,并結(jié)合大語(yǔ)言模型獲取與該實(shí)體相關(guān)聯(lián)的挖掘數(shù)據(jù),通過(guò)句法依存分析,將重合的實(shí)體進(jìn)行連接,以得到該數(shù)據(jù)對(duì)應(yīng)的知識(shí)圖。該知識(shí)圖中則包含與該數(shù)據(jù)中的實(shí)體所對(duì)應(yīng)的更細(xì)致全面的信息,并不局限于數(shù)據(jù)本身或數(shù)據(jù)表面。也即,對(duì)于一個(gè)相同的數(shù)據(jù),采用本技術(shù)的方式,能夠挖掘出該數(shù)據(jù)中與實(shí)體所對(duì)應(yīng)的更細(xì)致全面的信息,進(jìn)而能夠輔助人口數(shù)據(jù)挖掘任務(wù),得到更高維度的分析結(jié)果。此外,本技術(shù)中,通過(guò)句法依存分析,將重合的實(shí)體進(jìn)行連接可以降低知識(shí)圖的復(fù)雜度,減少歧義。通過(guò)合并重合的實(shí)體,能夠構(gòu)建更為緊湊和清晰的依存關(guān)系樹,對(duì)于后續(xù)的輔助人口數(shù)據(jù)挖掘任務(wù),提供更為準(zhǔn)確全面的分析。