一種作者分析方法和作者分析系統(tǒng)的制作方法
【技術領域】
[0001]本發(fā)明涉及文學作品分析領域,具體而言涉及一種作者分析方法和作者分析系統(tǒng)。
【背景技術】
[0002]人類的歷史上有許多經(jīng)典的語言文學作品,這些作品極大的促進了當今世人對古代社會的了解。因此,考證這些作品的作者就成為了考古學家和歷史學家面臨的一個重要的問題。然而,由于古代的印刷技術不夠發(fā)達,很多情況下這些文學稿件都存留的不多;同時大多數(shù)的古代人都不太重視知識產權的問題,因而這些存留的稿件也不一定有真實作者的姓氏,或者僅僅留存了一個筆名。如《脂硯齋重評石頭記》的脂硯齋,《金瓶梅》的蘭陵笑笑生,以及西班牙的《熙德之歌》或是阿拉伯的《一千零一夜》,這些作品的作者是誰都因為各種原因而僅能留下一些猜測,而無法得到有力的證據(jù)證實。為解決這個問題,傳統(tǒng)的學者也有一些具體的方法。
[0003]在這些方法中,有一種方法通常會被認為是相當科學的,那就是在同時代有文稿遺留的人中進行篩選,找到最符合著作該作品條件的人。篩選的內容主要有作者的生平軌跡,作品風格和思想內容等。然而這一過程就目前來看主要依賴的是人為的鑒定,是一個較為感性的過程;即使有引入方法和計算機過程的鑒定,也大多是較為簡單的基于統(tǒng)計學的一個效果較差、規(guī)則相對較弱的系統(tǒng),或是基于神經(jīng)網(wǎng)絡的一個特征分類器,沒有能夠從根本上找到語言文字的特點。因此,這些佚名古稿的作者是誰仍然難以下一個定論。
【發(fā)明內容】
[0004]針對現(xiàn)有技術的不足,本發(fā)明提出一種作者分析方法和作者分析系統(tǒng),可以顯著提升作者分析的精確度和性能,同時具有良好的可移植性和可改進性。
[0005]本發(fā)明的一個實施例提供一種作者分析方法,其特征在于,所述方法包括:步驟SlOl:載入特定作者的語言模型,其中所述語言模型為利用所述特定作者的語料基于神經(jīng)網(wǎng)絡訓練得到;步驟S102:通過所述語言模型計算新輸入的語料的作者為所述特定作者的概率。
[0006]示例性地,所述神經(jīng)網(wǎng)絡是長短期記憶人工神經(jīng)網(wǎng)絡LSTM。
[0007]示例性地,在所述步驟S102中,利用維特比算法進行計算,所述維特比算法僅記錄經(jīng)所述語言模型評分的高于閾值的狀態(tài)。
[0008]示例性地,所述步驟S102包括:通過所述語言模型計算新輸入的語料中每個短詞或字的置信程度,利用所述維特比算法得到整個所述新輸入的語料的置信程度,將整個所述新輸入的語料的置信程度歸一化為所述新輸入的語料的作者為所述特定作者的概率。
[0009]示例性地,在所述步驟S102之后還包括步驟S103:讀入所述新輸入的語料,將所述語料被編碼作為待判定的數(shù)據(jù),向所述語言模型輸入所述新輸入的語料中的每個短詞或字,以生成新的短詞或字。
[0010]本發(fā)明的另一實施例提供一種作者分析系統(tǒng),其特征在于,所述系統(tǒng)包括:語言判定模塊,用于載入特定作者的語言模型以計算新輸入的語料的作者為所述特定作者的概率,其中所述語言模型為利用所述特定作者的語料基于神經(jīng)網(wǎng)絡訓練得到。
[0011]示例性地,所述系統(tǒng)還包括生成語言模型模塊,用于生成所述特定作者的語言模型;和/或,所述神經(jīng)網(wǎng)絡是長短期記憶人工神經(jīng)網(wǎng)絡LSTM。
[0012]示例性地,所述語言判定模塊還用于利用維特比算法進行判定,所述維特比算法僅記錄經(jīng)所述語言模型的評分高于閾值的狀態(tài)。
[0013]示例性地,所述計算新輸入的語料的作者為所述特定作者的概率包括:通過所述語言模型計算新輸入的語料中每個短詞或字的置信程度,利用所述維特比算法得到整個所述新輸入的語料的置信程度,將整個所述新輸入的語料的置信程度歸一化為所述新輸入的語料的作者為所述特定作者的概率。
[0014]示例性地,所述作者分析系統(tǒng)還包括語言生成模塊,用于讀入所述新輸入的語料,所述語料被編碼以作為待判定的數(shù)據(jù),并且向所述語言模型輸入所述新輸入的語料中的每個短詞或字,以輸出新的短詞或字。
[0015]本發(fā)明的作者分析方法,由于通過基于神經(jīng)網(wǎng)絡訓練得到的特定作者的語言模型對新輸入的語料的作者為特定作者的概率進行計算,因而可以保證更高的作者分析精確度和最優(yōu)的作者分析性能。本發(fā)明的作者分析系統(tǒng),同樣具有上述優(yōu)點。
【附圖說明】
[0016]本發(fā)明的下列附圖在此作為本發(fā)明的一部分用于理解本發(fā)明。附圖中示出了本發(fā)明的實施例及其描述,用來解釋本發(fā)明的原理。
[0017]附圖中:
[0018]圖1為本發(fā)明實施例一的作者分析方法的流程圖;以及
[0019]圖2為本發(fā)明實施例二的作者分析方法的流程圖。
【具體實施方式】
[0020]在下文的描述中,給出了大量具體的細節(jié)以便提供對本發(fā)明更為徹底的理解。然而,對于本領域技術人員而言顯而易見的是,本發(fā)明可以無需一個或多個這些細節(jié)而得以實施。在其他的例子中,為了避免與本發(fā)明發(fā)生混淆,對于本領域公知的一些技術特征未進行描述。
[0021]應當理解的是,本發(fā)明能夠以不同形式實施,而不應當解釋為局限于這里提出的實施例。相反地,提供這些實施例將使公開徹底和完全,并且將本發(fā)明的范圍完全地傳遞給本領域技術人員。在附圖中,為了清楚,層和區(qū)的尺寸以及相對尺寸可能被夸大。自始至終相同附圖標記表示相同的元件。
[0022]在此使用的術語的目的僅在于描述具體實施例并且不作為本發(fā)明的限制。在此使用時,單數(shù)形式的“一”、“一個”和“所述/該”也意圖包括復數(shù)形式,除非上下文清楚指出另外的方式。還應明白術語“組成”和/或“包括”,當在該說明書中使用時,確定所述特征、整數(shù)、步驟、操作、元件和/或部件的存在,但不排除一個或更多其它的特征、整數(shù)、步驟、操作、元件、部件和/或組的存在或添加。在此使用時,術語“和/或”包括相關所列項目的任何及所有組合。
[0023]為了徹底理解本發(fā)明,將在下列的描述中提出詳細的步驟以及詳細的結構,以便闡釋本發(fā)明的技術方案。本發(fā)明的較佳實施例詳細描述如下,然而除了這些詳細描述外,本發(fā)明還可以具有其他實施方式。
[0024]本發(fā)明的一個實施例提供一種作者分析方法。該方法可以顯著提高作者分析的精確度以及作者分析性能。
[0025]實施例一
[0026]下面,參照圖1來具體描述本發(fā)明的一個實施例的一種作者分析方法。其中,圖1為本發(fā)明實施例一的作者分析方法的流程圖。
[0027]本發(fā)明實施例的作者分析方法,包括如下步驟:
[0028]步驟SlOl:讀入特定作者的語料,基于神經(jīng)網(wǎng)絡提取所述語料的特征,生成所述特定作者的語言模型。示例性地,本步驟包括:生成語言模型模塊讀入特定作者的大量語料文獻,并在該模塊內部利用神經(jīng)網(wǎng)絡反復訓練總結出該作者名下的語料文獻的特征,將它保存成為特定格式的語言模型便于下次調用。
[0029]步驟S102:載入所述語言模型,以判定新輸入的語料的作者為所述特定作者的概率。示例性地,本步驟包括:語言判定模塊讀入一篇作者佚名的古稿,將其編碼后作為待判定的數(shù)據(jù)準備好,便于下一步提供給語言模型。示例性地,本步驟還包括:語言判定模塊載入之前訓練好的語言模型,作為判定當前待判定數(shù)據(jù)的依據(jù)。示例性地,本步驟還包括:語言判定模塊根據(jù)語言模型的各項參數(shù),利用改進維特比算法的輔助,計算出在該語言模型下,待判定數(shù)據(jù)中每個短詞或字的置信程度,進一步可以得出整個數(shù)據(jù)的置信程度,并將其歸一化為一個概率相關的得分。示例性地,本步驟還包括:將語言判定模塊得出的概率相關的得分輸出給用戶。用戶可以根據(jù)對應于不同語言模型的概率得分,評估認定與概率得分最高的語言模型相對應的特定作者最有可能為該新輸入的語料的作者。
[0030]示例性地,所述神經(jīng)網(wǎng)絡是長短期記憶人工神經(jīng)網(wǎng)絡LSTM (Long Short TermMemory)。
[0031]示例性地,在所述步驟S102中,利用維特比算法進行判定,所述維特比算法僅記錄經(jīng)所述語言模型的評分高于閾值的狀態(tài)。其中所述閾值可以根據(jù)實際需要進行設定,例如為60%,在此并不進行限定。該改進的維特比算法由于不記錄所有狀態(tài),因而與記錄所有狀態(tài)的傳統(tǒng)的維特比算法相比,節(jié)省了大量的時間和空間。
[0032]在一個示例中,該作者分析方法僅包括步驟S102,在該步驟中所載入的特定作者的語言模型為利用所述特定作者的語料基于神經(jīng)網(wǎng)絡訓練得到的,具體訓練方法可以參照上述步驟S101,在此并不進行限定。
[0033]本發(fā)明實施例的方法,由于通過基于神經(jīng)網(wǎng)絡訓練得到的特定作者的語言模型對新輸入的語料的作者為特定作者的概率進