本申請(qǐng)涉及數(shù)據(jù)處理,尤其涉及一種基于大語言模型的日志分析方法及系統(tǒng)。
背景技術(shù):
1、現(xiàn)代業(yè)務(wù)信息系統(tǒng)是企業(yè)的重要支撐,為確保其穩(wěn)定性,安全性和有效性,系統(tǒng)運(yùn)維已經(jīng)逐漸成為現(xiàn)代it架構(gòu)的核心組成部分。系統(tǒng)運(yùn)維主要負(fù)責(zé)監(jiān)視和維護(hù)信息系統(tǒng)的日常運(yùn)行,包括服務(wù)器的運(yùn)行狀態(tài)、網(wǎng)絡(luò)的通信情況、數(shù)據(jù)的備份與恢復(fù)等,在系統(tǒng)運(yùn)維過程中,日志解析是極其重要的一部分。日志解析是從系統(tǒng)產(chǎn)生的各種日志中提取有價(jià)值的信息,以便于后續(xù)的日志分析和管理,如錯(cuò)誤檢測(cè),性能評(píng)估,用戶行為分析等。然而,由于系統(tǒng)日志具有海量、來源復(fù)雜、版本可變化、格式多樣化等特點(diǎn),如何有效地從中提取有價(jià)值的信息,成為了一大挑戰(zhàn)。
2、傳統(tǒng)的日志解析方法主要包括正則表達(dá)式和模板匹配的方法。正則表達(dá)式方法通過定義特定的模式匹配規(guī)則,來提取日志中的指定信息,該方法簡(jiǎn)單有效,但面對(duì)復(fù)雜多變的日志信息時(shí),需要大量的工作去編寫和維護(hù)規(guī)則,且容易出錯(cuò)。此外,由于是預(yù)設(shè)的模板,雖然相對(duì)簡(jiǎn)單,但缺乏彈性,對(duì)于未知的日志格式或信息,往往無法有效處理。
技術(shù)實(shí)現(xiàn)思路
1、本申請(qǐng)實(shí)施例提供一種基于大語言模型的日志分析方法及系統(tǒng),用以利用大語言模型的初級(jí)推理能力,通過流式記錄和解析服務(wù)器關(guān)鍵組件的狀態(tài)信息以及告警日志,實(shí)現(xiàn)對(duì)服務(wù)器的高效監(jiān)控。
2、本申請(qǐng)實(shí)施例提供一種基于大語言模型的日志分析方法,包括:
3、獲取運(yùn)行日志數(shù)據(jù),提取所述日志數(shù)據(jù)的嵌入向量;
4、將所述運(yùn)行日志的嵌入向量與預(yù)設(shè)日志模版庫中各日志類別的類別向量進(jìn)行匹配,確定與所述運(yùn)行日志數(shù)據(jù)相匹配的日志類別;
5、在預(yù)設(shè)日志模版庫中獲取與所述日志類別對(duì)應(yīng)的日志模版;其中,在所述預(yù)設(shè)日志模版庫中,各所述日志類型的所述日志模版和所述類別向量一一對(duì)應(yīng)且關(guān)聯(lián),所述日志模版的內(nèi)容不包含變量信息;
6、通過所述日志模版提示大語言模型對(duì)所述運(yùn)行日志數(shù)據(jù)進(jìn)行分析處理,提取所述運(yùn)行日志數(shù)據(jù)的變量信息,并對(duì)所述運(yùn)行日志數(shù)據(jù)的變量信息進(jìn)行分析,得到所述運(yùn)行日志數(shù)據(jù)的分析結(jié)果。
7、可選的,在所述獲取運(yùn)行日志數(shù)據(jù),提取所述日志數(shù)據(jù)的嵌入向量之前還包括:
8、獲取待分析日志樣本數(shù)據(jù),并提取所述待分析日志樣本的嵌入向量;
9、對(duì)提取的嵌入向量進(jìn)行聚類,以確定出數(shù)個(gè)日志類別以及每個(gè)所述日志類別對(duì)應(yīng)的類別向量;
10、從每個(gè)所述日志類別中選擇多個(gè)待處理日志樣本,通過所述大語言模型剔除所述多個(gè)待處理日志樣本中的變量信息,進(jìn)而提取出與所述日志類別對(duì)應(yīng)的類別模版。
11、可選的,提取所述待分析日志樣本的嵌入向量是通過嵌入式模型實(shí)現(xiàn)的;
12、對(duì)提取的嵌入向量進(jìn)行聚類是根據(jù)嵌入向量的余弦相似性進(jìn)行分類的。
13、可選的,從每個(gè)所述日志類別中選擇多個(gè)待處理日志樣本,通過所述大語言模型剔除所述多個(gè)待處理日志樣本中的變量信息,進(jìn)而提取出與所述日志類別對(duì)應(yīng)的類別模版包括:
14、預(yù)先配置示范用例;
15、基于所述示范用例以及所選擇的待處理日志樣本,輸入所述大語言模型,利用所述大語言模型剔除所述多個(gè)待處理日志樣本中的變量信息,以提取出與所述日志類別對(duì)應(yīng)的類別模版。
16、可選的,基于所述示范用例以及所選擇的待處理日志樣本,輸入所述大語言模型包括:
17、對(duì)所選擇的待處理日志樣本利用hash表去重;
18、根據(jù)預(yù)先配置的示范用例以及hash表去重的待處理日志樣本輸入所述大語言模型,以指示所述大語言模型提出待處理日志樣本中變化的變量。
19、可選的,還包括:
20、將所述大語言模型提取出的類別模板的基本信息,以及對(duì)應(yīng)該類日志的嵌入式向量作為元數(shù)據(jù)進(jìn)行封裝,以構(gòu)建所述預(yù)設(shè)日志模版庫。
21、可選的,通過所述日志模版提示大語言模型對(duì)所述運(yùn)行日志數(shù)據(jù)進(jìn)行分析處理,提取所述運(yùn)行日志數(shù)據(jù)的變量信息包括:
22、將所述日志模版的模板實(shí)體以及所述日志模版所包含的元數(shù)據(jù)作為提示詞,輸入所述大語言模型,以提取所述運(yùn)行日志數(shù)據(jù)的變量信息。
23、可選的,還包括在預(yù)設(shè)日志模版庫中無法獲取與所述日志類別對(duì)應(yīng)的日志模版的情況下:
24、利用提取所述日志數(shù)據(jù)的嵌入向量檢索預(yù)設(shè)日志模版庫中的臨時(shí)類,其中所述臨時(shí)類包含基于預(yù)設(shè)日志模版庫無法完成聚類的日志數(shù)據(jù);
25、在所述臨時(shí)類包含的日志數(shù)據(jù)的數(shù)量滿足聚類要求的情況下,基于所述大語言模型提取出與日志類別對(duì)應(yīng)的類別模版。
26、本申請(qǐng)實(shí)施例還提出一種基于大語言模型的日志分析系統(tǒng),包括處理器和存儲(chǔ)器,所述存儲(chǔ)器上存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如前述的基于大語言模型的日志分析方法的步驟。
27、本申請(qǐng)實(shí)施例還提出一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)上存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如前述的基于大語言模型的日志分析方法的步驟。
28、本申請(qǐng)實(shí)施例的日志分析方法,預(yù)設(shè)日志模版庫中包含有各日志類型的日志模版和類別向量一一對(duì)應(yīng)且關(guān)聯(lián),并且日志模版的內(nèi)容不包含變量信息,進(jìn)一步利用大語言模型的上下文推理能力,推理出日志數(shù)據(jù)中的變量信息,從而完成對(duì)日志數(shù)據(jù)的分析,實(shí)現(xiàn)無需人工預(yù)設(shè)模式和模板,大大降低運(yùn)維工作的難度,提高了對(duì)服務(wù)器的監(jiān)控效率。
29、上述說明僅是本申請(qǐng)技術(shù)方案的概述,為了能夠更清楚了解本申請(qǐng)的技術(shù)手段,而可依照說明書的內(nèi)容予以實(shí)施,并且為了讓本申請(qǐng)的上述和其它目的、特征和優(yōu)點(diǎn)能夠更明顯易懂,以下特舉本申請(qǐng)的具體實(shí)施方式。
1.一種基于大語言模型的日志分析方法,其特征在于,包括:
2.如權(quán)利要求1所述的基于大語言模型的日志分析方法,其特征在于,在所述獲取運(yùn)行日志數(shù)據(jù),提取所述日志數(shù)據(jù)的嵌入向量之前還包括:
3.如權(quán)利要求2所述的基于大語言模型的日志分析方法,其特征在于,提取所述待分析日志樣本的嵌入向量是通過嵌入式模型實(shí)現(xiàn)的;
4.根據(jù)權(quán)利要求2所述的基于大語言模型的日志分析方法,其特征在于,從每個(gè)所述日志類別中選擇多個(gè)待處理日志樣本,通過所述大語言模型剔除所述多個(gè)待處理日志樣本中的變量信息,進(jìn)而提取出與所述日志類別對(duì)應(yīng)的類別模版包括:
5.如權(quán)利要求4所述的基于大語言模型的日志分析方法,其特征在于,基于所述示范用例以及所選擇的待處理日志樣本,輸入所述大語言模型包括:
6.如權(quán)利要求4所述的基于大語言模型的日志分析方法,其特征在于,還包括:
7.如權(quán)利要求6所述的基于大語言模型的日志分析方法,其特征在于,通過所述日志模版提示大語言模型對(duì)所述運(yùn)行日志數(shù)據(jù)進(jìn)行分析處理,提取所述運(yùn)行日志數(shù)據(jù)的變量信息包括:
8.如權(quán)利要求1所述的基于大語言模型的日志分析方法,其特征在于,還包括在預(yù)設(shè)日志模版庫中無法獲取與所述日志類別對(duì)應(yīng)的日志模版的情況下:
9.一種基于大語言模型的日志分析系統(tǒng),其特征在于,包括處理器和存儲(chǔ)器,所述存儲(chǔ)器上存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至8中任一項(xiàng)所述的基于大語言模型的日志分析方法的步驟。
10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其特征在于,所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)上存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至8中任一項(xiàng)所述的基于大語言模型的日志分析方法的步驟。