在剛剛過(guò)去的財(cái)報(bào)季中,上市公司紛紛披露財(cái)務(wù)報(bào)告,然而海量的財(cái)報(bào)文件解讀給金融、投資等用戶帶來(lái)了巨大挑戰(zhàn)。財(cái)務(wù)報(bào)告是了解企業(yè)經(jīng)營(yíng)狀況的重要信源,但隨著信息量的增加,傳統(tǒng)的分析方法難以滿足高效準(zhǔn)確解讀的需求。
在AI應(yīng)用于財(cái)報(bào)閱讀的過(guò)程中,存在著一些困難。例如,大模型的“理解力”相對(duì)薄弱,可能出現(xiàn)數(shù)據(jù)讀取錯(cuò)誤等問(wèn)題。具體表現(xiàn)為文檔識(shí)別失敗率高,面對(duì)復(fù)雜版面無(wú)法正確解析,導(dǎo)致關(guān)鍵信息丟失或被誤解,從而影響模型生成答案的精準(zhǔn)度,無(wú)法正確回答用戶的查詢。此外,邏輯結(jié)構(gòu)解析不完整也是核心問(wèn)題之一,段落語(yǔ)義劃分錯(cuò)誤會(huì)使大模型回答不全面或出現(xiàn)總結(jié)性偏差。
合合信息的文檔解析技術(shù)在解決這些問(wèn)題上展現(xiàn)出了明顯的優(yōu)勢(shì)。其PDF文檔解析技術(shù)具備多文檔元素識(shí)別和版面分析能力,能夠識(shí)別文檔中的段落、公式、頁(yè)眉、頁(yè)腳等多種元素,并進(jìn)行對(duì)應(yīng)的處理。在應(yīng)對(duì)財(cái)報(bào)中常見(jiàn)的無(wú)線表、合并單元格、不規(guī)則行距、跨段、跨頁(yè)等障礙時(shí),該技術(shù)能準(zhǔn)確還原各類表格結(jié)構(gòu)。同時(shí),該技術(shù)還能對(duì)各類學(xué)術(shù)文獻(xiàn)進(jìn)行版面元素的識(shí)別及閱讀順序的判定,準(zhǔn)確定位文檔中的關(guān)鍵信息段落,根據(jù)PDF文檔的布局和格式推斷出人類閱讀時(shí)的順序,避免出現(xiàn)信息割裂的情況。
此外,合合信息的PDF文檔解析工具效率極高,最快能在1.5秒完成百頁(yè)文檔的解析。按8小時(shí)工作時(shí)間計(jì)算,可幫助大模型在一日內(nèi)對(duì)數(shù)千家企業(yè)的年報(bào)數(shù)據(jù)進(jìn)行精準(zhǔn)分析。
隨著無(wú)紙化辦公、數(shù)字化趨勢(shì)的發(fā)展,合合信息的文檔解析技術(shù)有望被應(yīng)用于更廣泛的場(chǎng)景。在未來(lái)IPO之后,該技術(shù)的商業(yè)化前景廣闊。它可以為金融機(jī)構(gòu)、投資者等提供更加高效準(zhǔn)確的財(cái)報(bào)分析服務(wù),幫助他們更好地做出決策。同時(shí),合合信息還可以不斷拓展技術(shù)的應(yīng)用領(lǐng)域,進(jìn)一步提升產(chǎn)品的市場(chǎng)競(jìng)爭(zhēng)力。
相關(guān)稿件