本發(fā)明涉及自然語言處理和深度學(xué)習(xí)技術(shù)領(lǐng)域,特別涉及一種基于句子級文檔分割的長文本閱讀理解方法。本發(fā)明的主要技術(shù)方案包括:S1、將文檔進行分段;包括:將文檔以句子為單位進行切分,并將切分后的句子按照在原文中的順序放入集合S中,取前N句話拼接成初始文檔分段并利用編碼器進行編碼;通過強化學(xué)習(xí)模型動態(tài)地調(diào)整文檔分段的初始位置,得到文檔的分段結(jié)果;S2、將文檔分段與問題進行拼接輸入答案抽取模型,輸出每個字作為答案起始位置和終止位置的概率,并預(yù)測分段包含答案的概率,由三個概率值共同決定最終答案。通過本發(fā)明,使得文檔分段在保留完整句子的基礎(chǔ)上,盡可能地將完整的答案包含在內(nèi),并提升了答案抽取的準(zhǔn)確性。
聲明:
“基于句子級文檔分割的長文本閱讀理解方法” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)