Channel: プログラミング

↧

【読書メモ】【LangChain完全入門】Chapter3 Retrieval - 未知のデータを扱えるようにする - yagibrary

July 14, 2024, 11:39 pm

≫ Next: 【Steam】Parcel Corpsの基本操作・序盤攻略　感想は？ - ゲームとグルメ攻略ブログ

≪ Previous: XREAサーバへLaravelをインストール - min117の日記

02 与えたPDFをもとに回答するチャットボットを作る

pip install chromadb==0.5.3

0.5.4だと上手くいきませんでした。
参考記事
github.com

chat_3.py

import chainlit as cl
from langchain_groq import ChatGroq
from langchain_community.document_loaders import PyMuPDFLoader
from langchain_huggingface import HuggingFaceEmbeddings
from langchain.prompts import PromptTemplate
from langchain.schema import HumanMessage
from langchain.text_splitter import SpacyTextSplitter
from langchain_community.vectorstores import Chroma

embeddings = HuggingFaceEmbeddings(
  model_name="oshizo/sbert-jsnli-luke-japanese-base-lite"
)

chat = ChatGroq(model_name="llama3-70b-8192")

prompt = PromptTemplate(template="""文章を元に日本語で質問に答えてください。文章:{document}質問: {query}""", input_variables=["document", "query"])

text_splitter = SpacyTextSplitter(chunk_size=300, pipeline="ja_core_news_sm")

@cl.on_chat_startasyncdefon_chat_start():
  files = Nonewhile files == None:
      files = await cl.AskFileMessage(
          content="Please upload a pdf file to begin!", accept=["application/pdf"]
      ).send()

  file = files[0]

  await cl.Message(
      content=f"`{file.name}` uploaded"
  ).send()

  documents = PyMuPDFLoader(file.path).load()
  splitted_documents = text_splitter.split_documents(documents)

  database = Chroma(
    embedding_function=embeddings,
    # 今回はpersist_directoryを指定しないことでデータベースの永続化を行わない
  )

  database.add_documents(splitted_documents)

  cl.user_session.set(
    "database",
    database
  )

@cl.on_messageasyncdefon_message(input_message):
  message_content = input_message.content
  print("入力されたメッセージ: " + message_content)
  database = cl.user_session.get("database")

  documents = database.similarity_search(message_content)

  documents_string = ""for document in documents:
    documents_string += f"""  -------------------------  {document.page_content}"""

  result = chat([
    HumanMessage(content=prompt.format(document=documents_string, query=message_content))
  ])
  await cl.Message(content=result.content).send()

03 RetrievalQAを使ってQAシステムの構築を楽にする

query_3.py

from langchain.chains.retrieval_qa.base import RetrievalQA
from langchain_groq import ChatGroq
from langchain_huggingface import HuggingFaceEmbeddings
from langchain.prompts import PromptTemplate
from langchain.schema import HumanMessage
from langchain_community.vectorstores import Chroma

chat = ChatGroq(model_name="llama3-70b-8192")

embeddings = HuggingFaceEmbeddings(
  model_name="oshizo/sbert-jsnli-luke-japanese-base-lite"
)

database = Chroma(
  persist_directory="./.data",
  embedding_function=embeddings
)

retriever = database.as_retriever()

qa = RetrievalQA.from_llm(
  llm=chat,
  retriever=retriever,
  return_source_documents=True
)

result = qa.invoke("飛行車の最高速度を教えて")

print(result["result"])

print(result["source_documents"])

参考文献

LangChain完全入門　生成AIアプリケーション開発がはかどる大規模言語モデルの操り方

LangChain完全入門　生成AIアプリケーション開発がはかどる大規模言語モデルの操り方

作者:田村悠
インプレス

LangChain完全入門　生成AIアプリケーション開発がはかどる大規模言語モデルの操り方 [ 田村悠 ]

LangChain完全入門　生成AIアプリケーション開発がはかどる大規模言語モデルの操り方 [ 田村悠 ]

価格: 3190 円
楽天で詳細を見る

ランキング参加中

ランキング参加中

【公式】2023年開設ブログ

ランキング参加中

初心者グループ

ランキング参加中

プログラミング

↧

Trending Articles

大阪・泉南イオンで飛び降り自殺とみられる転落事件が発生：ネットで拡散された理由とは

July 15, 2016, 12:05 pm

安田菜津紀と結婚の夫はこの人？在日韓国人か？出身高校や学歴も

October 26, 2015, 2:29 am

KANA-BOON、新曲「生きてゆく」MV本編がついに解禁

August 18, 2014, 3:30 am

受動喫煙対策、法案提出を秋に先送り　自民、都議選前を回避

June 5, 2017, 9:03 pm

【男性編】街角でばったり会いたくない人ランキング

January 24, 2012, 10:00 pm

同一のカラム値をもつもの同士の中での連番

February 7, 2014, 4:05 pm

Pantyhose Pussy Tits Porn Gif by whoaokwhoa13 | RedGIFs

September 15, 2025, 3:06 pm

五嶋みどり　タングルウッドの奇跡　その時何が起こったのか？

July 15, 2020, 12:38 am

二代目彦根緑会【雄成会・神戸山口組】

November 11, 2017, 8:28 pm

電子書籍だってDRM解除できるよ！

July 17, 2012, 7:19 pm

人気占い師・Sakkoが占う！今日のアナタの運勢と、ラッキーカラーは・・・

October 16, 2019, 2:30 pm

【ジャニーズグッズ専門店】JaniJaniFanキャナルシティ博多店

September 11, 2016, 8:00 pm

【初期化の際の不具合】windows8→windows10へ

January 16, 2018, 5:20 pm

株式会社アルテカ　代表　野村紘一

March 15, 2018, 12:16 am

2015年4月3日号　横浜銀行（4月1日付）

April 3, 2015, 12:34 pm

アンドロイドアプリ開発超ド素人です。

June 21, 2013, 5:02 am

レアル・マドリードアンセム「Hala Madrid y Nada Más」カナ歌詞と和訳とPV（デシマイムノ）

August 23, 2016, 11:34 pm

本日の気の迷い…TOA REQ-100

March 27, 2016, 4:55 am

オーバーロードⅣ 13話「滅国の魔女」

September 27, 2022, 7:18 am

淵上理音数検準1級&英検1級合格天才少女,両親の勉強法と教育方法がスゴい

December 15, 2019, 5:15 am

© 2025 //www.rssing.com