[Python][Gemini CLI] 使用 LangChain 中的 Vertex AI 來處理 LINE Bot 中的圖片內容

前情提要 之前 [Python] 在 LangChain 中將 Gemini 換成使用 Vertex AI 曾經有分享給大家該如何使用 LangChain 中的 Vertex AI 的相關功能。它具有以下的優點: 如果你專案放在 GCP CloudRun ,不需要額外放 Gemini API Key。可以更安全處理自己程式碼的安全性。 使用了 VertexAI 還有許多相關進階功能可以使用,之後也可以慢慢分享。 這一篇文章主要寫程式的部分都是使用 Gemini CLI :p ,但是有一些地方也跟大家講一下如何跟 AI 來溝通才能避免錯誤卡住。 範例程式碼: https://github.com/kkdai/linebot-gemini-python (大家可以參考 ) (透過這個程式碼,可以快速部署到 GCP Cloud Run) 關於 Vertex AI 上面使用 Gemini 來做圖形偵測的架構圖 這一張網路的圖解釋得很清楚,這邊要記得由於 VertexAI 使用到 Gemini 圖片相關處理的時候,必須要使用到 GCS (Google Cloud Storage) ,所以你不能只是放某個網路圖片網址給他,而是必須要將圖片放入 Google Cloud Storage 的 Bucket 之中,才能處理。 這裡程式碼會有一些相關的修改,就會有以下的相關部分來解釋: 如何將圖片上傳到 GCS 記得先到 GCS 建立一個新的 Bucket ,並且把這個名稱保持下來。放在環境變數上。 (這裡使用 GOOGLE_STORAGE_BUCKET ) 由於我們偵測完圖片後,就不會再次使用到他,所以可以馬上從 GCS 刪除,避免不小心沒刪除到,然後記得到 Lifecycle 設定一天的生命週期。 要小心 Gemini CLI 使用 LINE Bot 套件造成不段重複錯誤 這邊要小心,即便我的 Gemini CLI 已經有使用了 Contex7 這個 MCP Server ,使得 Gemini CLI 永遠會去讀取最新的套件資訊。但是有時候,還是會卡住,這邊舉一個例子: 這是一個 我請 Gemini CLI 直接去開發如何使用 LangChain 中的 Vertex AI 來直接將 LINE Bot 圖片直接放到 GCS (Refer commit) 這邊會發現,其中會發現,他從 line_bot_api.get_message_content(event.message.id) 取得的物件,一直無法成功的取得相關的 stream 資訊。這邊我大改跑了三~四次的 prompt 都無法成功,所以只好人工下來請他修改一下: 其實我本來有先複製正確的寫法,請他幫我順一下之後: message_content = await line_bot_api.get_message_content(event.message.id) # Asynchronously read all content chunks into a byte string image_bytes = b'' async for chunk in message_content.iter_content(): image_bytes += chunk # Create an...
繼續閱讀

[好書分享] 日本製造 ,幻想浪潮 (動漫、電玩、Hello Kitty、2Channel,超越世代的精緻創新與魔幻魅力)

日本製造,幻想浪潮 動漫、電玩、Hello Kitty、2Channel,超越世代的精緻創新與魔幻魅力 Pure Invention: How Japan's Pop Culture Conquered the World 作者: 麥特‧阿爾特 原文作者: Matt Alt 買書推薦網址: Readmoo: 由此去購買。 前言: 這是 2025 年第 3 本讀完的書,最近讀完的書籍越來越少,可能也跟花比較多的時間在學習 Vibe Coding 有關。這本書我買了蠻久的,但是也是斷斷續續直到近期才將他看完。 雖然裡面的故事都蠻久以前的,但是有許多不為人知的歷史背景與相關的史地資料都相當的珍貴。 大綱 ◆ 幻想傳遞道具 ◆ 每個人都是明星──【卡拉OK裝置】 ◎屬性:魅力+10 ◎使用方法:第一代卡拉OK裝置需要先投入100日圓,拿起麥克風盡情發揮即可,效果持續一整首歌。 為自己的世界配樂──【隨身聽】 ◎屬性:自我恢復力增加50% ◎使用方法:放入錄音帶、戴上耳機、按下播放鍵,無論走到哪裡,都能親手打造自己的背景音樂。 讓幻想跟著你走──【任天堂Game Boy】 ◎屬性:MP回復加速 ◎使用方法:走到哪玩到哪,還可以連線對戰。對了,這裡的連線指的是真的用「電線」連接兩台Game Boy。 召集各路英雄的所在──【2Channel討論區】 ◎屬性:號召力+20,組隊作戰攻擊力+5 ◎使用方法:日本最大的線上匿名布告欄系統,介面簡單,但造成的影響可不簡單,使用者遍佈全日本。 ──────────────── ● 最後提醒 ● 請記住!這不單單只是這些創造者個人勝利的故事,在創造者所賦予的力量下,包括你我在內的無數玩家與使用者,都意外地親身參與了整個過程,也成為這個幻想世界的眾多推動者之一。 是的,這精采華麗的世界是由我們一起建造的。 心得 這一本書有講到四個很有「歷史感」但是又很有意義的商品: 卡拉OK,隨身聽,任天堂跟討論區。 這四個其實也代表著四個日本從戰後嬰兒潮後的四個重要事物: 卡啦OK拉攏著「朋友」,對應著日本的疏離感。 隨身聽帶來的「音樂」,讓每個忙碌上班族放鬆的方式。 任天堂帶來的「幻想」,讓壓抑日本人放鬆自我的空間。 2Channel 帶來的「連結」,讓每個人可以匿名的發表自己的想法。 雖然是四個因素,但是也告訴我們許多當時日本社會下的現象。同時也感受到那個時代下的日本究竟有多少的創意與現實中的拉扯與衝突。 但是許多的產物都是很美好且難以抹滅的。 日本真的是造就了新的 ACG 世代之外,也有許多創作物讓世世代代的年輕人都難以忘記。 蠻有趣的一本書,很推薦大家來看。
繼續閱讀

[Gemini CLI] 用 Vibe Coding 打造你的專屬應用:我的 Gemini CLI 健身日誌實戰

前言 近期的開發圈,圍繞著「Vibe Coding」的討論不絕於耳,其中 Claude Code 的出現更是將這個概念推向了高峰。這是一種全新的開發典範,開發者透過對話與描述「感覺」來讓 AI 生成程式碼。在這波浪潮中,Google 也推出了自家的殺手級應用:Gemini CLI。 本篇文章將分享我如何透過 Gemini CLI,從零開始打造一個個人化的健身日誌 Web App。你會發現,導入這種與 AI 協作的終端機工具後,開發流程不僅僅是加速,更是從根本上改變了我們與程式碼互動的方式。 本次的程式碼與成果 本次實作的專案是一個簡單的訓練日誌,最終成果如上圖所示。 專案 Repo: Gym Daily with Gemini: https://github.com/kkdai/gym-daily-gemini 快速複習 Vibe Coding 在深入 Gemini CLI 之前,我們先快速摘要一下「Vibe Coding」這個概念。傳統開發模式中,我們需要逐行撰寫精確的指令來建構應用程式。然而,Vibe Coding 讓我們能用更自然、更貼近人類思維的方式與 AI 協作。 開發者不再需要專注於每一行語法的細節,而是可以描述更高層次的目標,例如: 我需要一個深色主題、看起來專業的儀表板 或是 幫我建立一個 API 端點來記錄數據 AI 會理解這些意圖,並將其轉換為具體的程式碼與架構。Gemini CLI 正是實現這種開發模式的強大工具。 導入 Gemini CLI 實戰 Gemini CLI: https://github.com/google-gemini/gemini-cli Google 官方文章: https://blog.google/technology/developers/introducing-gemini-cli-open-source-ai-agent/ 接下來,我們將拆解如何利用 Gemini CLI 來完成這個健身日誌專案。 第一部分:從 UI 概念到前端程式碼 一個專案的起點,往往是介面設計。在這個階段,我並沒有自己動手畫圖或寫 CSS,而是採用了以下的流程: 利用 AI Studio 產生 UI Layout:我先到 AI Studio,向它描述我想要的介面風格——簡潔、專注於資訊呈現、易於操作。AI 很快地提供了幾個視覺佈局供我參考。 生成 Tailwind CSS:在確定了喜歡的風格後,我請 AI Studio 將這個設計轉換成 Tailwind CSS 的格式。這是一個現代化的 CSS 框架,能讓我快速建構出美觀且響應式的介面,而我甚至不需要深入了解其語法細節。 可以看得出來,在專案初期,Gemini 生態系內的工具已經能幫助我們快速將模糊的想法具體化為可用的前端程式碼。 第二部分:了解 Gemini CLI 的運作大腦 有了前端的基礎後,接下來就是 Gemini CLI 大展身手的時刻。它不僅僅是一個程式碼生成器,更像是一個常駐在你終端機裡的資深開發夥伴。 它的強大之處在於: 專案上下文理解:你只需要在專案目錄下啟動它,它就能夠掃描並理解整個專案的檔案結構與既有程式碼。 整合開發工具鏈:它可以直接幫你執行 git 指令來進行版本控制,甚至能透過 gcloud 指令,將你的應用程式一鍵部署到 Cloud Run。 建立自動化工作流:你可以和它建立「默契」。例如,我曾對它下達指令: 以後改完程式碼,都幫我 push 到 GitHub,然後直接跑一次本地端伺服器給我驗證。 從此,這個開發、測試、提交的循環就變得完全自動化且極其順暢。 Gemini CLI 的核心是將 Gemini 1.5 Pro 強大的模型能力與開發者熟悉的 CLI 環境深度整合,讓它能理解你的指令,並調用對應的工具來完成任務。 第三部分:根據實戰結果,來分析一下差異 導入 Gemini CLI 後,與傳統開發流程相比,最顯著的差異有兩點: 開發流程的無縫整合與自動化 以往,寫碼、測試、版本控制、部署是幾個獨立的步驟,需要手動切換工具與執行指令。但在 Gemini CLI 的輔助下,這些流程可以被串連成一個單一的對話指令。就像前面提到的,一個「改完就推送到 GitHub 並本地運行」的指令,就取代了過去繁瑣的手動操作,大幅提升了開發效率。 從抽象指令到具體成果的轉譯能力 傳統開發需要我們將需求拆解成非常具體的技術任務。但使用 Gemini CLI,我可以下達更為抽象的指令,例如「幫我把這個列表功能做出來」,它會自己分析現有程式碼,生成對應的邏輯並整合進去。它彌補了從「想法」到「程式碼」之間的巨大鴻溝。 超佛心的免費方案! 看到這裡,你可能會好奇這樣強大的服務是否所費不貲。Google 這次提供了極具誠意的免費方案! 只需使用個人 Google 帳戶登入,即可獲得免費的 Gemini Code Assist 授權。此授權包含: 存取強大的 Gemini 1.5...
繼續閱讀

[DevOps] Netflix 遊戲平台總監將解決技術債視為一種創新 - Tech debt as innovation by Bruce Wang

前提 好像是在 Threads 看到有人貼出的貼文,這明明是一個 25 分鐘的短篇演講。 但是我卻花了兩三個小時仔細的看他,並且不斷勾起我以前的回憶。 這是一篇 LeadDev 研討會的演講,主要內容探討到軟體開發人員最害怕的「技術債」(Technology Debt)。 Netflix的Bruce Wang分享技術負債管理經驗:技術負債是創新的自然產物,需建立共通語言與明確定義,公開討論並主動處理。技術負債管理得當可促進業務創新,推動公司成長。 相關內容分享 以下內容大多是針對某幾張投影片,做一些註解並且寫上自己的想法。 以下哪些不是 Tech Debt? 商業決策(老闆不做的) - 沒有資源 不同 model 間缺乏溝通 Bug. (很常~~懶得解就說是技術債) Bad Code (寫的爛~也不會是技術債) - 效能問題 (效能問題絕對不是技術債) 你對這些程式碼不熟…. (好像超多人講這個,好像重寫就沒有技術債一樣 XD) 如何定義與描述「技術債」的準則: 定義上: 最重要需要去研究你所謂的「技術債」究竟是什麼? 不能只是說一句,這是某個舊的框架,所以是個技術債。 要「明確」,「可視化」並且「主動」去將技術債都找出並且明確的定義出來。 對於「技術債」的處理方式: 精確的找到它,給它取個名字。 某個 Tunnel 資訊流通上的限制 -> Tunnel X Project 不可以遇到事情,就說這是「技術債」。 需要清楚的講出來是哪個技術債,不要把技術債當作是不想修復與不想處理上的籠統(suitcase)名詞。 「Maintain/Improve 還是 Migrate?」 軟體開發流程上,許多軟體開發工程師往往接手舊的系統,到了要維護(或是優化)的狀況下,比較沒有經驗的人經常會選擇直接 migrate 到新的系統。 這往往是最有風險的事情,有太多危險可能發生: 主管變動(忽然不想改) 人員變動(又換了一組人) 外在環境變動(生意忽然沒了? Covid 造成生意大好?) 技術變動(AI 忽然跑出來) 最大的風險是: 你根本不知道 Migrate 過去。 你所謂的技術債就會消失。 或許根本不會…. 你只會有一堆商業邏輯忘記搬過來。 破解技術債的迷思 Legacy 不是 技術債,只是你沒花時間去搞懂他。 技術債不需要全部清完,而是在必要時候去清除最重要的。 技術債因為牽扯重要商業邏輯與更底層的技術,讓專業(資深)的來。 技術債發生在任何產品中,新創產品其實更多。 導入新的程式語言,新的框架,只會引來更多技術債。 面對技術債,每一間公司都是有辦法來面對的。 處理好技術債,面對更多商業挑戰 如果我們可以更有智慧,有積極的面對這些技術債,而不是天天將技術債作為不想維護的藉口。這樣我們才是認真面對這個商業服務,也才能更有信心的對接下來的商業需求說 “YES” 。 後話 雖然是一個 25 分鐘的演講,但是我卻花了兩三個小時慢慢地欣賞跟品味每一段文字。 許多內容也呼應了身為軟體開發的心路歷程與以前的血淚(?)。 蠻推薦大家要好好思考這些相關的內容。
繼續閱讀

[n8n] 架設自有的 n8n 服務,讓資訊流串接的更好 (ifttt 取代方案)

前提: 本來一直有想要去學習 n8n ,但是還沒想到要拿來做什麼。近期去參加了 gai 年會之後,看到不少有趣的應用。決定回來先架起來試試看,本篇快速整理與分享一下近期看到幾個很有用的資訊。 還有我自己拿來做了什麼,希望對大家有幫助。 為什麼需要架設 n8n? 先分享一下,就我自己的為什麼需要架設自己的 n8n ? 還有他能幫助我什麼部分? 老實說,要架設「自動化服務」,很重要就是在於「自身的需求性」。我原本就有花錢買一些自動化服務 (ifttt) 加上透過自己的 LINE Bot 來打造自己的知識流的架構。 大概是一個這樣的架構,其中 LINE Bot 工作還蠻 Heavy 的,需要爬下整個網頁內容,並且還要做 AI 摘要。 所以本來 IFTTT 經常會自動停掉。本來就有打算要移到 GCP,但是一個個寫成 CloudRun 又太費事,於是一直放著等待更好的解決方案的出現。 最近看到了 n8n ,決定來弄一下。 以下記錄一下我架設伺服器(免費),還有一些設定上需要注意的地方。 架設免費 n8n 伺服器 (HuggingFace + Supabase + Upstash) 這一篇可以看一下,對我幫助很大。總之先看看用量會不會不夠,再決定要不要放上 Google Cloud 。 比較需要注意的地方: 大概就是 Supabase 的網址有多一個空白 ,這個真的很雷啊。雖然影片作者有講,但是還是被雷到。 XD 比較需要注意的整合部分: 這邊列出幾個我覺得在 n8n Node 串接上需要注意的: 記得將 Space 打開 Private ,不然不能串接 LINE 跟 TG (等等 POST Services) 安裝好的時候,一開始覺得 WebHook “GET” 沒問題就完事。結果發現 LINE Bot 一直串接不起來,才發現跟 Space 是隱藏的還是公開的有很大的關係。 記得去 Space -> Setting 將它打開。 (這樣就可以接 TG 跟 LINE Bot) Google Sheet/Doc/Drive 串接 可以參考同一位作者分享的這段影片,原來影片三個小時,但是可以跳到這個部分看就好。 快速紀錄流程: 進入 “Google Auth Platform” 進入 “用戶端” 增加一個 OAuth 的 “用戶端” 需要注意的地方: OAuth2 要串接,因為是測試帳號可能會小心失效。 串接之前,務必要啟動 “Google Drive API”, “Googl Sheet API”, “Gmail API” 這幾個就平常架設 GCP 用戶比較少打開的。 JSON 檔案的處理 這部分算是 n8n 一個很重要的地方,很多時候你會需要使用 Edit Field(Set) Node 來處理。 沒有概念的,可以看這個部分影片。 一些好用的 n8n 相關樣板: N8n LINE Bot Webhook node n8n 好用的 workflow 整理 (shared by cympotek) 取代掉原本 IFTTT 上面的一些服務 架設完畢也設定完相關的服務之後,就可以開始來取代掉 IFTTT...
繼續閱讀

[Gemini][LINEBot] 輕鬆升級!從 Function Call 轉換為 Agent 模式的 ADK 實作指南

前言 之前的文章曾經有分享過如何透過 Google ADK (Agent SDK) 來將你的 LINE 官方帳號 (俗稱: LINE Bot ) 打造成來。 但是其實在 LLM LINE Bot 上,我們有學過不少的 LLM 方式打造。本篇文章,將討論如何將 Function Calling 的 Agent 模式,直接改造成使用 Agent SDK 的方式。 你會發現這樣的修改,程式碼可以變得更精簡。而且由於導入了 Agent SDK ,整個對話也變得更加的靈活,更可以像是真人的對話。 本次的程式碼 本次將有兩個以往用過的程式碼: 使用 LangChain 的 Function Call 的股票機器人。 https://github.com/kkdai/linebot-langchain 轉換為: –> Agent SDK https://github.com/kkdai/linebot-adk-stock 快速複習 LangChain Function Call 各位可以參考一下本篇文章的詳細內容,這裡僅提供相關的快速摘要。 (這個是之前 LangChain Function Calling 的執行成果) 這篇文章介紹了如何利用 LangChain 和 OpenAI 的 Function Calling 來開發一個股價查詢的 LINE Bot,並分享了一個開源套件供大家學習。LangChain 是一個強大的工具,支援多種大型語言模型,讓開發概念驗證(POC)變得更加容易。文章中提到,透過 Flowise 這樣的視覺化工具,開發者可以快速測試架構和 Prompt,並且在不需要重新部署的情況下修改 Prompt。文章還詳細說明了如何在 Heroku 上快速部署 Python LINE Bot,並提供了使用 LangChain 的 ConversationBufferWindowMemory 來實現具有記憶功能的聊天機器人的方法。此外,文章深入探討了如何使用 OpenAI Functions 來查詢股價,包括如何定義和使用工具來實現這一功能。整體而言,這篇文章展示了 LangChain 在開發 LINE Bot 中的應用潛力,並鼓勵讀者利用這些技術打造出「專一」「好用」的聊天機器人。 導入 Agent SDK 接下來會來開始拆解,如何將 LangChain Function Calling 的程式碼,轉換到 Agent SDK 的方式: 第一部分: 講解 Tools 的轉換方式: 我們先來討論一下,如何將 LangChain funciont Calling 中將 Tools 的程式碼,轉換到 Agent 的部分。 def get_price_change_percent(symbol: str, days_ago: int) -> dict: """ Calculates the percentage change in a stock's price over a specified number of days. Args: symbol (str): The stock symbol (e.g., "AAPL"). days_ago (int): The number of days to...
繼續閱讀