December 24th, 2025

[Gemini 3.0][Image Generation] 使用 Gemini 3.0 Pro Image API 打造 PDF 文字優化工具

Google Chrome 2025-12-25 00.19.21

前情提要

最近經常使用 NotebookLM 來快速製作投影片，這個工具雖然方便，但有個令人困擾的問題：生成的中文字常常出現糊邊和亂碼。雖然「順序不響影讀閱」，但身為工程師還是希望能更專業一點。

在網路上看到有人分享了一個有趣的方法：將 NotebookLM 的投影片截圖後，上傳到 Gemini 3.0 Pro 的「思考型」+ 圖像功能，搭配精心設計的 prompt 來修復圖像。實測效果真的不錯！但每次都要手動截圖、上傳、複製貼上 prompt，實在太麻煩了。

於是我決定：為什麼不直接做成自動化工具？

我想要的功能很簡單：

📄 上傳 PDF 檔案
🤖 自動使用 Gemini API 優化每一頁的文字清晰度
📥 下載優化後的 PDF

聽起來很簡單對吧？但實際開發過程中踩了不少坑…

使用的神奇 Prompt

在開發之前，先分享這個優化圖像的 prompt（來自網路分享）：

Role Definition
你現在是搭載「多模態視覺認知引擎 (Multi-modal Visual Cognitive Engine)」的高階圖像修復專家。你具備上下文感知 OCR (Context-aware OCR) 與生成式圖像增強 (Generative Image Upscaling) 的核心能力。

Mission Objective
執行「語意級圖像重構 (Semantic-Level Image Reconstruction)」。針對輸入的低解析或模糊圖像，利用邏輯推演修復文字內容，並輸出 4K 廣色域的高傳真圖像。

Execution Protocol (思維鏈與執行協議)
請在後台嚴格執行以下運算流程，並直接輸出最終圖像：

1. 【光學字元邏輯推演 (Optical & Logical Inference)】
   對圖像進行高維度掃描，鎖定模糊文字區域 (ROI)。
   啟動「上下文語意分析 (Contextual Semantic Analysis)」：不只是辨識像素，更要依據前後文邏輯、常見詞彙庫，推算出模糊區域原本應有的「繁體中文」內容 (Traditional Chinese)。
   容錯機制：若像素資訊遺失，優先採用信心分數 (Confidence Score) 最高的語意填補。

2. 【同構視覺合成 (Isomorphic Visual Synthesis)】
   嚴格繼承原圖的拓樸結構 (Topological Structure)：版面配置、物體座標、透視消點必須與原圖完全鎖定。
   風格遷移 (Style Transfer)：精確捕捉原圖的設計語言（配色、材質、光影），將其應用於新的高解析畫布上。

3. 【向量級細節渲染 (Vector-Grade Rendering)】
   將文字與線條邊緣進行「抗鋸齒 (Anti-aliasing)」與「銳利化處理」。
   文字筆畫必須呈現「印刷級」的清晰度，徹底消除 JPEG 壓縮噪點 (Artifacts) 與邊緣溢色。

Exclusion Criteria (負向約束)
嚴禁產生無法閱讀的「偽文字 (Gibberish)」或簡體中文。
嚴禁改變原圖的關鍵構圖結構。
嚴禁輸出模糊、低對比或過度平滑的油畫感圖像。

Output
Output the reconstructed image ONLY. No textual explanation required.

這個 prompt 的重點在於：

✅ 使用「語意推理」而非純 OCR（能理解上下文）
✅ 保持原有版面配置
✅ 生成高解析度圖像
✅ 強制使用繁體中文

但為了自動化，我簡化成更直接的版本：

prompt_text = "請優化這張圖片中的文字，使其更清晰、更易讀。保持原有的版面配置，但提升文字的品質、對比度和清晰度。請輸出優化後的圖片。"

雖然簡化了，但搭配 Gemini 3.0 的圖像生成能力不僅有效，而且實測之後效果更好！

關於 Vertex AI - API Key

因為這個使用到的是 gemini-3-pro-image-preview 的 API ，所以需要 Google Cloud 的 Vertex AI 的 API Key ，可以到以下頁面去取得。

https://console.cloud.google.com/vertex-ai/studio/settings/api-keys

技術架構

決定使用以下技術棧：

技術	用途	原因
Streamlit	Web UI 框架	快速建立介面，專注業務邏輯
google-genai	Gemini API SDK	官方 SDK，支援圖像生成
pdf2image	PDF 轉圖片	穩定可靠
img2pdf	圖片轉 PDF	簡單高效
Pillow	圖像處理	Python 標準庫

開發過程中遇到的問題

問題 1：Streamlit API 棄用警告

剛開始使用 Streamlit 1.32.0 開發，結果遇到這個錯誤：

TypeError: ImageMixin.image() got an unexpected keyword argument 'use_container_width'

原來是 Streamlit 版本太舊，use_container_width 參數在 1.33.0+ 才引入。

解決方案：升級 Streamlit

pip install --upgrade streamlit

但升級後又出現新的警告：

Please replace `use_container_width` with `width`.
`use_container_width` will be removed after 2025-12-31.

原來最新版本已經棄用 use_container_width，改用新的 width 參數！

最終修正：

# ❌ 舊版 API（即將棄用）
st.image(image, use_container_width=True)
st.button("按鈕", use_container_width=True)

# ✅ 新版 API
st.image(image, width='stretch')
st.button("按鈕", width='stretch')

舊參數值	新參數值
`use_container_width=True`	`width='stretch'`
`use_container_width=False`	`width='content'`

教訓： API 設計會演進，要關注官方的 deprecation warnings。

問題 2：google-genai Part.from_text 調用錯誤

接著開始整合 Gemini API 時，遇到了這個錯誤：

TypeError: Part.from_text() takes 1 positional argument but 2 were given

我原本的代碼：

# ❌ 錯誤的 API 用法
contents = [
    types.Content(
        role="user",
        parts=[
            types.Part.from_text("請優化這張圖片..."),  # ❌ 錯誤！
            types.Part.from_bytes(
                data=image_data,
                mime_type="image/png"
            )
        ]
    )
]

查了官方文檔後發現，google-genai 1.49.0 的 API 已經改變！

正確用法：

# ✅ 正確的 API 用法
contents = [
    types.Content(
        role="user",
        parts=[
            types.Part(text="請優化這張圖片..."),  # 直接用 text 參數
            types.Part(
                inline_data=types.Blob(
                    mime_type="image/png",
                    data=image_data
                )
            )
        ]
    )
]

API 變更對照：

項目	舊版 API	新版 API
文字	`Part.from_text(text)`	`Part(text=text)`
圖片	`Part.from_bytes(data=..., mime_type=...)`	`Part(inline_data=Blob(...))`

教訓： SDK 更新頻繁，要查看最新的官方文檔，不能只依賴 Stack Overflow。

問題 3：ImageConfig 參數驗證錯誤

配置圖像生成參數時，又遇到了新問題：

pydantic_core._pydantic_core.ValidationError: 1 validation error for ImageConfig
output_mime_type
  Extra inputs are not permitted [type=extra_forbidden, input_value='image/png', input_type=str]

我原本的配置：

# ❌ 錯誤：output_mime_type 不被支援
image_config=types.ImageConfig(
    aspect_ratio="1:1",
    image_size="2K",
    output_mime_type="image/png",  # ❌ 這個參數不存在！
)

查詢官方文檔後發現，ImageConfig 只支援兩個參數：

正確配置：

# ✅ 正確：只使用支援的參數
image_config=types.ImageConfig(
    aspect_ratio="16:9",  # 支援的比例
    image_size="2K"       # 支援的尺寸
)

支援的參數值：

參數	支援的值
`aspect_ratio`	`"1:1"`, `"2:3"`, `"3:2"`, `"3:4"`, `"4:3"`, `"4:5"`, `"5:4"`, `"9:16"`, `"16:9"`, `"21:9"`
`image_size`	`"1K"`, `"2K"`, `"4K"`

教訓： 使用 Pydantic 驗證的 SDK 時，參數必須嚴格符合 schema，不能隨意添加。

問題 4：圖片比例不符預期

第一次測試時，生成的圖片是直式的，但 NotebookLM 投影片明明是橫式 16:9！

原因： 我一開始設定 aspect_ratio="3:4"（接近 A4 紙張比例），這適合文件但不適合投影片。

解決方案：

# 改為橫式投影片比例
image_config=types.ImageConfig(
    aspect_ratio="16:9",  # 橫式投影片
    image_size="2K"
)

但為了更好的用戶體驗，我加了一個下拉選單讓使用者自己選擇：

# 在 Streamlit 側邊欄加入選項
aspect_ratio = st.selectbox(
    "輸出比例",
    options=["16:9", "4:3", "3:4", "9:16", "1:1"],
    index=0,
    help="選擇輸出圖片的長寬比例。16:9 適合投影片，3:4 適合文件"
)

教訓： 不要假設使用者的需求，提供選項讓他們自己決定。

完整實作

核心函數：optimize_image_with_gemini

def optimize_image_with_gemini(image, api_key, aspect_ratio="16:9"):
    """使用 Gemini API 優化圖片中的文字"""
    try:
        # 初始化 Vertex AI client
        client = genai.Client(
            vertexai=True,
            api_key=api_key,
        )

        # 轉換圖片為 base64
        buffered = io.BytesIO()
        image.save(buffered, format="PNG")
        img_bytes = buffered.getvalue()
        img_base64 = base64.b64encode(img_bytes).decode()

        # 使用 Gemini 3.0 圖像生成模型
        model = "gemini-3-pro-image-preview"

        # 構建請求內容
        prompt_text = "請優化這張圖片中的文字，使其更清晰、更易讀。保持原有的版面配置，但提升文字的品質、對比度和清晰度。請輸出優化後的圖片。"

        contents = [
            types.Content(
                role="user",
                parts=[
                    types.Part(text=prompt_text),
                    types.Part(
                        inline_data=types.Blob(
                            mime_type="image/png",
                            data=base64.b64decode(img_base64)
                        )
                    )
                ]
            )
        ]

        # 配置生成參數
        generate_content_config = types.GenerateContentConfig(
            temperature=1,
            top_p=0.95,
            max_output_tokens=32768,
            response_modalities=["IMAGE"],
            safety_settings=[
                types.SafetySetting(
                    category="HARM_CATEGORY_HATE_SPEECH",
                    threshold="OFF"
                ),
                types.SafetySetting(
                    category="HARM_CATEGORY_DANGEROUS_CONTENT",
                    threshold="OFF"
                ),
                types.SafetySetting(
                    category="HARM_CATEGORY_SEXUALLY_EXPLICIT",
                    threshold="OFF"
                ),
                types.SafetySetting(
                    category="HARM_CATEGORY_HARASSMENT",
                    threshold="OFF"
                )
            ],
            image_config=types.ImageConfig(
                aspect_ratio=aspect_ratio,
                image_size="2K"
            ),
        )

        # 呼叫 API
        response = client.models.generate_content(
            model=model,
            contents=contents,
            config=generate_content_config,
        )

        # 提取生成的圖片
        if response.candidates and len(response.candidates) > 0:
            candidate = response.candidates[0]
            if candidate.content.parts:
                for part in candidate.content.parts:
                    if hasattr(part, 'inline_data') and part.inline_data:
                        image_data = part.inline_data.data
                        optimized_image = Image.open(io.BytesIO(image_data))
                        return optimized_image

        # 如果沒有生成圖片，返回原圖
        st.warning("API 未返回優化圖片，使用原圖")
        return image

    except Exception as e:
        st.error(f"優化失敗: {str(e)}")
        return image

主要流程

def main():
    st.title("📄 PDF 文字優化工具")
    st.markdown("### 使用 Gemini AI 優化 PDF 中的文字")

    # 側邊欄設定
    with st.sidebar:
        st.header("設定")
        api_key = st.text_input(
            "Google Cloud API Key",
            type="password",
            value=os.environ.get("GOOGLE_CLOUD_API_KEY", ""),
        )

        dpi = st.slider("圖片解析度 (DPI)", 150, 600, 300, 50)
        aspect_ratio = st.selectbox(
            "輸出比例",
            options=["16:9", "4:3", "3:4", "9:16", "1:1"],
            index=0,
        )

    # 上傳檔案
    uploaded_file = st.file_uploader("選擇 PDF 檔案", type=['pdf'])

    if uploaded_file and st.button("🚀 開始處理"):
        with tempfile.TemporaryDirectory() as temp_dir:
            # 步驟 1: PDF → 圖片
            images = convert_from_path(pdf_path, dpi=dpi)

            # 步驟 2: 優化每一頁
            optimized_images = []
            for idx, img in enumerate(images):
                st.write(f"處理第 {idx + 1}/{len(images)} 頁...")
                optimized_img = optimize_image_with_gemini(
                    img, api_key, aspect_ratio
                )
                optimized_images.append(optimized_img)

            # 步驟 3: 圖片 → PDF
            output_pdf = images_to_pdf(optimized_images)

            # 步驟 4: 提供下載
            st.download_button(
                label="⬇️ 下載優化後的 PDF",
                data=output_pdf,
                file_name=f"optimized_{uploaded_file.name}",
                mime="application/pdf",
            )

實際效果

(左邊是 NotebookLM 生出的，右邊是透過 Gemini-3.0-pro-image 重新繪製的)

處理流程

上傳 PDF 檔案
系統自動將每一頁轉換為圖片（DPI 可調）
每一頁都呼叫 Gemini API 進行優化
顯示處理進度和成功/失敗統計
將優化後的圖片重組為 PDF
提供下載按鈕

優化前後對比

應用程式會顯示第一頁的優化前後對比：

優化前後對比 (第一頁):
┌────────────┬────────────┐
│  原始圖片   │  優化後     │
│  (模糊)    │  (清晰)     │
└────────────┴────────────┘

處理統計

📄 處理頁面 1/10...
  → 初始化 Gemini 客戶端...
  → 轉換圖片格式...
  → 使用模型: gemini-3-pro-image-preview
  → 呼叫 Gemini API 進行優化...
  → 收到 API 回應，解析結果...
  → ✅ 成功生成優化圖片
✅ 第 1 頁優化成功

...

成功優化: 8 頁 | 失敗: 2 頁

開發心得

1. API 文檔要看最新版

這次踩的坑大多是因為 API 更新導致的：

Part.from_text() → Part(text=...)
use_container_width → width='stretch'

教訓： 不要只看 Stack Overflow 或舊教程，一定要查官方最新文檔。

2. Pydantic 驗證是雙面刃

google-genai 使用 Pydantic 進行參數驗證，好處是能快速發現錯誤，壞處是稍微打錯字就會報錯。

建議： 使用 IDE 的自動補全功能，或直接從官方範例複製貼上。

3. 圖像生成 API 的限制

目前 Gemini 圖像生成 API 有一些限制：

必須透過 Vertex AI（不能用一般的 Developer API）
需要設定 GCP 專案和認證
輸出比例固定（不能自由指定像素大小）

但好處是：

✅ 生成品質極高（特別是文字清晰度）
✅ 能理解語意（不只是簡單的濾鏡）
✅ 支援多種比例選項

4. 批次處理的用戶體驗

處理多頁 PDF 時，用戶體驗很重要：

✅ 顯示即時進度（第 X/Y 頁）
✅ 顯示每一頁的處理狀態
✅ 統計成功/失敗數量
✅ 顯示詳細的錯誤訊息

這些小細節讓工具更專業。

5. 成本考量

Gemini 圖像生成 API 是付費的，處理一份 10 頁的 PDF：

10 次 API 調用
每次處理 1 張 2K 圖片

建議： 在生產環境要考慮成本控制：

限制單次處理的頁數
提供預覽功能（只處理第一頁）
快取已處理的結果

6. 從手動到自動化的價值

原本的流程：

在 NotebookLM 生成投影片
截圖每一頁
上傳到 Gemini AI Studio
複製貼上 prompt
下載優化後的圖片
重複步驟 2-5 N 次
手動合併成 PDF

自動化後：

上傳 PDF
點擊「開始處理」
下載優化後的 PDF

節省時間： 從 10 頁需要 30 分鐘 → 3 分鐘（API 調用時間）

總結

如果你也遇到類似的圖像優化需求：

✅ 使用 Gemini 圖像生成 API - 比傳統 OCR + 濾鏡效果好太多
✅ 注意 API 版本 - SDK 更新很快，要看最新文檔
✅ 重視用戶體驗 - 進度顯示、錯誤處理很重要
✅ 考慮成本 - 商業應用要評估 API 調用成本

這個工具雖然簡單,但確實解決了我的痛點。從手動處理到一鍵完成，這就是自動化的價值！

專案結構

nano-nblm-pdf/
├── app.py              # Streamlit 主程式
├── requirements.txt    # 依賴套件
├── .env.example        # 環境變數範例
└── README.md          # 使用說明

環境設定

必要套件

streamlit>=1.40.0
google-genai>=1.0.0
pdf2image==1.17.0
Pillow==10.2.0
img2pdf==0.5.1

環境變數

# Google Cloud API Key (必要)
export GOOGLE_CLOUD_API_KEY="your-api-key"

啟動應用

# 安裝依賴
pip install -r requirements.txt

# 啟動 Streamlit
streamlit run app.py

使用說明

在側邊欄輸入 Google Cloud API Key
調整圖片解析度（DPI）和輸出比例
上傳 PDF 檔案
點擊「開始處理」
等待處理完成
下載優化後的 PDF

已知限制

需要 Vertex AI - 必須使用 GCP 專案和認證
處理時間 - 每頁約需 10-15 秒
API 成本 - 按 API 調用次數計費
比例固定 - 輸出圖片比例由 API 限制

未來改進方向

支援批次處理多個 PDF
加入預覽功能（只處理第一頁）
快取處理結果
支援更多圖片格式（JPG, PNG 等）
加入進度條和預估時間
錯誤重試機制

參考資料

專案連結

GitHub Repository: https://github.com/kkdai/nano-nblm-pdf

December 9th, 2025

[Gemini 3.0][Google Search] 使用 Google Search Grounding API 搭配 Gemini 3.0 Pro 來打造新聞與資訊助手

前情提要

在開發 LINE Bot 時，我想改進純文字搜尋功能：讓使用者輸入任何問題後，AI 能自動搜尋網路資訊並整理回答，同時支援連續對話。傳統做法需要串接多個 API（Gemini 提取關鍵字 → Google Custom Search → Gemini 總結），不僅慢（3次API調用）而且沒有對話記憶。

但 Google 在 2024 年推出了 Grounding with Google Search 功能，這是官方的 RAG (Retrieval-Augmented Generation) 解決方案，讓 Gemini 模型可以自動搜尋網路並引用來源，還原生支援 Chat Session！這項功能透過 Vertex AI 提供，讓 AI 回應不再憑空想像，而是基於真實的網路資訊。

畫面展示

LINE 2025-12-11 09.29.52

( 使用舊有的 Google Custom Search 的成果)

會發現他是根據 Google Search 的成果出來的結果，

主要 Repo https://github.com/kkdai/linebot-helper-python

開發過程中遇到的問題

問題 1：舊版實作的瓶頸

在實作 loader/searchtool.py 時，我使用的是傳統的搜尋流程：

# ❌ 舊版的做法 - 3 次 API 調用
async def handle_text_message(event, user_id):
    msg = event.message.text

    # 第 1 次：提取關鍵字
    keywords = extract_keywords_with_gemini(msg, api_key)

    # 第 2 次：Google Custom Search
    results = search_with_google_custom_search(keywords, search_api_key, cx)

    # 第 3 次：總結結果
    summary = summarize_text(result_text, 300)

    # 回傳結果...

這個方法有幾個明顯的問題：

❌ 無對話記憶 - 每次都是新的對話，無法連續提問

用戶: "Python 是什麼？"
Bot: [搜尋結果 + 摘要]

用戶: "它有什麼優點？"  # ❌ Bot 不知道 "它" 指的是 Python

❌ 搜尋結果淺薄 - 只使用 snippet，無法深入閱讀網頁內容

❌ 速度慢且成本高 - 3 次 API 調用（~6-8秒）+ Google Custom Search 費用（$0.005/次）

問題 2：Client Closed 錯誤

當我改用 Vertex AI Grounding 後，遇到了這個錯誤：

ERROR:loader.chat_session:Grounding search failed: Cannot send a request, as the client has been closed.

原因是我在函數中創建了局部的 client 變數：

# ❌ 錯誤的做法 - client 會被垃圾回收
def get_or_create_session(self, user_id):
    client = self._create_client()  # 局部變數
    chat = client.chats.create(...)
    return chat  # 函數結束後 client 被關閉！

當函數結束後，client 被垃圾回收並關閉，導致基於它創建的 chat session 無法使用。

正確的解決方案

1. 使用 Vertex AI Grounding with Google Search

Google Search Grounding 是 Vertex AI 提供的官方 RAG 解決方案，與舊版 Custom Search 的比較：

特性	舊版 (Custom Search)	新版 (Grounding)
API 調用次數	3 次	1 次
回應速度	~6-8秒	~2-3秒
對話記憶	❌ 無	✅ 原生支援
搜尋品質	⭐⭐⭐ (snippet)	⭐⭐⭐⭐⭐ (完整網頁)
來源引用	僅連結	完整引用
成本	Gemini + Custom Search	僅 Vertex AI

2. 建立 Chat Session Manager

首先，我創建了 loader/chat_session.py 來管理對話 session：

from google import genai
from google.genai import types
from datetime import datetime, timedelta
from typing import Dict, Tuple, List

class ChatSessionManager:
    def __init__(self, session_timeout_minutes: int = 30):
        self.sessions: Dict[str, dict] = {}
        self.session_timeout = timedelta(minutes=session_timeout_minutes)

        # ✅ 關鍵：創建共享的 client 實例（避免 client closed 錯誤）
        self.client = self._create_client()

    def _create_client(self) -> genai.Client:
        """創建 Vertex AI client"""
        return genai.Client(
            vertexai=True,  # 啟用 Vertex AI
            project=os.getenv('GOOGLE_CLOUD_PROJECT'),
            location=os.getenv('GOOGLE_CLOUD_LOCATION', 'us-central1'),
            http_options=types.HttpOptions(api_version="v1")
        )

    def get_or_create_session(self, user_id: str) -> Tuple[object, List[dict]]:
        """獲取或創建用戶的 chat session"""
        now = datetime.now()

        # 檢查現有 session
        if user_id in self.sessions:
            session_data = self.sessions[user_id]
            if not self._is_session_expired(session_data):
                session_data['last_active'] = now
                return session_data['chat'], session_data['history']

        # 創建新 session with Google Search Grounding
        config = types.GenerateContentConfig(
            temperature=0.7,
            max_output_tokens=2048,
            # ✅ 啟用 Google Search
            tools=[types.Tool(google_search=types.GoogleSearch())],
        )

        # 使用共享的 self.client（不會被關閉）
        chat = self.client.chats.create(
            model="gemini-2.0-flash",
            config=config
        )

        self.sessions[user_id] = {
            'chat': chat,
            'last_active': now,
            'history': [],
            'created_at': now
        }

        return chat, []

修復要點：

共享 Client - self.client 在 __init__() 中創建，生命週期與 ChatSessionManager 相同
自動過期 - 30 分鐘後 session 自動過期
對話隔離 - 每個用戶的 session 完全獨立

3. 實作搜尋和回答函數

接著實作使用 Grounding 搜尋並回答的核心函數：

async def search_and_answer_with_grounding(
    query: str,
    user_id: str,
    session_manager: ChatSessionManager
) -> dict:
    """使用 Vertex AI Grounding 搜尋並回答問題"""
    try:
        # 獲取或創建 chat session
        chat, history = session_manager.get_or_create_session(user_id)

        # 構建 prompt（繁體中文 + 不使用 markdown）
        prompt = f"""請用台灣用語的繁體中文回答以下問題。
如果需要最新資訊，請搜尋網路並提供準確的答案。
請提供詳細且有用的回答，並確保資訊來源可靠。
請不要使用 markdown 格式（不要用 **、##、- 等符號）。使用純文字回答。

問題：{query}"""

        # 發送訊息（Gemini 會自動決定是否需要搜尋）
        response = chat.send_message(prompt)

        # 記錄到歷史
        session_manager.add_to_history(user_id, "user", query)
        session_manager.add_to_history(user_id, "assistant", response.text)

        # 提取引用來源
        sources = []
        if hasattr(response, 'candidates') and response.candidates:
            candidate = response.candidates[0]
            if hasattr(candidate, 'grounding_metadata'):
                metadata = candidate.grounding_metadata
                if hasattr(metadata, 'grounding_chunks'):
                    for chunk in metadata.grounding_chunks:
                        if hasattr(chunk, 'web'):
                            sources.append({
                                'title': chunk.web.title,
                                'uri': chunk.web.uri
                            })

        return {
            'answer': response.text,
            'sources': sources,
            'has_history': len(history) > 0
        }

    except Exception as e:
        logger.error(f"Grounding search failed: {e}")
        raise

關鍵特性：

✅ Gemini 自動判斷何時需要搜尋
✅ 閱讀完整網頁內容（不只是 snippet）
✅ 自動提取引用來源
✅ 支援連續對話（記住上下文）

4. 整合到 main.py

在 main.py 中整合 Grounding 功能：

from loader.chat_session import (
    ChatSessionManager,
    search_and_answer_with_grounding,
    format_grounding_response,
    get_session_status_message
)

# 初始化 Session Manager
chat_session_manager = ChatSessionManager(session_timeout_minutes=30)

async def handle_text_message(event: MessageEvent, user_id: str):
    """處理純文字訊息 - 使用 Grounding"""
    msg = event.message.text.strip()

    # 特殊指令
    if msg.lower() in ['/clear', '/清除']:
        chat_session_manager.clear_session(user_id)
        reply_msg = TextSendMessage(text="✅ 對話已重置")
        await line_bot_api.reply_message(event.reply_token, [reply_msg])
        return

    if msg.lower() in ['/status', '/狀態']:
        status_text = get_session_status_message(chat_session_manager, user_id)
        reply_msg = TextSendMessage(text=status_text)
        await line_bot_api.reply_message(event.reply_token, [reply_msg])
        return

    # 使用 Grounding 搜尋和回答
    try:
        result = await search_and_answer_with_grounding(
            query=msg,
            user_id=user_id,
            session_manager=chat_session_manager
        )

        response_text = format_grounding_response(result, include_sources=True)
        reply_msg = TextSendMessage(text=response_text)
        await line_bot_api.reply_message(event.reply_token, [reply_msg])

    except Exception as e:
        logger.error(f"Error in Grounding search: {e}", exc_info=True)
        error_text = "❌ 抱歉，處理您的問題時發生錯誤。請稍後再試。"
        reply_msg = TextSendMessage(text=error_text)
        await line_bot_api.reply_message(event.reply_token, [reply_msg])

實際應用範例

實作後的功能非常強大，可以進行智能對話：

範例 1：基本問答

用戶: Python 是什麼？
Bot: Python 是一種高階、直譯式的程式語言，由 Guido van Rossum 於 1991 年創建...

     📚 參考來源：
     1. Python 官方網站
        https://www.python.org/

範例 2：連續對話（對話記憶）

用戶: Python 是什麼？
Bot: [答案...]

用戶: 它有什麼優點？  ✅ Bot 知道 "它" = Python
Bot: 💬 [對話中]

     Python 的主要優點包括：
     1. 語法簡潔易讀
     2. 豐富的標準庫
     ...

範例 3：最新資訊搜尋

用戶: 日本最新地震消息
Bot: 根據最新資訊，日本在 2025 年 12 月...
     [Gemini 自動搜尋網路並整理最新資訊]

     📚 參考來源：
     1. 中央氣象署
     2. NHK 新聞

使用情境

這些應用場景特別適合：

💬 智能客服 - 自動搜尋最新產品資訊
📰 新聞助手 - 追蹤最新時事
🎓 學習助手 - 解答問題並提供可靠來源
🔍 研究助理 - 快速搜尋和整理資訊

環境設定

必要環境變數

# Vertex AI 設定（必要）
export GOOGLE_CLOUD_PROJECT="your-project-id"
export GOOGLE_CLOUD_LOCATION="us-central1"  # 可選，預設為 us-central1

# 認證方式（擇一）
# 方式 1: 使用 ADC (開發環境)
gcloud auth application-default login

# 方式 2: 使用 Service Account (生產環境)
export GOOGLE_APPLICATION_CREDENTIALS="/path/to/service-account-key.json"

# 啟用 Vertex AI API
gcloud services enable aiplatform.googleapis.com

不再需要的環境變數

由於改用 Grounding，以下環境變數已不再需要：

# ❌ 不再需要
# SEARCH_API_KEY=...
# SEARCH_ENGINE_ID=...

這簡化了配置，也省下 Google Custom Search API 的費用！

代碼清理

移除舊版 searchtool 代碼

由於已經使用 Grounding，我進行了代碼清理：

main.py - 移除 searchtool import

# ❌ 已移除
# from loader.searchtool import search_from_text
# search_api_key = os.getenv('SEARCH_API_KEY')
# search_engine_id = os.getenv('SEARCH_ENGINE_ID')
   
# ✅ 新增
logger.info('Text search using Vertex AI Grounding with Google Search')

loader/searchtool.py - 標記為 DEPRECATED

"""
⚠️ DEPRECATED: This module is no longer used in the main application.
   
The text search functionality has been replaced by Vertex AI Grounding
with Google Search, which provides better quality results and native
conversation memory.
   
This file is kept for reference or as a fallback option.
"""

.env.example 和 README.md - 移除 Custom Search 環境變數說明

清理成果

項目	清理前	清理後
必要環境變數	4 個	2 個
API 調用	3 次	1 次
代碼複雜度	高	低
維護成本	高	低

支援的模型清單

目前支援 Google Search Grounding 的 Gemini 模型：

✅ Gemini 3.0 Pro (Preview)（功能強大）
✅ Gemini 2.5 Pro
✅ Gemini 2.5 Flash
✅ Gemini 2.0 Flash（推薦使用）
✅ Gemini 2.5 Flash with Live API
❌ Gemini 2.0 Flash-Lite（不支援 Grounding）

效能提升

速度比較

指標	舊版	新版	改善
API 調用次數	3 次	1 次	⬇️ 66%
回應時間	~6-8 秒	~2-3 秒	⬇️ 60%
搜尋品質	⭐⭐⭐	⭐⭐⭐⭐⭐	⬆️ 大幅提升

成本分析

舊版成本（每次問答）：

1. extract_keywords_with_gemini()  → Gemini API
2. Google Custom Search           → $0.005
3. summarize_text()               → Gemini API
                                    ─────────
                                    總計：Gemini + $0.005

新版成本（每次問答）：

1. Grounding with Google Search   → Vertex AI
                                    ─────────
                                    總計：僅 Vertex AI

✅ 省下 Custom Search API 費用 ✅ 更快的回應速度 ✅ 更高的搜尋品質

目前需要注意的地方

1. 必須使用 Vertex AI

Google Search Grounding 功能不支援一般的 Gemini Developer API，必須透過 Vertex AI 存取。

2. 認證設定

開發環境：使用 gcloud auth application-default login
生產環境：使用 Service Account 並設定 GOOGLE_APPLICATION_CREDENTIALS

3. 支援的模型

確保使用支援 Grounding 的模型（如 gemini-2.0-flash 以上），避免使用 -lite 版本。

4. Client 生命週期

務必在 __init__() 中創建共享的 client 實例，避免 “client closed” 錯誤。

5. Prompt 優化

在 prompt 中明確指示：

使用繁體中文
不使用 markdown 格式（如果需要純文字）
提供可靠來源

開發心得

1. Grounding 是遊戲規則改變者

從傳統的「關鍵字提取 → API 搜尋 → 結果總結」流程，到使用 Grounding 的「一次 API 調用完成所有事情」，這個轉變帶來的不只是技術上的簡化，更是用戶體驗的質變：

技術層面：

✅ 代碼量減少 70%（從 3 個函數到 1 個）
✅ API 調用減少 66%（從 3 次到 1 次）
✅ 回應時間縮短 60%（從 6-8 秒到 2-3 秒）

用戶體驗：

✅ 支援連續對話（終於能理解 “它” 指的是什麼了！）
✅ 自動引用來源（增加可信度）
✅ 更深入的資訊（完整網頁 vs. 簡短 snippet）

2. Client 生命週期管理很重要

最初遇到的 “client closed” 錯誤讓我學到：在使用 google-genai SDK 時，client 應該是長期存活的物件，而不是每次都創建新的。

# ❌ 錯誤：client 會被垃圾回收
def create_session():
    client = genai.Client(...)
    chat = client.chats.create(...)
    return chat  # client 被關閉，chat 無法使用

# ✅ 正確：共享 client 實例
class Manager:
    def __init__(self):
        self.client = genai.Client(...)  # 只創建一次

    def create_session(self):
        return self.client.chats.create(...)  # 重複使用

這個教訓適用於所有需要管理長連線的 SDK。

3. RAG 不一定要自己實作

過去我們需要自己實作 RAG（檢索增強生成）：

使用 embedding 建立向量資料庫
實作相似度搜尋
將檢索結果注入 prompt
管理 context window

但 Google Search Grounding 已經幫我們做好這一切！它：

✅ 自動判斷何時需要搜尋
✅ 使用 Google 的搜尋引擎（比我們自己做的好太多）
✅ 閱讀完整網頁並提取重要資訊
✅ 自動引用來源

結論： 如果你的 RAG 需求是「搜尋網路資訊」，直接用 Grounding 就好，不要重新發明輪子。

4. Session 管理比想像中簡單

實作對話記憶時，我原本以為需要：

Redis 持久化
複雜的 context 管理
手動維護對話歷史

但實際上，Gemini Chat API 原生支援多輪對話！只需要：

chat = client.chats.create(...)
chat.send_message("問題 1")  # 第 1 輪
chat.send_message("問題 2")  # 第 2 輪（自動記住第 1 輪）

我只需要做：

將 chat 物件存在記憶體
定期清理過期 session
提供 /clear 指令

簡單、高效、可靠！

5. Prompt 優化的重要性

最初的回應包含很多 markdown 格式（**粗體**、## 標題），在 LINE 上顯示不美觀。只需在 prompt 中加一行：

prompt = f"""...
請不要使用 markdown 格式（不要用 **、##、- 等符號）。使用純文字回答。
問題：{query}"""

就解決了問題！這讓我體會到：好的 prompt 設計和好的代碼一樣重要。

6. 從失敗中學習

這次開發過程中，我經歷了：

❌ 使用 Custom Search → 發現太慢、太淺
✅ 改用 Grounding → 但遇到 client closed 錯誤
✅ 修復 client 生命週期 → 發現 markdown 格式問題
✅ 優化 prompt → 完美！

每個問題都是學習的機會。 如果一開始就成功，我不會學到這麼多關於 SDK 設計、生命週期管理和 prompt 工程的知識。

總結

如果你正在開發需要搜尋功能的 AI 應用：

✅ 優先考慮 Grounding - 比自己實作 RAG 簡單太多
✅ 注意 Client 生命週期 - 避免不必要的重複創建
✅ 善用 Chat Session - 原生對話記憶很強大
✅ 投資在 Prompt 優化 - 小改動帶來大改善

Google Search Grounding 絕對值得一試！

測試步驟

1. 啟動應用程式

# 確認環境變數已設定
export GOOGLE_CLOUD_PROJECT=your-project-id

# 重啟應用
uvicorn main:app --reload

2. 測試基本功能

在 LINE 中測試：

發送：Python 是什麼？
預期：✅ 收到詳細回答 + 來源

發送：它有什麼優點？
預期：✅ 看到 "💬 [對話中]" 標記，Bot 知道 "它" = Python

發送：/status
預期：✅ 顯示對話狀態

發送：/clear
預期：✅ 顯示 "對話已重置"

3. 檢查日誌

應該看到：

INFO:main:Text search using Vertex AI Grounding with Google Search
INFO:loader.chat_session:Creating new session for user ...
INFO:loader.chat_session:Sending message to Grounding API ...

不應該看到：

ERROR:loader.chat_session:Grounding search failed: Cannot send a request, as the client has been closed.

參考資料

December 2nd, 2025

[n8n][Gemini] 打造 AI 自動摘要的 RSS 訂閱系統，每日定時推送 LINE 通知

前情提要

身為一個資訊焦慮的工程師，我每天都會追蹤多個技術部落格和 Hacker News。但手動瀏覽實在太花時間，於是我決定用 n8n 打造一個自動化系統：RSS 更新時自動抓取網頁內容、用 Gemini AI 產生摘要、存入 Google Sheets，然後每天早上 6 點推送精選文章到 LINE。

這個專案整合了多個服務：

📡 RSS Feed：訂閱多個資訊來源
🕷️ Firecrawl：抓取網頁完整內容
🤖 Gemini 2.5 Flash：AI 自動摘要
📊 Google Sheets：儲存文章資料
📱 LINE Messaging API：Flex Message 推送通知

聽起來很美好，但實作過程中踩了不少坑，這篇文章記錄我遇到的問題和解決方案。

系統架構

整個系統分成兩個獨立的 n8n Workflow：

Workflow 1：RSS 即時處理

Google Chrome 2025-12-05 11.27.59

RSS 觸發 → 格式化資料 → Firecrawl 抓取網頁 → 內容預處理 → Gemini 摘要 → 寫入 Google Sheets

Workflow 2：每日定時發送

每日 6:00 觸發 → 讀取 Google Sheets → 篩選未發送 → 取 10 筆 → 組合 Flex Message → LINE 推送 → 更新狀態

開發過程中遇到的問題

問題 1：n8n Code Node 語法錯誤

我一開始在 Code Node 使用 ES Module 語法：

// ❌ 錯誤的做法
export default async function () {
  const items = this.getInputData();
  // ...
}

結果 n8n 一直報錯，執行失敗。

解決方案： 改用 n8n 標準的寫法，直接使用 $input.all()：

// ✅ 正確的做法
const items = $input.all();

const newItems = items.map(item => {
  // 處理邏輯
  return {
    json: {
      ...item.json,
      // 新增欄位
    }
  };
});

return newItems;

問題 2：Gemini API 回傳 MAX_TOKENS 錯誤

送出請求後，Gemini 回傳了這個結果：

{
  "candidates": [
    {
      "content": { "role": "model" },
      "finishReason": "MAX_TOKENS",
      "index": 0
    }
  ],
  "usageMetadata": {
    "promptTokenCount": 568,
    "totalTokenCount": 867,
    "thoughtsTokenCount": 299
  }
}

一開始我以為是輸入太長，但仔細看 promptTokenCount 只有 568，問題出在 輸出 token 限制！

原來 Gemini 2.5 Flash 有 Thinking 功能，會消耗一部分 output token 做內部思考。我設定 maxOutputTokens: 300，但 thinking 就用掉了 299，實際輸出只剩 1 個 token！

解決方案： 提高 maxOutputTokens 或關閉 Thinking 功能：

// 方案 1：提高 output token 限制
{
  "generationConfig": {
    "temperature": 0.7,
    "maxOutputTokens": 1024  // 從 300 提高到 1024
  }
}

// 方案 2：關閉 Thinking 功能
{
  "generationConfig": {
    "temperature": 0.7,
    "maxOutputTokens": 512,
    "thinkingConfig": {
      "thinkingBudget": 0  // 關閉 thinking
    }
  }
}

問題 3：Firecrawl 抓取的內容太雜

Firecrawl 會抓取整個網頁，包含導覽列、側欄、留言區等雜訊。直接送給 Gemini 會浪費 token，也影響摘要品質。

解決方案： 在送給 Gemini 之前，先用 Code Node 清理內容：

const items = $input.all();
const maxLen = 1500;  // 限制最大字數

const newItems = items.map(item => {
  const title = item.json.title || '';
  const raw = item.json.content || '';

  // 1. 移除雜訊
  let text = raw
    .replace(/```[\s\S]*?```/g, '')              // 移除程式碼區塊
    .replace(/`[^`]+`/g, '')                     // 移除行內程式碼
    .replace(/!\[[^\]]*\]\([^)]*\)/g, '')        // 移除 markdown 圖片
    .replace(/<[^>]+>/g, '')                     // 移除 HTML 標籤
    .replace(/https?:\/\/\S+/g, '')              // 移除 URL
    .replace(/\[([^\]]+)\]\([^)]+\)/g, '$1')     // 保留連結文字
    .replace(/[#>*`|_~]/g, '')                   // 移除 markdown 符號
    .replace(/\n{3,}/g, '\n\n')                  // 壓縮換行
    .replace(/\s{2,}/g, ' ')                     // 壓縮空白
    .trim();

  // 2. 切掉無關內容
  const cutPatterns = [
    'Leave a Reply', 'Recent Comments', 'Related Posts',
    'Share this', 'Subscribe', 'Newsletter', 'Copyright',
    '關於作者', '延伸閱讀', '相關文章', '留言'
  ];
  
  for (const pattern of cutPatterns) {
    const idx = text.indexOf(pattern);
    if (idx > 200) {
      text = text.slice(0, idx);
    }
  }

  // 3. 限制長度，保留完整句子
  text = text.slice(0, maxLen);
  if (text.length === maxLen) {
    const lastPeriod = Math.max(
      text.lastIndexOf('。'),
      text.lastIndexOf('！'),
      text.lastIndexOf('？'),
      text.lastIndexOf('. ')
    );
    if (lastPeriod > maxLen * 0.5) {
      text = text.slice(0, lastPeriod + 1);
    }
  }

  // 4. 組成精簡的 prompt
  const prompt = `用繁體中文寫100字以內摘要，只輸出摘要正文：

標題：${title}

內容：
${text}`;

  return {
    json: {
      ...item.json,
      prompt: prompt
    }
  };
});

return newItems;

問題 4：LINE Flex Message 報錯 “message is invalid”

LINE Push Message 回傳錯誤：

A message (messages[0]) in the request body is invalid

檢查 Flex Message JSON 後發現，有些文章的 title 欄位是空的，導致 "text": undefined。LINE API 不接受空的 text 欄位。

問題根源： Google Sheets 讀出來的欄位名稱不是 title，而是 col_1（因為標題列設定問題）。

解決方案： 在 Build Flex Message 時加上 fallback：

const items = $input.first().json.data || [];

const bubbles = items.map((item) => {
  // 修正：檢查多個可能的欄位名稱，並提供預設值
  const title = item.title || item.col_1 || item.link || '無標題';
  const summary = item.summary || '無摘要內容';
  const link = item.link || 'https://example.com';
  const source = item.source || 'Unknown';
  
  return {
    "type": "bubble",
    "size": "kilo",
    "body": {
      "type": "box",
      "layout": "vertical",
      "contents": [
        {
          "type": "text",
          "text": title,  // 確保永遠有值
          "weight": "bold",
          "wrap": true
        },
        {
          "type": "text",
          "text": summary,  // 確保永遠有值
          "size": "sm",
          "wrap": true
        }
      ]
    },
    // ...
  };
});

API Credential 設定

Firecrawl API Key

n8n 中選擇 Header Auth：

欄位	值
Name	`Authorization`
Value	`Bearer fc-your-api-key`

Gemini API Key

n8n 中選擇 Header Auth：

欄位	值
Name	`x-goog-api-key`
Value	`your-gemini-api-key`

⚠️ 注意： Gemini 用的是 x-goog-api-key header，不是 Bearer token！

LINE Channel Access Token

n8n 中選擇 Header Auth：

欄位	值
Name	`Authorization`
Value	`Bearer your-channel-access-token`

Google Sheets 欄位設計

title	link	summary	source	created_at	sent
文章標題	網址	AI 摘要	來源	發布時間	FALSE

⚠️ 重要： 確保第一行的標題列正確設定，否則 n8n 讀出來的 key 會變成 col_1, col_2 這種格式！

LINE Flex Message 效果

最終的 Flex Message 是 Carousel 格式，每篇文章一張卡片：

┌─────────────────────────┐
│ 📝 DK                   │  ← 來源標籤 + emoji
├─────────────────────────┤
│ 文章標題                  │  ← 粗體標題
│                         │
│ 摘要內容摘要內容摘要       │  ← 100 字摘要
│ 內容摘要內容...           │
├─────────────────────────┤
│    [閱讀原文]            │  ← 按鈕連結
└─────────────────────────┘

不同來源有不同的顏色和 emoji：

📝 DK (藍色 #4A90A4)
🔥 HN (橘色 #FF6600)
🎮 Steam (深藍 #1B2838)
🇯🇵 LY Blog (綠色 #00C300)

踩坑總結

問題	原因	解決方案
Code Node 執行失敗	ES Module 語法不相容	使用 `$input.all()` 標準寫法
Gemini MAX_TOKENS	Thinking 功能消耗 output token	提高 maxOutputTokens 到 1024
摘要品質差	網頁雜訊太多	預處理移除無關內容
LINE message invalid	Flex Message 有空值	加上 fallback 預設值
Google Sheets 欄位名稱錯誤	標題列未正確設定	確保第一行有正確的欄位名稱

開發心得

這次專案讓我學到幾個重要的經驗：

Gemini 2.5 的 Thinking 功能會消耗 output token：如果你的輸出被截斷，先檢查 thoughtsTokenCount，可能需要提高 maxOutputTokens 或關閉 thinking。
n8n Code Node 要用標準寫法：避免使用 export default 或 this.getInputData()，直接用 $input.all() 最穩定。
永遠要處理空值：API 回傳的資料可能缺少欄位，在組合輸出時一定要加上 fallback。
預處理很重要：送給 AI 的內容越乾淨，摘要品質越好，也越省 token。
Google Sheets 的欄位名稱取決於標題列：如果讀出來的 key 是 col_1，代表標題列有問題。

這個系統現在每天早上 6 點會自動推送 10 篇精選文章到我的 LINE，終於可以在通勤時快速掌握技術動態了！🎉

參考資料

December 1st, 2025

[Gemini][Google Maps] 使用 Google Maps Grounding API 打造位置感知的 AI 應用

前情提要

在開發 LINE Bot 時，我想加入一個功能：讓使用者分享位置後，AI 可以智慧推薦附近的餐廳、加油站或停車場。傳統做法需要串接 Google Places API，處理複雜的搜尋邏輯和結果排序。但 Google 在 2024 年推出了 Grounding with Google Maps 功能，可以讓 Gemini 模型直接存取 Google Maps 的 2.5 億個地點資訊，讓 AI 回應自動帶有地理位置脈絡！

這項功能透過 Vertex AI 提供，可以讓 Gemini 模型「接地氣」（grounded）地回答位置相關問題，不再只是憑空想像。

開發過程中遇到的問題

在實作 maps_grounding.py 時，我最初使用 Gemini Developer API 搭配 API Key 的方式：

# ❌ 錯誤的做法
client = genai.Client(
    api_key=api_key,
    http_options=HttpOptions(api_version="v1")
)

response = client.models.generate_content(
    model="gemini-2.0-flash-lite",  # 不支援 Maps Grounding
    contents=query,
    config=GenerateContentConfig(
        tools=[Tool(google_maps=GoogleMaps())],
        tool_config=ToolConfig(...)
    ),
)

結果出現了這個錯誤：

google.genai.errors.ClientError: 400 INVALID_ARGUMENT.
{'error': {'code': 400, 'message': 'Invalid JSON payload received.
Unknown name "tools": Cannot find field.
Invalid JSON payload received. Unknown name "toolConfig": Cannot find field.'}}

經過查閱文件後才發現，Google Maps Grounding 只支援 Vertex AI，無法使用 Gemini Developer API！

正確的解決方案

1. 理解 API 差異

Google 提供兩種不同的 Gemini API 存取方式：

特性	Gemini Developer API	Vertex AI API
認證方式	API Key	ADC / Service Account
Maps Grounding	❌ 不支援	✅ 支援
企業級功能	有限	完整
適用場景	快速原型開發	生產環境

2. 修正程式碼

以下是正確的實作方式：

from google import genai
from google.genai import types

# ✅ 正確的做法：使用 Vertex AI
client = genai.Client(
    vertexai=True,  # 啟用 Vertex AI 模式
    project=project_id,  # GCP 專案 ID
    location=location,  # 建議使用 'global'
    http_options=types.HttpOptions(api_version="v1")
)

# 使用支援 Maps Grounding 的模型
response = client.models.generate_content(
    model="gemini-2.0-flash",  # ✅ 支援的模型
    contents=query,
    config=types.GenerateContentConfig(
        tools=[
            types.Tool(google_maps=types.GoogleMaps(
                enable_widget=False
            ))
        ],
        tool_config=types.ToolConfig(
            retrieval_config=types.RetrievalConfig(
                lat_lng=types.LatLng(
                    latitude=latitude,
                    longitude=longitude
                ),
                language_code="zh-TW",  # 支援繁體中文
            ),
        ),
    ),
)

3. 環境設定

要使用 Maps Grounding，需要設定以下環境變數：

# 必要的環境變數
export GOOGLE_CLOUD_PROJECT="your-project-id"
export GOOGLE_CLOUD_LOCATION="global"
export GOOGLE_GENAI_USE_VERTEXAI="True"

# 認證方式（擇一）
# 方式 1: 使用 ADC (開發環境)
gcloud auth application-default login

# 方式 2: 使用 Service Account (生產環境)
export GOOGLE_APPLICATION_CREDENTIALS="/path/to/service-account-key.json"

# 啟用 Vertex AI API
gcloud services enable aiplatform.googleapis.com

實際應用範例

實作後的功能非常強大，可以用自然語言查詢附近地點：

async def search_nearby_places(
    latitude: float,
    longitude: float,
    place_type: str = "restaurant",
    custom_query: Optional[str] = None,
    language_code: str = "zh-TW"
) -> str:
    """
    使用 Google Maps Grounding API 搜尋附近地點

    範例查詢：
    - "請幫我找出附近的加油站，並列出名稱、距離和地址。"
    - "請幫我找出附近評價不錯的餐廳，並列出名稱、類型和地址。"
    """

使用情境

對話式助理：「幫我找附近好喝的義式濃縮咖啡店」
個人化推薦：「有哪些適合親子、步行可達的餐廳？」
地區總結：「這個飯店附近有什麼特色？」

這些應用場景特別適合：

🏠 房地產平台
✈️ 旅遊規劃
🚗 移動出行
📱 社交媒體

支援的模型清單

目前支援 Google Maps Grounding 的 Gemini 模型：

✅ Gemini 2.5 Pro
✅ Gemini 2.5 Flash
✅ Gemini 2.0 Flash
✅ Gemini 2.5 Flash with Live API
❌ Gemini 2.0 Flash-Lite（不支援）

Google Maps Platform Code Assist (MCP)

Code Assist Toolkit header

在開發過程中，我也發現 Google 推出了 Google Maps Platform Code Assist toolkit，這是一個基於 Model Context Protocol (MCP) 的工具，可以：

🔍 即時文件檢索：透過 RAG 技術搜尋最新的官方文件和程式碼範例
🤖 AI 助手整合：支援 Gemini CLI、Claude Code、Cursor 等多種開發環境
📚 豐富的資源：涵蓋官方文件、教學、GitHub 範例和安全資源

如何使用 MCP

# 使用 Node.js 安裝
npm install -g @googlemaps/code-assist-mcp

# 在 Claude Code 或 Cursor 中設定 MCP 伺服器
# 之後就能直接在 AI 助手中查詢最新的 Google Maps 文件
gemini extensions install https://github.com/googlemaps/platform-ai.git

#or

claude mcp add google-maps-platform-code-assist -- npx -y @googlemaps/code-assist-mcp@latest

這個工具特別適合在開發時快速查詢 API 用法，不用在瀏覽器和編輯器之間切換！

使用後的成果

iTerm2 2025-12-02 22.38.11

可以看到透過使用 Google Maps Platform Code Assist 之後，他們能找到完整的範例程式碼，並且知道要設定哪些相關參數。可以一次就將所有的功能都修復完成。

我原本有使用 Context7 但是對於 Google Map 相關的設定還是有錯誤，並且也使用錯的 API 。這部分還是需要找到相關的 MCP 來使用才會正確。

以下就是一段範例程式碼來使用 Google Map Grounding API

prompt = "What are the best Italian restaurants within a 15-minute walk from here?"

response = client.models.generate_content(
    model='gemini-2.5-flash',
    contents=prompt,
    config=types.GenerateContentConfig(
        # Turn on grounding with Google Maps
        tools=[types.Tool(google_maps=types.GoogleMaps())],
        # Optionally provide the relevant location context (this is in Los Angeles)
        tool_config=types.ToolConfig(retrieval_config=types.RetrievalConfig(
            lat_lng=types.LatLng(
                latitude=34.050481, longitude=-118.248526))),
    ),
)

目前需要注意的地方

1. 必須使用 Vertex AI

Maps Grounding 功能不支援一般的 Gemini Developer API，必須透過 Vertex AI 存取。

2. 認證設定

開發環境：使用 gcloud auth application-default login
生產環境：使用 Service Account 並設定 GOOGLE_APPLICATION_CREDENTIALS

3. 支援的模型

確保使用支援的模型（如 gemini-2.0-flash），避免使用 -lite 版本。

4. 區域選擇

建議將 GOOGLE_CLOUD_LOCATION 設為 global 以獲得最佳可用性。

5. 成本考量

Vertex AI 的計費方式與 Developer API 不同，建議先在定價頁面了解費用結構。

開發心得

這次從錯誤中學到的最大收穫是：並非所有 Gemini 功能都能透過 Developer API 存取。企業級功能如 Maps Grounding、進階安全過濾器等，都需要透過 Vertex AI。

雖然設定 Vertex AI 比單純使用 API Key 複雜一些，但換來的是：

✅ 更強大的功能（Maps Grounding、Search Grounding）
✅ 更完整的企業級支援
✅ 更靈活的部署選項
✅ 更細緻的存取控制

如果你正在開發需要位置感知的 AI 應用，Google Maps Grounding 絕對值得一試！

參考資料

November 14th, 2025

[VS Code][Colab] Google 正式釋出 Colab VS Code Plugin

Connecting to a new Colab server and executing a code cell

前情提要

Google Colab 是一個我很喜歡的服務，你可以在線上透過 JupyterNotebook 的介面，快速使用到 GPU (甚至是 TPU)。有許多需要大量運算資源的東西，都可以很快速的在遠端的機器上面執行。

我自己很常在上面去嘗試一些模型，雖然常常排隊排不到機器。

使用 Colab 可能有的痛點

雖然使用Google Colab 機器非常的方便，但是由於在線上編輯有一些比較麻煩的地方：

無法使用 Copilot 這類型的 Code Assist Tool 來幫我 Auto-Complete 一些程式碼
無法跑 Gemini CLI Code Assist 來幫我寫出一些更多的測試或是幫忙想應用。

Colab for VS Code Plugin

但是現在 Colab VS Code Extension 終於可以在 VS Code Plugin 上面使用了。你可以透過 “Colab” 直接找到官方釋出的 Plugin 。

Code 2025-11-14 15.55.03

安裝過程相當的簡單又快速。

連線到 Colab

Code 2025-11-14 15.23.10

如果要連線，在選擇 Kernel 的時候，就可以選擇 Colab 來遠端連線。

Code 2025-11-14 15.23.16

這裡還可以快速連線，或是找你上次連線過的伺服器。

Code 2025-11-14 15.23.22

這裡就是讓人興奮的地方，可以找找 TPU （不保證排得到隊伍）來用用看。

這樣就可以了。

實際應用：

Code 2025-11-14 15.54.52

這樣比較對味啦！！ Vibe Coding 出現之後，我們越來越習慣 Vibe Coding 了。但是如果需要 Step by Step 的去偵錯，或是想要跑一些大型機器才能運行的運算。真的還是需要透過 Colab 來幫忙，但是如果又希望可以有 Gemini CLI 的輔助的話，或許 Colab VS Code Extension 就是你不可或缺的好夥伴。

目前一些需要注意的地方

由於 Colab VS Code Plugin 還在持續開發中，有一些原本在 Colab Web UI 上可以使用的 google.colab 功能目前還無法在 VS Code 中使用。以下是一些主要的限制：

auth.authenticate_user(): 認證 URL 會出現在選單中，無法直接點擊。建議改用 Python Cloud Client Library。
drive.mount(): 目前無法掛載 Google Drive，可以改用 Drive Python API 來存取檔案。
files.download() / files.upload(): 原生的檔案上傳下載功能無法使用，但可以透過 IPyWidget 來達成相同效果。
userdata.get(): 目前會回傳錯誤，暫時需要從 Colab Web UI 複製 secret 值到 notebook 中。

雖然有這些限制，但整體來說 Colab VS Code Plugin 還是大幅提升了開發體驗，特別是對於習慣使用 VS Code 和各種 AI Coding Assistant 的開發者來說，絕對是值得一試的好工具！

參考資料

November 13th, 2025

[Python] LINE Bot 名片管家進化：一鍵生成 vCard QR Code，讓名片直接加入手機通訊錄

前情提要

在先前的 LINE Bot 智慧名片管家專案中，我們已經實作了使用 Gemini Pro Vision API 自動辨識名片的功能。使用者只要拍照上傳名片，AI 就能自動解析姓名、職稱、公司、電話、Email 等資訊，並儲存到 Firebase Realtime Database 中。

但在實際使用時，我發現了一個痛點：

📱 我已經有數位化的名片資料了，但要加入手機通訊錄還是得手動一個一個欄位輸入…

想像這些情境：

📇 參加研討會：收集了 20 張名片，辨識完成後還要手動加入通訊錄
💼 業務拜訪：拿到客戶名片，想快速加入手機聯絡人
🤝 社交場合：認識新朋友，希望立即儲存聯絡方式

於是我想：既然資料已經數位化了，為什麼不能一鍵加入通訊錄呢？

最理想的方式就是：生成 vCard QR Code，讓使用者掃描後直接加入通訊錄！

專案程式碼

https://github.com/kkdai/linebot-namecard-python

（透過這個程式碼，可以快速部署到 GCP Cloud Run，享受無伺服器的便利）

📚 關於 vCard 與 QR Code

vCard 格式介紹

vCard（Virtual Contact File）是一種電子名片的標準格式，副檔名為 .vcf。幾乎所有智慧型手機和郵件客戶端都原生支援 vCard，包括：

📱 iPhone：自動識別並提示「加入聯絡人」
🤖 Android：透過聯絡人 App 匯入
💻 電腦：Outlook、Apple Mail、Gmail 等都支援

vCard 3.0 格式範例

BEGIN:VCARD
VERSION:3.0
FN:Kevin Dai
N:Dai;Kevin;;;
ORG:LINE Taiwan
TITLE:Software Engineer
TEL;TYPE=WORK,VOICE:+886-123-456-789
EMAIL;TYPE=WORK:[email protected]
ADR;TYPE=WORK:;;Taipei, Taiwan;;;;
NOTE:Met at DevFest 2025
END:VCARD

QR Code + vCard 的優勢

將 vCard 編碼成 QR Code 有幾個好處：

✅ 一掃即加：相機 App 掃描後自動識別
✅ 跨平台：iPhone/Android 都支援
✅ 無需下載：不用儲存檔案再匯入
✅ 資料完整：包含所有聯絡資訊和備註

✨ 專案功能介紹

核心功能流程

使用者上傳名片圖片
    ↓
Gemini Vision API 辨識
    ↓
儲存到 Firebase Realtime Database
    ↓
顯示名片 Flex Message
    ↓
【新功能】點擊「📥 加入通訊錄」按鈕
    ↓
生成 vCard QR Code
    ↓
上傳到 Firebase Storage
    ↓
回傳 QR Code 圖片給使用者
    ↓
使用者掃描 → 加入通訊錄 ✅

新增功能亮點

📥 一鍵生成 QR Code
- 點擊名片上的「加入通訊錄」按鈕
- 自動生成包含完整資訊的 vCard QR Code
- 包含姓名、職稱、公司、電話、Email、地址、備註
☁️ Firebase Storage 整合
- QR Code 圖片上傳到 Firebase Storage
- 自動設為公開可讀取
- 透過 LINE ImageMessage 發送給使用者
🤖 Gemini Vision 協作
- 原有的名片辨識功能（Gemini Vision API）
- 辨識結果 → Firebase Database → QR Code
- AI 辨識 + 雲端儲存 + 行動應用的完整整合
📱 使用者友善
- 自動產生使用說明
- 支援 iPhone/Android
- 掃描即可加入通訊錄

💻 核心功能實作

1. vCard 格式生成

首先實作 vCard 格式字串的生成，這是整個功能的基礎。

檔案位置: app/qrcode_utils.py

def generate_vcard_string(namecard_data: Dict[str, str]) -> str:
    """
    Generate vCard 3.0 format string from namecard data.

    Args:
        namecard_data: Dictionary containing namecard fields

    Returns:
        vCard formatted string
    """
    name = namecard_data.get('name', '')
    title = namecard_data.get('title', '')
    company = namecard_data.get('company', '')
    phone = namecard_data.get('phone', '')
    email = namecard_data.get('email', '')
    address = namecard_data.get('address', '')
    memo = namecard_data.get('memo', '')

    # Build vCard 3.0 format
    vcard_lines = [
        'BEGIN:VCARD',
        'VERSION:3.0',
        f'FN:{name}',
        f'N:{name};;;',  # Family Name; Given Name; Additional Names; Honorific Prefixes; Honorific Suffixes
    ]

    if company:
        vcard_lines.append(f'ORG:{company}')

    if title:
        vcard_lines.append(f'TITLE:{title}')

    if phone:
        # Clean phone number format for vCard
        clean_phone = phone.replace('-', '').replace(' ', '')
        vcard_lines.append(f'TEL;TYPE=WORK,VOICE:{clean_phone}')

    if email:
        vcard_lines.append(f'EMAIL;TYPE=WORK:{email}')

    if address:
        # vCard address format: PO Box;Extended Address;Street;City;Region;Postal Code;Country
        vcard_lines.append(f'ADR;TYPE=WORK:;;{address};;;;')

    if memo:
        # Escape special characters in memo
        escaped_memo = memo.replace('\n', '\\n').replace(',', '\\,').replace(';', '\\;')
        vcard_lines.append(f'NOTE:{escaped_memo}')

    vcard_lines.append('END:VCARD')

    return '\n'.join(vcard_lines)

設計要點：

✅ 使用 vCard 3.0 格式（相容性最好）
✅ 處理空欄位：只在有資料時才加入對應欄位
✅ 電話號碼清理：移除 - 和空格，確保格式正確
✅ 特殊字元轉義：備註中的換行、逗號、分號需要轉義
✅ 完整資訊：包含備註欄位，保留 AI 辨識時的額外資訊

2. QR Code 圖片生成

使用 qrcode 套件將 vCard 字串編碼成 QR Code 圖片。

def generate_vcard_qrcode(namecard_data: Dict[str, str],
                          box_size: int = 10,
                          border: int = 2) -> BytesIO:
    """
    Generate QR Code image containing vCard data.

    Args:
        namecard_data: Dictionary containing namecard fields
        box_size: Size of each box in pixels (default: 10)
        border: Border size in boxes (default: 2)

    Returns:
        BytesIO object containing PNG image data
    """
    # Generate vCard string
    vcard_string = generate_vcard_string(namecard_data)

    # Create QR Code instance
    qr = qrcode.QRCode(
        version=None,  # Auto-determine version based on data size
        error_correction=qrcode.constants.ERROR_CORRECT_L,
        box_size=box_size,
        border=border,
    )

    # Add vCard data
    qr.add_data(vcard_string)
    qr.make(fit=True)

    # Generate image
    img = qr.make_image(fill_color="black", back_color="white")

    # Save to BytesIO
    img_bytes = BytesIO()
    img.save(img_bytes, format='PNG')
    img_bytes.seek(0)  # Reset pointer to beginning

    return img_bytes

關鍵參數說明：

參數	說明	選擇理由
`version=None`	自動決定 QR Code 大小	根據資料量自動調整，確保可掃描
`error_correction=L`	錯誤修正等級（Low）	vCard 資料不會頻繁損壞，選擇最小等級以減少 QR Code 大小
`box_size=10`	每個方塊 10 像素	在手機螢幕上有良好的掃描性
`border=2`	邊框 2 個方塊寬	符合 QR Code 標準的最小邊框

為什麼使用 BytesIO？

✅ 不需要寫入實體檔案系統
✅ 直接在記憶體中處理圖片
✅ 方便後續上傳到 Firebase Storage
✅ 減少 I/O 操作，提升效能

3. Firebase Storage 整合

這是整個功能的核心：將 QR Code 圖片上傳到 Firebase Storage 並取得公開 URL。

檔案位置: app/firebase_utils.py

from firebase_admin import storage
from io import BytesIO

def upload_qrcode_to_storage(
        image_bytes: BytesIO, user_id: str, card_id: str) -> str:
    """
    上傳 QR Code 圖片到 Firebase Storage 並回傳公開 URL

    Args:
        image_bytes: QR Code 圖片的 BytesIO 物件
        user_id: 使用者 ID
        card_id: 名片 ID

    Returns:
        圖片的公開 URL，若失敗則回傳 None
    """
    try:
        bucket = storage.bucket()
        blob_name = f"qrcodes/{user_id}/{card_id}.png"
        blob = bucket.blob(blob_name)

        # 上傳圖片
        image_bytes.seek(0)  # 重置指標到開頭
        blob.upload_from_file(image_bytes, content_type='image/png')

        # 設定為公開可讀取
        blob.make_public()

        # 回傳公開 URL
        return blob.public_url
    except Exception as e:
        print(f"Error uploading QR code to storage: {e}")
        return None

設計考量：

檔案路徑結構：qrcodes/{user_id}/{card_id}.png
- 按使用者分類，方便管理
- 使用 card_id 確保檔名唯一
- 同一張名片重複生成會覆蓋舊檔案
公開權限：blob.make_public()
- QR Code 需要被 LINE Bot 透過 URL 存取
- Firebase Storage Rules 設為 allow read: if true
- 寫入權限只給 Admin SDK（Cloud Run）
Content-Type 設定：content_type='image/png'
- 確保瀏覽器正確顯示圖片
- LINE ImageMessage 需要正確的 MIME type

4. Firebase 初始化配置

在 app/main.py 中正確設定 Firebase Storage Bucket：

import firebase_admin
from firebase_admin import credentials

# Firebase 初始化
firebase_config = {
    "databaseURL": config.FIREBASE_URL,
}
# 如果設定了 Storage Bucket，則加入配置
if config.FIREBASE_STORAGE_BUCKET:
    firebase_config["storageBucket"] = config.FIREBASE_STORAGE_BUCKET

try:
    cred = credentials.ApplicationDefault()
    firebase_admin.initialize_app(cred, firebase_config)
    print("Firebase Admin SDK initialized successfully.")
except Exception as e:
    # 從環境變數解析 JSON
    gac_str = os.environ.get("GOOGLE_APPLICATION_CREDENTIALS_JSON")
    if gac_str:
        cred_json = json.loads(gac_str)
        cred = credentials.Certificate(cred_json)
        firebase_admin.initialize_app(cred, firebase_config)
        print("Firebase Admin SDK initialized successfully from ENV VAR.")

環境變數設定：

# 部署到 Cloud Run 時需要設定
FIREBASE_STORAGE_BUCKET=your-project-id.firebasestorage.app

# 或舊格式
FIREBASE_STORAGE_BUCKET=your-project-id.appspot.com

為什麼需要明確設定 Storage Bucket？

Firebase Admin SDK 預設只初始化 Database
如果不指定 storageBucket，呼叫 storage.bucket() 會失敗
明確設定可避免執行時錯誤

5. LINE Bot Postback 處理

當使用者點擊「加入通訊錄」按鈕時，處理完整流程。

檔案位置: app/line_handlers.py

from linebot.models import ImageSendMessage, TextSendMessage

async def handle_download_contact(
        event: PostbackEvent, user_id: str, card_id: str, card_name: str):
    """處理下載聯絡人 QR Code 的請求"""
    try:
        # 1. 從 Firebase 取得完整的名片資料
        card_data = firebase_utils.get_card_by_id(user_id, card_id)
        if not card_data:
            await line_bot_api.reply_message(
                event.reply_token,
                TextSendMessage(text='找不到該名片資料。'))
            return

        # 2. 生成 vCard QR Code
        qrcode_image = qrcode_utils.generate_vcard_qrcode(card_data)

        # 3. 上傳到 Firebase Storage 並取得 URL
        image_url = firebase_utils.upload_qrcode_to_storage(
            qrcode_image, user_id, card_id)

        if not image_url:
            await line_bot_api.reply_message(
                event.reply_token,
                TextSendMessage(text='生成 QR Code 時發生錯誤，請稍後再試。'))
            return

        # 4. 生成使用說明
        instruction_text = qrcode_utils.get_qrcode_usage_instruction(card_name)

        # 5. 回傳 QR Code 圖片和使用說明
        image_message = ImageSendMessage(
            original_content_url=image_url,
            preview_image_url=image_url
        )
        text_message = TextSendMessage(text=instruction_text)

        await line_bot_api.reply_message(
            event.reply_token,
            [image_message, text_message])

    except Exception as e:
        print(f"Error in handle_download_contact: {e}")
        await line_bot_api.reply_message(
            event.reply_token,
            TextSendMessage(text='處理您的請求時發生錯誤，請稍後再試。'))

流程設計亮點：

✅ 完整錯誤處理：每個步驟都有錯誤檢查
✅ 友善提示：失敗時給予明確的錯誤訊息
✅ 一次回傳兩則訊息：圖片 + 說明文字
✅ 非同步處理：使用 async/await 避免阻塞

6. Flex Message 按鈕配置

在名片的 Flex Message 中新增「加入通訊錄」按鈕。

檔案位置: app/flex_messages.py

"footer": {
    "type": "box",
    "layout": "vertical",
    "spacing": "sm",
    "contents": [
        {
            "type": "box",
            "layout": "horizontal",
            "spacing": "sm",
            "contents": [
                {
                    "type": "button",
                    "style": "link",
                    "height": "sm",
                    "action": {
                        "type": "postback",
                        "label": "新增/修改記事",
                        "data": f"action=add_memo&card_id={card_id}",
                        "displayText": f"我想為 {name} 新增記事"
                    },
                    "flex": 1
                },
                {
                    "type": "button",
                    "style": "link",
                    "height": "sm",
                    "action": {
                        "type": "postback",
                        "label": "編輯資料",
                        "data": f"action=edit_card&card_id={card_id}",
                        "displayText": f"我想編輯 {name} 的名片"
                    },
                    "flex": 1
                }
            ]
        },
        {
            "type": "button",
            "style": "primary",
            "height": "sm",
            "action": {
                "type": "postback",
                "label": "📥 加入通訊錄",
                "data": f"action=download_contact&card_id={card_id}",
                "displayText": f"下載 {name} 的聯絡人資訊"
            },
            "margin": "sm"
        }
    ]
}

UI 設計考量：

┌────────────────────────────────────┐
│  [新增/修改記事]  [編輯資料]       │  ← 第一排並排（link style）
│  [📥 加入通訊錄]                   │  ← 第二排獨立（primary style）
└────────────────────────────────────┘

第一排並排：常用的編輯功能，使用 link 樣式
第二排獨立：下載功能，使用 primary 樣式突出顯示
Emoji 視覺化：📥 圖示讓使用者一眼識別下載功能

7. 使用說明生成

提供清楚的使用指引，讓使用者知道如何使用 QR Code。

def get_qrcode_usage_instruction(name: str) -> str:
    """
    Get user instruction message for using the QR Code.

    Args:
        name: Name of the person on the namecard

    Returns:
        Instruction message string
    """
    return f"""已為「{name}」生成聯絡人 QR Code！

📱 使用方式：
1. 用手機相機 App 掃描上方的 QR Code
2. 系統會自動識別聯絡人資訊
3. 點擊「加入聯絡人」即可匯入

✅ 支援 iPhone 和 Android 所有智慧型手機"""

設計理念：

✅ 個人化訊息：包含名片主人的姓名
✅ 步驟清楚：1-2-3 簡單明瞭
✅ 跨平台說明：強調 iPhone/Android 都支援
✅ Emoji 視覺化：📱 和 ✅ 讓訊息更友善

🤖 Gemini Vision API 在整體架構中的角色

雖然這次的 QR Code 功能本身沒有用到 Gemini，但整個名片管家系統是以 Gemini Vision API 為核心的完整應用。

Gemini + Firebase Storage 的協作流程

┌─────────────────────────────────────────────┐
│  使用者上傳名片照片                          │
└──────────────┬──────────────────────────────┘
               ↓
┌─────────────────────────────────────────────┐
│  LINE Bot 接收圖片                          │
│  (app/line_handlers.py)                    │
└──────────────┬──────────────────────────────┘
               ↓
┌─────────────────────────────────────────────┐
│  Gemini Pro Vision API 辨識                │
│  - 姓名、職稱、公司                         │
│  - 電話、Email、地址                        │
│  (app/gemini_utils.py)                     │
└──────────────┬──────────────────────────────┘
               ↓
┌─────────────────────────────────────────────┐
│  儲存到 Firebase Realtime Database         │
│  /namecard/{user_id}/{card_id}/            │
└──────────────┬──────────────────────────────┘
               ↓
┌─────────────────────────────────────────────┐
│  使用者點擊「📥 加入通訊錄」                 │
└──────────────┬──────────────────────────────┘
               ↓
┌─────────────────────────────────────────────┐
│  生成 vCard QR Code                        │
│  (app/qrcode_utils.py)                     │
└──────────────┬──────────────────────────────┘
               ↓
┌─────────────────────────────────────────────┐
│  上傳到 Firebase Storage                   │
│  qrcodes/{user_id}/{card_id}.png           │
│  (app/firebase_utils.py)                   │
└──────────────┬──────────────────────────────┘
               ↓
┌─────────────────────────────────────────────┐
│  回傳 QR Code 給使用者                      │
│  使用者掃描 → 加入通訊錄 ✅                  │
└─────────────────────────────────────────────┘

Gemini Vision API 的關鍵作用

在 app/gemini_utils.py 中，我們使用 Gemini Pro Vision 解析名片圖片：

def generate_json_from_image(img: PIL.Image, prompt: str):
    """
    Use Gemini Pro Vision to extract structured data from image.
    """
    model = genai.GenerativeModel('gemini-1.5-pro')
    response = model.generate_content([prompt, img])
    return response

Prompt 設計 (app/config.py)：

IMGAGE_PROMPT = """
這是一張名片，你是一個名片秘書。請將以下資訊整理成 json 給我。
如果看不出來的，幫我填寫 N/A
只好 json 就好:
name, title, address, email, phone, company.
其中 phone 的內容格式為 #886-0123-456-789,1234. 沒有分機就忽略 ,1234
"""

為什麼選擇 Gemini Vision？

✅ 中文辨識能力強：台灣名片常有中文，Gemini 處理效果好
✅ 結構化輸出：直接生成 JSON 格式，方便解析
✅ 容錯能力：無法辨識時自動填 “N/A”
✅ 彈性格式：支援各種名片版型

Firebase 雙服務整合

這個專案同時使用了 Firebase 的兩大服務：

服務	用途	資料類型	存取方式
Realtime Database	儲存名片結構化資料	JSON	`firebase_admin.db`
Storage	儲存 QR Code 圖片	Binary (PNG)	`firebase_admin.storage`

為什麼需要兩個服務？

Database：適合結構化資料，支援即時查詢和更新
Storage：適合大型二進位檔案，提供 CDN 加速

資料流向：

Gemini Vision → Database (結構化資料)
                    ↓
                QR Code 生成
                    ↓
                Storage (圖片檔案)
                    ↓
                LINE Bot (圖片 URL)

🔧 遇到的挑戰與解決方案

1. Firebase Storage Bucket 配置問題

問題：初始化 Firebase Admin SDK 時，沒有設定 Storage Bucket 導致錯誤。

錯誤訊息：

ValueError: Invalid None value for Firebase Storage bucket.

原因分析：

Firebase Admin SDK 預設只初始化 Realtime Database
必須在 initialize_app() 時明確指定 storageBucket
環境變數未正確設定

解決方案：

在 config.py 新增配置：

FIREBASE_STORAGE_BUCKET = os.environ.get("FIREBASE_STORAGE_BUCKET")

在 main.py 初始化時加入： ```python firebase_config = { “databaseURL”: config.FIREBASE_URL, } if config.FIREBASE_STORAGE_BUCKET: firebase_config[“storageBucket”] = config.FIREBASE_STORAGE_BUCKET

firebase_admin.initialize_app(cred, firebase_config)

3. **部署時設定環境變數**：
```bash
--set-env-vars "...,FIREBASE_STORAGE_BUCKET=line-vertex.firebasestorage.app,..."

學到的經驗：

Firebase 不同服務需要不同的配置參數
環境變數要完整檢查，避免 runtime 錯誤
新格式 .firebasestorage.app 和舊格式 .appspot.com 都支援

2. Storage Rules 的權限設定

問題：如何設定 Firebase Storage Rules，讓 Cloud Run 能寫入，但 QR Code 圖片可以公開讀取？

初始想法：

// ❌ 這樣會讓任何人都能寫入
allow read, write: if true;

正確方案：

利用 Firebase Admin SDK 會繞過 Rules 的特性：

rules_version = '2';

service firebase.storage {
  match /b/{bucket}/o {
    match /{allPaths=**} {
      allow read: if true;   // 任何人都可以讀取
      allow write: if false; // 禁止客戶端寫入
    }
  }
}

為什麼這樣可行？

✅ Cloud Run 使用 Admin SDK，有完整權限（繞過 Rules）
✅ allow read: if true 讓 LINE Bot 能透過 URL 存取圖片
✅ allow write: if false 阻止惡意客戶端上傳檔案
✅ blob.make_public() 設定的公開權限仍然有效

關鍵學習：

Admin SDK vs 客戶端 SDK 的權限差異
Storage Rules 只影響客戶端存取
雲端服務使用 Admin SDK 是最佳實踐

3. QR Code 大小與掃描性優化

問題：生成的 QR Code 太小或太大都不好掃描。

實驗過程：

參數組合	結果	問題
`box_size=5, border=1`	圖片太小	手機掃描困難
`box_size=15, border=4`	圖片太大	LINE 壓縮後失真
`box_size=10, border=2`	✅ 適中	掃描順暢

最終方案：

qr = qrcode.QRCode(
    version=None,         # 自動調整大小
    error_correction=qrcode.constants.ERROR_CORRECT_L,  # 低錯誤修正
    box_size=10,          # 每個方塊 10px
    border=2,             # 邊框 2 個方塊
)

為什麼選擇 ERROR_CORRECT_L（低錯誤修正）？

vCard 資料相對穩定，不會損壞
低錯誤修正 = QR Code 更簡單 = 掃描更快
如果用高錯誤修正（H），QR Code 會變得很複雜

實測結果：

✅ iPhone 相機：秒掃
✅ Android 相機：秒掃
✅ LINE 內建掃描器：正常

4. vCard 特殊字元處理

問題：備註中如果有換行、逗號、分號等特殊字元，會導致 vCard 格式錯誤。

錯誤範例：

NOTE:這個人很重要,記得要聯絡;下次見面時間: 2025/11/15

vCard 解析器會把逗號和分號當作分隔符，導致資料錯亂。

解決方案：

if memo:
    # Escape special characters in memo
    escaped_memo = memo.replace('\n', '\\n').replace(',', '\\,').replace(';', '\\;')
    vcard_lines.append(f'NOTE:{escaped_memo}')

vCard 轉義規則：

字元	轉義後	說明
換行 `\n`	`\\n`	文字中的換行
逗號 `,`	`\\,`	避免當作分隔符
分號 `;`	`\\;`	避免當作分隔符

學到的經驗：

vCard 有自己的轉義規則，不能直接照搬 JSON
使用者輸入的備註可能包含任何字元
完整測試各種特殊字元情況

5. BytesIO 指標重置問題

問題：上傳圖片到 Firebase Storage 時，有時會上傳空檔案。

錯誤原因：

img_bytes = BytesIO()
img.save(img_bytes, format='PNG')
# ❌ 此時指標在檔案末端

blob.upload_from_file(img_bytes, content_type='image/png')
# ❌ 從末端開始讀取 = 讀到空內容

解決方案：

img_bytes = BytesIO()
img.save(img_bytes, format='PNG')
img_bytes.seek(0)  # ✅ 重置指標到開頭

blob.upload_from_file(img_bytes, content_type='image/png')

為什麼需要 seek(0)？

img.save() 會移動指標到檔案末端
upload_from_file() 從當前位置開始讀取
如果不重置，會讀取 0 bytes

學到的經驗：

使用 BytesIO 要注意指標位置
寫入後要記得 seek(0) 再讀取
這是常見的新手陷阱

6. LINE ImageMessage 的 URL 要求

問題：有時候 QR Code 無法在 LINE 中顯示。

原因分析：

LINE Bot 的 ImageSendMessage 對 URL 有嚴格要求：

✅ 必須是 HTTPS
✅ 圖片必須是 JPEG 或 PNG
✅ URL 必須公開可存取
✅ original_content_url 和 preview_image_url 可以相同

正確用法：

image_message = ImageSendMessage(
    original_content_url=image_url,  # Firebase Storage 的 public URL
    preview_image_url=image_url      # 可以用同一個 URL
)

Firebase Storage 的優勢：

✅ 自動提供 HTTPS URL
✅ blob.make_public() 確保公開存取
✅ CDN 加速，載入快速
✅ blob.public_url 直接取得完整 URL

🎯 總結與未來改進

專案亮點

🤖 AI 驅動的名片辨識
- Gemini Pro Vision API 自動解析名片
- 支援中文名片，辨識準確率高
- 結構化資料儲存，方便後續處理
📥 一鍵加入通訊錄
- vCard QR Code 標準格式
- iPhone/Android 原生支援
- 掃描即加，無需手動輸入
☁️ Firebase 雙服務整合
- Realtime Database 儲存結構化資料
- Storage 儲存 QR Code 圖片
- Admin SDK 確保安全性
🚀 無伺服器架構
- 部署到 Google Cloud Run
- 自動擴展，按需付費
- 冷啟動優化，回應快速
🎨 使用者體驗優化
- LINE Flex Message 精美介面
- Postback 按鈕互動流暢
- 清楚的使用說明

架構優勢

┌────────────────────────────────────────┐
│        Google Cloud Platform           │
│  ┌──────────────────────────────────┐  │
│  │      Cloud Run (無伺服器)        │  │
│  │  - FastAPI                       │  │
│  │  - LINE Bot SDK                  │  │
│  │  - Firebase Admin SDK            │  │
│  └──────────────────────────────────┘  │
│                                        │
│  ┌──────────────────────────────────┐  │
│  │   Gemini Pro Vision API         │  │
│  │  - 名片圖片辨識                  │  │
│  │  - 結構化資料提取                │  │
│  └──────────────────────────────────┘  │
│                                        │
│  ┌──────────────────────────────────┐  │
│  │      Firebase Services           │  │
│  │  - Realtime Database (名片資料)  │  │
│  │  - Storage (QR Code 圖片)        │  │
│  └──────────────────────────────────┘  │
└────────────────────────────────────────┘

實戰經驗分享

1. Firebase 服務的選擇

何時用 Realtime Database？

✅ 結構化資料（JSON）
✅ 需要即時查詢和更新
✅ 資料量不大（名片資訊）
✅ 需要簡單的查詢邏輯

何時用 Firebase Storage？

✅ 二進位檔案（圖片、影片、PDF）
✅ 需要公開存取 URL
✅ 需要 CDN 加速
✅ 檔案大小較大

這個專案的最佳組合：

名片文字資料 → Realtime Database
QR Code 圖片 → Storage

2. vCard 標準的實用性

vCard 是個被低估的標準：

✅ 跨平台：所有裝置都支援
✅ 無需 APP：不用安裝額外軟體
✅ 標準化：30 年歷史的成熟標準
✅ 可擴展：支援照片、社群媒體等

使用情境遠超名片：

電子郵件簽名檔
網站「聯絡我們」頁面
會議報到系統
社群媒體個人檔案

3. QR Code 的設計哲學

好的 QR Code 設計：

✅ 大小適中（10-15 px per module）
✅ 最小邊框（2 modules）
✅ 低錯誤修正（如果內容穩定）
✅ 高對比度（黑白最佳）

避免過度設計：

❌ 加入 Logo（增加掃描難度）
❌ 使用彩色（容易失真）
❌ 過度藝術化（降低可讀性）

4. Firebase Admin SDK vs 客戶端 SDK

特性	Admin SDK	客戶端 SDK
執行環境	伺服器端	瀏覽器/手機
權限	完整權限（繞過 Rules）	受 Rules 限制
認證	Service Account	使用者認證
適用場景	Cloud Run, Cloud Functions	Web App, Mobile App
安全性	高（不暴露憑證）	需要 Rules 保護

這個專案的選擇：

✅ 使用 Admin SDK（Cloud Run 環境）
✅ Storage Rules 設為 write: false
✅ Admin SDK 仍可寫入（繞過 Rules）

5. Gemini API 的最佳實踐

Prompt 設計技巧：

# ✅ 好的 Prompt
"""
這是一張名片，你是一個名片秘書。請將以下資訊整理成 json 給我。
如果看不出來的，幫我填寫 N/A
只好 json 就好:
name, title, address, email, phone, company.
"""

# ❌ 不好的 Prompt
"Extract name, title, company from this business card"

為什麼第一個更好？

✅ 角色設定：「你是名片秘書」讓 AI 理解任務
✅ 明確格式：要求 JSON，不要其他說明
✅ 容錯處理：無法辨識時填 N/A
✅ 中文指令：處理中文名片時更準確

未來改進方向

1. 功能擴展

短期（1-2 週）：

QR Code 加入公司 Logo（提升品牌識別）
支援多種 QR Code 樣式選擇
QR Code 下載為檔案（不只圖片連結）
批次生成多張名片的 QR Code

中期（1-2 個月）：

整合 NFC 虛擬名片（iPhone Wallet）
支援 vCard 4.0 格式（更多欄位）
名片分享統計（誰掃描了 QR Code）
自訂 QR Code 設計（顏色、形狀）

長期（3-6 個月）：

AI 名片管理助手（自動分類、提醒聯絡）
與 Google Contacts / iCloud 同步
名片交換記錄（何時何地交換）
社群媒體整合（LinkedIn, Facebook）

2. 效能優化

QR Code 快取機制：

# 目前：每次都重新生成並上傳
# 改進：檢查名片資料是否變更
if card_data_hash == cached_hash:
    return cached_qrcode_url  # 直接回傳快取的 URL

Storage 成本優化：

設定 QR Code 過期時間（7 天後自動刪除）
使用 Cloud Storage Lifecycle Management
壓縮圖片大小（目前約 5KB，可降至 2KB）

Cloud Run 冷啟動優化：

使用最小化的 Docker Image
Pre-import 常用套件
設定最小實例數（避免冷啟動）

3. 安全性強化

當前挑戰：

QR Code 圖片是公開的（任何人有 URL 都能存取）
沒有使用者配額限制（惡意使用者可大量生成）
沒有 Rate Limiting（防止 DoS）

改進方案：

Signed URL（簽名 URL）：

# 使用時效性 URL，1 小時後失效
blob.generate_signed_url(expiration=timedelta(hours=1))

使用者配額管理：

# Firebase Database 記錄每個使用者的 QR Code 生成次數
qrcode_count = db.reference(f"qrcode_quota/{user_id}").get()
if qrcode_count > 100:  # 每日上限 100 次
 return "您已達到今日生成上限"

Rate Limiting： ```python from slowapi import Limiter limiter = Limiter(key_func=get_remote_address)

@app.post(“/webhook”) @limiter.limit(“100/minute”) # 每分鐘最多 100 次請求 async def webhook(request: Request): …

#### 4. 使用體驗提升

**Rich Menu 設計**：

┌────────────┬────────────┬────────────┐ │ 📸 拍攝名片 │ 📇 我的名片 │ ⚙️ 設定 │ ├────────────┼────────────┼────────────┤ │ 📥 匯入名片 │ 🔍 搜尋名片 │ 💡 使用教學 │ └────────────┴────────────┴────────────┘

**名片分享功能**：
- 使用者可以分享自己的名片 QR Code
- 類似 LINE 的「我的 QR Code」
- 對方掃描後自動加入聯絡人

**智能提醒**：
```python
# 使用 Gemini 分析備註，自動設定提醒
if "下週要聯絡" in memo:
    # 設定 7 天後的提醒
    send_reminder(user_id, card_id, days=7)

關鍵學習

透過這個專案，我深入學習了：

Firebase 生態系統
- Realtime Database vs Firestore vs Storage 的選擇
- Admin SDK 的權限模型與 Rules 的關係
- 多服務整合的最佳實踐
vCard 與 QR Code 標準
- vCard 3.0 的格式規範與轉義規則
- QR Code 參數優化（大小、錯誤修正）
- 跨平台相容性測試
Gemini Vision API
- Prompt Engineering 技巧
- 結構化資料提取
- 中文處理的最佳實踐
LINE Bot 開發
- Flex Message 進階排版
- Postback 互動設計
- ImageMessage 的 URL 要求
雲端原生架構
- 無伺服器設計模式
- 環境變數管理
- Storage 與 Database 的分工

最重要的體悟：

AI + 雲端 + 即時通訊 = 無限可能

這個專案展示了如何將三大技術結合：

🤖 AI：Gemini Vision 自動辨識名片
☁️ 雲端：Firebase 資料儲存 + Cloud Run 部署
💬 即時通訊：LINE Bot 作為使用者介面

關鍵成功因素：

✅ 選對工具（Gemini for OCR, Firebase for Storage）
✅ 標準化格式（vCard 確保相容性）
✅ 使用者體驗（一鍵加入通訊錄，無需學習）
✅ 安全設計（Admin SDK + Storage Rules）

希望這個經驗分享能幫助到正在探索 AI 應用開發的朋友們！

前情提要

使用的神奇 Prompt

關於 Vertex AI - API Key

技術架構

開發過程中遇到的問題

問題 1：Streamlit API 棄用警告

問題 2：google-genai Part.from_text 調用錯誤

問題 3：ImageConfig 參數驗證錯誤

問題 4：圖片比例不符預期

完整實作

核心函數：optimize_image_with_gemini

主要流程

實際效果

處理流程

優化前後對比

處理統計

開發心得

1. API 文檔要看最新版

2. Pydantic 驗證是雙面刃

3. 圖像生成 API 的限制

4. 批次處理的用戶體驗

5. 成本考量

6. 從手動到自動化的價值

總結

專案結構

環境設定

必要套件

環境變數

啟動應用

使用說明

已知限制

未來改進方向

參考資料

專案連結

前情提要

畫面展示

主要 Repo https://github.com/kkdai/linebot-helper-python

開發過程中遇到的問題

問題 1：舊版實作的瓶頸

問題 2：Client Closed 錯誤

正確的解決方案

1. 使用 Vertex AI Grounding with Google Search

2. 建立 Chat Session Manager

3. 實作搜尋和回答函數

4. 整合到 main.py

實際應用範例

範例 1：基本問答

範例 2：連續對話（對話記憶）

範例 3：最新資訊搜尋

使用情境

環境設定

必要環境變數

不再需要的環境變數

代碼清理

移除舊版 searchtool 代碼

清理成果

支援的模型清單

效能提升

速度比較

成本分析

目前需要注意的地方

1. 必須使用 Vertex AI

2. 認證設定

3. 支援的模型

4. Client 生命週期

5. Prompt 優化

開發心得

1. Grounding 是遊戲規則改變者

2. Client 生命週期管理很重要

3. RAG 不一定要自己實作

4. Session 管理比想像中簡單

5. Prompt 優化的重要性

6. 從失敗中學習

總結

測試步驟

1. 啟動應用程式

2. 測試基本功能

3. 檢查日誌

相關文檔

參考資料