Senior SRE/DevOps Engineer(營運部)

求人情報の更新:約1時間前
雇用主は 2日前にアクティブでした

求人内容

我們從計程車叫車 App 出發,55688 App 已突破 720 萬會員、累積超過 100 萬次下載,並維持 4.8 星高評價。隨著服務擴展至快遞、找專家、洗衣等生活服務,我們正朝向能承載高即時流量與高可靠度需求的 Super App 邁進。

目前團隊已具備研發與第一線維運人員,正在建立 SRE(可靠度工程)能力,希望邀請對系統穩定性、工程化改善有熱情的工程師,一起把基礎打好、制度建起來。

一、職務定位

1. 負責維持系統在 7x24x365 營運模式下的穩定性、可用性與可擴展性,透過工程化方式降低事故發生率、縮短復原時間,並建立自動化、標準化的部署與維運流程,使系統能安全、快速、可預期地持續交付。同時與研發工程師密切合作,將穩定度、可維運性與交付能力內建於產品開發流程中。

2. 這是一個 SRE / DevOps 的探索與建設角色(0→1),我們不期待你一來就建立完整 SRE 體系,能與團隊逐步建立可靠度工程的基礎能力與共識。

二、Incident / on-call 分工說明

1. L1(第一線)即時應變:由維運人員負責。

2. 本職位為 L2 on-call 支援角色,專注在可靠度與穩定性。

3. 核心價值在於:

* 事後改善。

* 制度建立。

* 用工程方式降低事故發生率與影響範圍。

三、你會做的事(工作內容)

(一) SRE(可靠度工程|L2)

1. 與團隊一起盤點關鍵服務,逐步導入服務可靠度目標:

* Service Level Agreement

* Service Level Objective

* Error Budget

2. 協助設計與改善系統架構:

* 高可用架構(Load Balancer、Auto Scaling、Failover)。

* 健康檢查與自動復原機制。

3. 進行容量規劃與壓力評估:

* Capacity Planning。

* 事前評估壅塞與資源不足風險。

4. 建立與優化可觀測性(Observability):

* Metrics(CPU、Memory、QPS、Latency、Error Rate)

* Logs(集中化日誌)

* Tracing(分散式追蹤)

5. 設計合理告警策略:

* 避免大量無效或過度頻繁告警。

* 讓告警更貼近實際風險與業務影響。

6. 參與 L2 on-call 支援:

* 協助分析系統性問題與 Root Cause。

* 評估是否需要:

a. 回滾版本。

b. 降級服務。

c. 進行跨系統處置。

7. 主導或協助完成 Incident Report 與 Postmortem:

* 系統性整理事故過程與影響。

* 將每一次事故轉化為具體改善行動與制度。

* 追蹤改善措施的落實情況。

(二) DevOps

1. 建立與維護 CI/CD Pipeline:

* 例如 Jenkins、GitLab CI、GitHub Actions。

* 確保流程穩定、可重複且易維護。

2. 將以下流程自動化,降低人工操作風險:

* Build。

* Test。

* Security Scan。

* Deploy。

3. 支援多環境的一致性與部署效率:

* Dev 環境。

* Staging 環境。

* Production 環境。

4. 導入 Infrastructure as Code:

* 例如 Terraform。

* 提升環境管理與佈署的可重現性與可追蹤性。

5. 建立與完善發布與回復機制

6. 與 QA、RD 協作:

* 透過流程與工具設計降低發版風險。

* 在速度與穩定之間取得平衡。

(三) 與研發與維運團隊協作

1. 與 RD 協作,將穩定度與可觀測性納入開發流程,例如:

* 設計 Health Check 機制,讓系統狀態可被自動偵測與監控。

* 規劃服務降級與備援設計,確保在部分功能異常時,核心流程仍可運作。

* 持續消除單點故障(SPOF),提升整體架構的高可用性。

2. 提供標準化平台能力,讓各產品團隊能共用:

* CI/CD Pipeline 範本。

* 監控標準模組。

* 告警標準規則。

3. 與研發與維運團隊共同建立基礎 SRE 實踐:

* Incident handling 流程:

a. 通報。

b. 應變。

c. 復原。

* Runbook 撰寫與持續改善:

a. 讓常見情境有標準作業手冊可依循。

* 基本 SLO / Error Budget 導入與追蹤。

4. 透過文件、分享與實務協作:

* 提升團隊對 SRE 思維與方法的理解。

* 建立跨團隊對穩定度的共同語言與共識。

四、我們期待你具備的條件

(一) 必備條件

1. 3–5 年以上 DevOps 或 SRE 相關實務經驗。

2. 熟悉作業系統與網路基礎:

* TCP/IP。

* DNS。

* HTTP。

* Load Balancer 等相關概念。

3. 熟悉至少一種雲端平台:

* 例如 GCP 或 Azure。

4. 熟悉容器與編排技術

5. 具備 CI/CD Pipeline 建置或維護經驗。

6. 熟悉或曾接觸 Observability 工具,例如:

* Prometheus / Grafana。

* ELK(Elasticsearch / Logstash / Kibana)。

* Datadog。

* OpenTelemetry 等。

7. 能配合 L2 on-call 支援:

* 接受輪值制度。

* 願意以工程方式持續降低 on-call 負擔與頻率。

8.具領導資淺同仁、指派工作經驗,協同完成工作內容。

(二) 加分條件

1. 有即時高流量系統經驗(即時服務、電商、金流)。

2. 具效能調校、容量規劃或壓力測試實務經驗。

3. 具雲端或平台資安實務經驗,例如:

* 權限設計。

* 資安防護。

* 合規與稽核相關經驗。

這不是一個「只是在前線救火」的職位, 而是一個能與團隊一起把 SRE 能力與制度從 0 建起來的角色。

如果你喜歡把混亂變成秩序、

把事故變成制度、

把人力應變變成工程化改善,

我們會很期待和你聊聊。

1
5年以上の経験必須
50,000 ~ 80,000 TWD / 月
一部リモートワーク可
個人用招待リンク
このリンクはあなた専用の求人招待リンクです。リンク経由で誰かが応募するとメールで通知されます。
この求人をシェア
この求人に応募した人は他にこんな求人も応募しています
フルタイム
中上級レベル
3
応相談
フルタイム
エントリーレベル
1
30K ~ 60K TWD / 月
フルタイム
中上級レベル
2
800K ~ 1.8M TWD / 年
フルタイム
エントリーレベル
1
800K ~ 1.2M TWD / 年
フルタイム
中上級レベル
1
応相談

私たちについて

55688集團-台灣智慧生活網股份有限公司

55688集團從過往以『車』為中心轉變為以『人』為核心,從民眾生活面向發展平台媒合,子公司台灣智慧生活網的成立,更是期待透過乘車大數據和AI技術,開放平台成為場域提供者,廣邀其他生態圈加入,攜手創造平台多元化的價值。55688集團旗下關係企業,包括:台灣大車隊、55688代駕、全球快遞、潔衣家、生活大管家、金讚保修和台灣大旅遊等,皆以新創經濟為主軸,不斷擴展多角化的商業模式,相信將成為集團未來強大的發展助力。

台灣智慧生活網將專注生活服務媒合為核心量能,透過數位科技、大數據運用、AI分析、全方位金流支付與高含金的680萬用戶數,媒合供需雙邊形成「新生活服務生態圈」,創造平台流量與價值,發展超級APP(super app)。

如果你正在尋找一個能發揮自己的實力、揮灑無限創造力的舞台,
55688集團誠摯邀請您成為我們的夥伴。